Wie nog altijd twee keer moet nadenken bij de betekenis van ‘giga’ en ‘tera’ in het computerjargon, kan zich maar beter concentreren op ‘peta’, ‘exa’ en ‘zetta’. Die binaire voorvoegsels staan respectievelijk voor 1 miljoen, 1 miljard en 1 biljoen gigabytes en ze worden steeds vaker gebruikt: het volume van de digitale gegevens explodeert en nam al toe van 1,2 zettabytes in 2010 tot 1,8 zettabytes in het jaar daarop.
Die stortvloed is al langer een gespreksthema onder computerfreaks, maar 2012 wordt het jaar waarin de trend van big data ook buiten hun rangen bekend geraakt. Heel wat firma’s beginnen de enorme stapels gegevens te analyseren om van alles en nog wat te optimaliseren, gaande van hun bevoorradingsketens tot hun klantenrelaties.
Vroeger was gegevensopslag duur en moesten heel wat data weggeworpen worden. De informatie zat opgesloten in computersystemen en kon niet uit andere bronnen betrokken worden.
Daarin komt nu zeer snel verandering. De prijs voor opslagruimte keldert. De marktonderzoeksfirma Forrester voorspelt dat het in 2020 nog amper 4 dollar kost om een petabyte op te slaan. Software die zo’n grote datavolumes aankan, wordt eveneens beter. Hadoop, een nieuw soort van database, kan gebruikt worden om grote gegevensstromen in real time uit te pluizen en dan gaat het niet alleen om netjes geordende cijfers, maar ook om ‘ongestructureerde’ gegevens, om het even welke soort van tekst bijvoorbeeld.
Besparingen
In een wereld die eindeloos gegevens spuit, meten sensoren alles, van snelheid tot geuren. Smartphones genereren een enorme hoeveelheid data: informatie die geproduceerd wordt wanneer de gebruiker bijvoorbeeld gaat skiën en een bewegingssensor de gsm meedeelt dat hij net zwaar gevallen is.
Ook sociale media dragen bij tot de overvloed: het aantal boodschappen op Twitter stijgt tegen het einde van 2012 tot meer dan 500 miljoen per dag. Sommige overheden doen net hetzelfde door hun gegevenskluizen open te zetten.
Het belangrijkste is evenwel dat de ondernemingen tot het inzicht komen dat ze waarde kunnen halen uit die gegevens. Een studie van de denktank McKinsey Global Institute kwam tot het besluit dat de analyse van data over de gezondheidszorg in de VS alleen al 300 miljoen dollar aan besparingen kan opleveren.
Wil big data echt enorm worden, dan moeten nog een paar hindernissen overwonnen worden. In de eerste plaats zijn de instrumenten om de data te analyseren nog niet goed genoeg. Mensen die bekwaam zijn om gegevens te analyseren zijn zeldzaam en worden almaar zeldzamer. Tegen 2018 ontstaat er een ‘talentkloof’ van 140.000 tot 190.000 mensen, zegt het McKinsey Global Institute. Het belangrijkste probleem kan evenwel de bescherming van de persoonlijke levenssfeer zijn. Het is niet erg waarschijnlijk dat de mensen willen leven in een ‘yottawereld’ (1000 biljoen gigabytes), waarin al hun bewegingen onmiddellijk worden gedigitaliseerd en toegevoegd aan de vloed van publieke gegevens.
De auteur is onlineredacteur bedrijven en financiën van The Economist.
LUDWIG SIEGELE