Uw e-mails en foto's zijn de grote schuldigen

Redactie Trends

31-10-2002, 00:00 Bijgewerkt op: 20-07-2022, 07:43 3 min leestijd

In een vorige bijdrage had ik het over het boek De aandachtseconomie van Thomas H.Davenport en John C.Beck. Bedrijven concurreren enerzijds steeds meer om de aandacht van consumenten, anderzijds op basis van het vermogen intern de aandacht van hun medewerkers te focussen.

In dit verband is het heel verhelderend een kijkje te nemen op de website ‘How much information’ van de universiteit van Berkeley (www.sims.berkeley.edu/research/projects/how-much-info). Daarop wordt verslag gedaan van een onderzoek over de hoeveelheid data en informatie die dagelijks geproduceerd wordt. Dit onderzoek werd geleid door Peter Lyman en Hal Varian, die coauteur was van Information Rules, het beste boek dat er is over informatie-economie.

Aandacht krijgen. Wie erover denkt een boek te produceren, leert gelijk hoe moeilijk het zal zijn om aandacht te krijgen: jaarlijks worden er ongeveer een miljoen boeken uitgegeven. Toch vormt gedrukt materiaal in al zijn vormen slechts 0,003% van het totaal aan informatie.

Tot 1999 produceerde de mensheid 12 exabytes aan informatie. Sindsdien zou dat aantal alweer verdubbeld zijn. EMC, een bedrijf dat zich onder meer toelegt op dataopslag en het Berkeley-onderzoek financierde, heeft op haar website (www.emc.com) een teller die bijhoudt hoeveel exabytes er sinds 1 januari 2001 zijn geproduceerd. Die staat al weer boven 12 exabytes.

Voor alle duidelijkheid: een exabyte is gelijk aan 1018 bytes. Met één byte kun je 1 karakter weergeven; op 5 megabytes (5 x 106 bytes) kun je het verzameld werk van Shakespeare of 30 seconden video opslaan. Voor 1 terabyte = 1 miljoen megabytes = 1012 bytes heb je 1 miljoen boeken van gemiddelde omvang, dus de jaarlijkse productie. De totale gedrukte collectie van de grootste bibliotheek ter wereld, de US Library of Congress, wordt geschat op 10 terabytes. Een exabyte is 1 miljoen teraybytes en dus 100.000 keer die bibliotheek. Men schat dat alle door de mensheid ooit gesproken woorden samen op iets meer dan 5 exabytes uitkomen. Als we Berkeley en EMC mogen geloven, dan groeit de informatievoorraad nu jaarlijks met ongeveer 6 à 7 exabytes.

Wat verklaart deze informatie-explosie? De Berkeley-onderzoekers wijzen sterk in de richting van e-mail. E-mails alleen zijn vijfhonderd keer zo omvangrijk als het hele world wide web. Ten tijde van het onderzoek groeide dat web weliswaar met ongeveer 7,3 miljoen pagina’s per dag – ik kan me inbeelden dat dit nu wat minder is. Maar dat leidt in totaal tot niet meer dan 50 terabytes, waarvan minder dan de helft tekst. Klein bier tegen de e-mailtjes: in 2000 ongeveer 1 biljoen. Dat leidt tot een veelvoud aan terabytes: ongeveer 20.000 schatten de onderzoekers. Oké, dat is veel, maar daarmee komen we niet aan die miljoenen terabytes per jaar. Waar zitten die dan wel?

We moeten dan in twee richtingen zoeken. De eerste is het zogenaamde ‘diepe web’, de vele gespecialiseerde databases die via het world wide web al dan niet vrij toegankelijk zijn. De onderzoekers schatten dit soort documenten en bestanden op ongeveer 550 miljard, goed voor 7500 terabytes. De twee grootste sites van dit diepe web alleen al (de ruimtevaartorganisatie Nasa en het National Climatic Data Center in de Verenigde Staten) omvatten bijna zeshonderd terabytes of 7,8% van het diepe web. Het geeft aan dat veel van deze ‘informatie’ niet veel meer is dan eindeloze reeksen ruwe data. Maar ook als je deze data meerekent, kom je uit op nauwelijks 1 exabyte.

Een hint van waar we die bulk aan bytes wel moeten zoeken, kreeg u al toen ik vertelde dat de hele Shakespeare gelijk staat aan 30 seconden video. Toch omvatten de 4000 films per jaar (alle categorieën samen) slechts 16 terabytes. De sleutel voor het mysterie ligt bij de 82 miljard foto’s die per jaar leiden tot 410.000 terabytes. Dit is meteen het grootste getal in de tabellen. Home video voegt daar nog eens 300.000 terabytes aan toe. Röntgenfoto’s van ons allen wegen twee keer zo zwaar als de hele inhoud van het world wide web, het ‘diepe’ meegerekend. De onderzoekers hebben het dan ook over de ‘democratisering van de data’, want de meeste bytes komen van burgers als u en ik.

Grote getallen. Allemaal heel indrukwekkend, maar toch kan ik me moeilijk aan de indruk ontdoen dat de onderzoekers wat te veel op grote getallen uit waren en alles daarom zwaar aanzetten. Ten eerste blijkt dat de meeste data – al die getallenreeksen bijvoorbeeld – nog geen informatie zijn. Bovendien blijkt dat de grootste explosie komt van audio en video, die staan voor informatie met een relatief lage dichtheid, maar die veel ruimte opeist. Daar komt bij dat de schattingsmarges juist bij die laatste componenten heel erg breed zijn: over foto’s zeggen de auteurs dat de jaarlijkse groei “ergens tussen 41.000 en 410.000 terabytes moet liggen”. Maar het hoogste getal wordt telkens meegenomen in de eindschatting. Dat is natuurlijk in het belang van opdrachtgever EMC. Voor mensen met een reputatie als de hoofdauteurs valt me dat eerlijk gezegd wat tegen.

Dany Jacobs [{ssquf}]

De auteur is hoogleraar strategisch management aan de Rijksuniversiteit

Groningen en associate dean van TSM Business School, de business-school

van de universiteiten van Groningen en Twente.

Tot 1999 produceerde de mensheid 12 exabytes aan informatie. Sindsdien zou dat aantal alweer verdubbeld zijn.

Fout opgemerkt of meer nieuws? Meld het hier