KAN JE TE VEEL DATA HEBBEN?
Informatie is goed. Meer informatie is beter. De naam ‘data-mining’ alleen al verraadt wat er mee wordt bedoeld: je moet maar diep genoeg delven en je stoot op een goudmijn.
Als je een beklaagde maar lang genoeg en grondig genoeg ondervraagt, zal hij vroeg of laat wel iets bekennen. Geldt dat ook voor onze databases? Kan je ook data martelen tot ze bekennen? Het antwoord is ja! De Amerikanen spreken over ‘data-torturing’, want voor harde ondervragingsmethodes moet je bij hen zijn.
De meeste gegevens zijn statistisch van aard. Gegevens vormen meestal een patroon. Maar ook het toeval kan voor patronen zorgen. Statistici trachten daarom te kwantificeren hoeveel kans er is dat ook het toeval zo’n patroon zou veroorzaken. Statistici hebben dat toeval een naam en een getal gegeven: significantie en 5 % (of 1 % of 1 pro mille). Iets is dus significant op het 5 % als het toeval dit slechts in 5 % van de gevallen zou kunnen veroorzaken. Het toeval kan immers altijd voor capriolen zorgen. We zijn immers in de statistische wereld van niets zeker, behalve van de dood en de belastingen.
Als het IPCC stelt dat de opwarming der aarde veroorzaakt is door de mens en dat ze daar 90 % zeker van is, dan wil dat de facto zeggen dat het patroon van data zo extreem is dat er slechts 10 % kans is dat toevallige patronen (of patronen op basis van processen die niets te maken hebben met opwarming der aarde) dit zou kunnen veroorzaken. Hoe meer data de onderzoekers rond de klimaatverandering verzamelen, hoe zekerder ze worden, want alle data blijven in dezelfde richting wijzen. Bij een volgend rapport zullen ze melden dat ze nu 95 % zeker zijn geworden, of … dat er onverklaarbare afkoeling is ingetreden en dan zal dat cijfer van 95 % drastisch dalen, ook al blijft de temperatuur stijgen.
5 % of 1 % lijkt niet veel, maar als je die kleine percentages gaat toepassen op heel grote databases krijg je heel wat valse alarmen. Veronderstel dat je een reusachtige database samenstelt, waarbij je honderd gegevens van klanten kruist met verkoopgegevens over vijfhonderd producten. Dat zijn dan 50.000 verbanden of correlaties van het type: vrouwen kopen meer Philadelphia dan mannen, jongeren kopen meer repen Mars dan ouderen enzovoort. Veronderstel dat een kwaaie geest alle gegevens vervangt door toevallige gegevens. En je geeft die database aan een statisticus. Per definitie zal hij dan 1 % verbanden vinden die maar 1 % kans hebben om toevallig te ontstaan, hij zal 5 % verbanden vinden die 5 % kans hebben om toevallig te ontstaan, enzovoort.
Hij zal echter, zeker als hij wordt betaald om leuke dingen te vinden, graag sensationele resultaten verkopen aan zijn opdrachtgever. Wist u dat 30 % van het sterrenbeeld tweelingen Twix koopt en slechts 18 % van de maagden? Wist u dat wie pampers koopt ook makreel koopt? (de voorbeelden zijn fictief!) Een journalist die dergelijke bevindingen onderschept, heeft een prachtig artikel klaar, zeker in de komkommertijd. En wees maar zeker, bij 50.000 verbanden vind je al snel enkele tientallen sensationele correlaties! En als je met moderne computers aan data-mining doet, heb je al snel iets ‘significants’ gevonden. En mocht je dan toch niets vinden, dan zoek je maar naar niet-lineaire verbanden, of naar samenhangen die veranderen als je er een derde aan toevoegt (enkel vrouwen kopen meer makreel als ze ook meer pampers kopen), enzovoort.
De Wereldgezondheidsorganisatie (WGO) heeft een computerdatabase met zo’n vier miljoen rapporten rond neveneffecten van medicatie. Als je daar lang genoeg in zoekt, vind je altijd wel wat. Cholesterolverlagende middelen zijn zo onlangs in opspraak geraakt. De WGO had immers gevonden dat wie statines slikt een heel grote kans krijgt op ‘Lou Gehrig’, een ernstige ziekte genaamd naar een Amerikaans baseballspeler. Paniek. Beurskoersen kelderen, patiënten vrezen voor hun leven, dokters durven de medicatie niet meer voorschrijven (en schrijven dan misschien gevaarlijker spul voor). Maar wie durft zeggen: niets aan de hand? Als het farmaceutisch bedrijf de problemen weglacht, en het blijkt achteraf toch een probleem, dan zijn de gevolgen niet te overzien. Als het een vals alarm blijkt te zijn, dan is de schade uiteraard niet meer te herstellen.
Het probleem van datamarteling is reëel en de gevolgen worden steeds spectaculairder. Het enige zinvolle antwoord is: zwijgen en voort onderzoeken. Maar dat is een aanpak die twee betrokken partijen niet graag onderschrijven: de pers die graag zo’n sensationele dingen schrijft, maar ook de onderzoeksinstellingen die van hun pr-verantwoordelijken te horen krijgen: meer naar buiten treden, meer nieuws melden. En in die sector geldt niet: geen nieuws is goed nieuws, maar wel: hoe extremer, hoe bizarder, hoe ongewoner het resultaat, hoe meer aandacht het zal krijgen in de media. Maar extreme, ongewone, vreemde informatie is meestal ook erg onbetrouwbaar en zo worden de media dan gevoed met eenmalige statistische artefacten. Wie veel columns leest, wordt slimmer en leeft langer. Dat laatste is echter een feit, geen statistisch artefact.
De auteur is hoofddocent aan de Universiteit Gent en partner van de Vlerick Leuven Gent Management School
Reacties: marc.buelens@trends.be
Marc Buelens
Fout opgemerkt of meer nieuws? Meld het hier