Het is onwaarschijnlijk dat gepubliceerde waarschijnlijkheden juist zijn
De auteur is hoofddocent aan de Universiteit Gent en partner van de Vlerick Leuven Gent Management School.
reacties: marc.buelens@trends.be
Toen twee Tupolev-vliegtuigen bijna tegelijkertijd ten zuiden van Moskou neerstortten, waren de media er als de kippen bij om uit te leggen dat de kans op zo’n gebeurtenis ongeveer één op een miljoen is. Je leest daar natuurlijk overheen, je aanvaardt zonder meer de wijsheid van die dames en heren statistici en je voelt maar snel mee met de slachtoffers, of je herformuleert je theorieën over internationaal terrorisme. Wat maakt het nu uit of het één kans op een miljoen of een miljard is? Toch publiceren de kranten geregeld zulke getallen, die ergens uit een statistische duim zijn gezogen.
Er worden verregaande beslissingen genomen over verzekeringsrisico’s, beleggingsportefeuilles, veiligheid van transportmiddelen, het ontruimen van kusten bij haaienalarm, de veiligheid van genetisch gemanipuleerd voedsel of het gevaar van sommige genotsmiddelen. Deze beslissingen worden dan genomen op basis van (on)waarschijnlijkheden. Een goede kennis van waarschijnlijkheidsberekening zou met andere woorden tot de bagage van elke beleidsman of -vrouw moeten behoren, maar laten we ons geen illusies maken. Onze politici en topmanagers blinken zelden uit in een verdiept inzicht in de statistiek, laat staan dat ze er veel belangstelling voor hebben. Want kan je met statistieken niet alles bewijzen? En zijn er niet leugens, grote leugens, meineden en… statistieken? En statistieken zijn zoals de kleinste badpakken: ze tonen alles, maar verbergen het essentiële. Politici weten dat je met cijfers alle kanten uit kan en dat er nooit zoveel gelogen wordt als voor een verkiezing, tijdens een oorlog en na een vispartij.
Toch moeten we wat beter leren omgaan met statistiek. Want met statistiek kan je natuurlijk alles bewijzen aan mensen die niets van statistiek kennen of er zich niet voor interesseren. Laten we dus die één kans op een miljoen even onder de loep nemen. Veronderstel dat je iemand ontmoet die je vertelt dat ze twee (geadopteerde) kinderen heeft en stel je voor: ze verjaren allebei op 6 maart! Nou, zegt de statisticus van de dienst: de kans om een dubbele zes te gooien bij Monopoly is 1/6 maal 1/6, of 1/36. Dus de kans hier (en we vergeten even de schrikkeljaren) is 1/365 maal 1/365, of één op 133.225! We kunnen wat argumenteren over het al dan niet ‘toevallig’ of ‘onafhankelijk’ zijn van een geboortedatum, maar onze statisticus maakt hier wel een nog veel ernstiger fout. Als de dame ons had verteld dat haar eerste kindje verjaart op 6 maart en haar tweede op 18 april, hadden we daar niets speciaals aan gevonden. Er is niets speciaals aan 6 maart, 18 april, 25 mei of zelfs 25 december (statistisch gesproken). Als haar eerste kindje verjaart op 6 maart, is het alleen speciaal als ook haar tweede kindje op die dag is geboren, en die kans is… 1/365. Het verhaal dat we nu op café kunnen vertellen of in de krant laten publiceren, is helaas al veel minder spectaculair.
De regel is dus heel simpel: als u eerst vaststelt dat er iets heel vreemd is (tweemaal na elkaar de lotto winnen, een dubbele vijf gooien, twee schitterende zomers na elkaar enzovoort) en u probeert pas dan de kans op zo’n vreemde gebeurtenis te berekenen, is de kans dat zoiets voorvalt gelijk aan de kans dat iemand één keer de lotto wint, dat iemand één vijf gooit of dat er één mooie zomer is. Vreemd, contra-intuïtief, maar statistisch toch waar. Als u echter vooraleer u iets vreemds hebt gezien, gaat voorspellen dat het gebeurt (Jan zal nu tweemaal na elkaar een vijf gooien, Lien zal twee kinderen adopteren die elk op 6 maart geboren zullen zijn, de zomers van 2005 én 2006 zullen ronduit schitterend zijn), dan mag je kansen gaan vermenigvuldigen en dan kan je echt zeggen: niet te geloven zeg, slechts één kans op 133.225 en toch is het gebeurd! Dat zal wel geen toeval meer zijn!
Hoe zit het nu met die Tupolevs? We weten dus nu dat de kans dat er twee bijna tegelijkertijd neerstorten gelijk is aan de kans dat er één toestel neerstort. Want we hebben eerst iets heel vreemds gezien en zijn ons pas dan de vraag gaan stellen wat de waarschijnlijkheid is.
En wat is de kans dat zo’n toestel neerstort? Je vindt op het internet allerlei statistieken over veiligheid, behalve over Rusland of Russische toestellen. De MD-11 van McDonnell Douglas is de trieste recordhouder, met bijna zes crashes per miljoen vluchten. Turkish Airways is als Europese luchtvaartmaatschappij recordhouder en bereikt (toevallig!) ook ongeveer zes crashes per miljoen vluchten. En de Russen lijken volgens partiële statistieken twee- à driemaal onveiliger dan de Turken. Dat zou ons voor de Tupolevs brengen op ongeveer vijftien crashes per miljoen vluchten ( Cubana zit op 24, Aeroperu op zeventien en China Airlines op tien, British Airways op 0,32!). De kans op twee crashes met Tupolevs was dus niet één op een miljoen maar vijftien op een miljoen. Dan zitten onze statistici er dus ongeveer met een factor vijftien naast. Niet bepaald een afrondingsfout.
En moet u nu deze column geloven? Denk aan de gouden regel in de statistiek: in geval van twijfel, raadpleeg een statisticus, en wantrouw dan de statisticus.
Marc Buelens
Fout opgemerkt of meer nieuws? Meld het hier