Kun je video-interviews vertrouwen? Wel na een analyse door AI

Artificiële intelligentie kan ook menselijke vaardigheden zoals het inschatten van andere mensen overtreffen.

Hoe onbetrouwbaarder een beoordelingsmethode, hoe heviger ze wordt verdedigd. Een instrument zoals de gestandaardiseerde IQ-test behoeft geen verdediging, ook al geloven weinigen in zo’n test. Af en toe wordt nog eens grafologie gebruikt, en natuurlijk wordt in het geniep nog wel eens gekeken naar een horoscoop. Dat bijgeloof is vooral grappig. Maar het sluitstuk van zowat elke selectieprocedure is nog altijd het interview. Systematisch onderzoek mag dan al eindeloos hebben gewaarschuwd voor de onbetrouwbaarheid van zulke gesprekken, we blijven er gebruik van maken. De kandidaten vinden dat ze tijdens zo’n gesprek een faire kans krijgen, ervaren interviewers zijn er – ten onrechte – van overtuigd dat zij over specifieke vaardigheden beschikken om relevante conclusies te trekken uit zo’n gesprek, en omdat iedereen het doet, ben je veilig. Maar denkt u echt dat introverte mensen een even faire kans krijgen tijdens een interview als extraverte kandidaten?

Sinds covid-19 zijn we allemaal vertrouwd met het video-interview. Daar houden we meestal niet van, om verstaanbare redenen. We missen de menselijke warmte. Maar misschien zijn zulke interviews wel betrouwbaarder, net omdat er vreemde beperkingen zijn. En wat als we nog een stap verder gaan en met geautomatiseerde systemen die video’s analyseren? O, horror. Big Brother sluipt dichterbij.

Maar de wetenschap deinst voor niets terug. Een onderzoeksteam uit Utah heeft onlangs grondig bestudeerd hoe het echt zit met de betrouwbaarheid van zulke interviews. Er is uiteraard al een afkorting voor die gesprekken en hun verwerking: AVI (automated video interview).

Psychologen hebben een reeks criteria ontwikkeld om selectie-instrumenten te beoordelen. Een goede methode moet betrouwbaar zijn, niet afhangen van toevalligheden en stabiel zijn. Dezelfde methode mag niet na drie maanden iets totaal anders opleveren, bijvoorbeeld doordat de zon schijnt. En een methode toegepast door verschillende personen moet min of meer hetzelfde resultaat opleveren. Van menselijke beoordelaars is bekend dat ze niet al te hoog scoren op al die criteria. Rechters bijvoorbeeld spreken andere straffen uit in de voor- of namiddag. Alleen een leek is verbaasd als hij verneemt dat de AVI-methoden vele malen betrouwbaarder, stabieler en relevanter zijn dan de alwetende klinische blik van een persoon, die uiteraard zijn of haar best doet, maar vaak toch nog het slachtoffer is van een slecht humeur, bizarre vooroordelen of vermoeidheid. Het onderzoek heeft ook aangetoond dat de typische menselijke veralgemeningen, bekend als het ‘halo-effect’, ook minder voorkwamen. De computermethode maakte een scherper onderscheid tussen de verschillende vaardigheden.

Zulke studies zijn onthutsend en voeden de vrees dat artificiële intelligentie (AI) ook menselijke vaardigheden zoals het inschatten van andere mensen zal overtreffen. Langs de andere kant kun je alleen maar vaststellen dat die methodes transparanter zijn, maar vooral dat als ooit wordt aangetoond dat ze eenzijdig zijn, ze vrij gemakkelijk kunnen worden gecorrigeerd. De onderzoekers bestudeerden bovendien vooral brede algemeen toepasbare instrumenten, zodat de resultaten niet alleen van toepassing zijn op bijvoorbeeld vrachtwagenchauffeurs of verkopers van verzekeringen.

Die studies wijzen op de grote assen waarlangs de discussies over AI zullen lopen als er meer en meer toepassingen opduiken. Willen we de nadruk blijven leggen op het menselijk gevoel, de intuïtie, het intermenselijke contact met zijn sterke beperkingen? Of willen we gelijke kansen voor iedereen, doorzichtigheid en neutraliteit? We willen meestal beide, en de studie toont aan hoe onmogelijk dat is.

De auteur is emeritus professor management aan Vlerick Business School. www.marcbuelens.com