Prestaties van AI worden verkeerd beoordeeld

AI is niet perfect en de mens ook niet

AI wordt vergeleken met een perfecte mens. Maar die bestaat niet. Om een beter beeld te krijgen van de prestaties van AI dienen individuele toepassingen van AI te worden beoordeeld en vergeleken met hoe goed wij mensen presteren in deze situaties.

'Wat AI allemaal niet kan of fout doet'

'AI hallucineert'; 'AI is niet slim genoeg'; 'AI maakt fouten'; 'AI kan zelf niet denken'; Dit soort uitspraken hoor je veel. Ze zijn echter te oppervlakkig en algemeen. En gaan vaak alleen over de toepassing van generatieve AI op basis van grote taalmodellen zoals ChatGPT, Claude, Gemini en Copilot.

En met wie of wat vergelijken we AI eigenlijk? Bijna altijd met een ideale, foutloze mens. Een arts die nooit iets mist of een adviseur die alles weet en altijd tijd heeft. Die perfecte mensen bestaan niet.

Voor het bepalen van de werkelijke waarde van AI is dan ook de belangrijkste vraag: Doet AI het beter dan hoe de mens presteert als geen AI wordt ingezet? En het antwoord is steeds vaker: ja.

De beperkte blik van de 'experts'

Wie de AI-discussie volgt, merkt al snel iets vreemds: vrijwel iedereen praat over hetzelfde soort AI. Generatieve AI is het meest zichtbare type, maar verre van het enige. De negatief gevoerde discussie over hallucinaties en 'echte intelligentie' van AI gaat over een klein stukje van een veel groter landschap. En dat komt zelden aan bod.

Terwijl columnisten, filosofen en LinkedInfluencers discussiëren of ChatGPT 'echt denkt', werken AI-toepassingen steeds beter in bijvoorbeeld ziekenhuizen, bij adviesbureaus, bij weersvoorspellingen en als navigatiesysteem of zelfrijdende taxi. Die AI wordt nauwelijks besproken — en dus ook nauwelijks beoordeeld. Wikipedia en EOS wetenschap geven voorbeelden van de verschillende soorten van AI-toepassingen.

Bang gemaakt door consultants

Naast de oppervlakkige kritiek op generatieve AI is er nog een tweede manier waarop organisaties op het verkeerde been worden gezet: angst. '95 procent van de AI-projecten mislukken' roepen consultancybureaus, sprekers op congressen en technologiemedia en strooien met alarmerende cijfers.

Het patroon is herkenbaar: consultancybureaus benadrukken de hoge faalcijfers — en bieden zichzelf vervolgens aan als de oplossing. Veel organisaties trappen hier echter niet meer in laat een artikel in CIO Review zien: “Companies are increasingly bypassing traditional advisors like Deloitte, McKinsey, and PwC in favor of internal teams, frustrated by consultants’ limited hands-on experience and lack of practical implementation at scale.”

De juiste vraag is niet of AI perfect is — maar of het beter werkt dan wat we nu hebben.

Niet dat er niets fout gaat met het toepassen van AI. Het verkrijgen van kwalitatief goede data is meestal een grote uitdaging en kost veel inspanning. Veel IT-toepassingen hebben ook een ethische kant. Het komen tot 'beschaafde digitalisering' vraagt om de nodige reflectie welke rol we technologie willen laten spelen in onze samenleving.

Veel organisaties zitten nog in een experimentele fase of proefproject voor de inzet van AI. Natuurlijk leidt dit niet vanzelf tot resultaat. Het is wel een hele goede manier om zelf te leren en verkennen wat de inzet van AI kan betekenen voor een organisatie. Uit een eerder uitgevoerd experiment met Copilot bij DiVetro blijkt bijvoorbeeld dat je niet zomaar kunt vaststellen of Copilot goed of slecht functioneert of dat het experiment wel of niet geslaagd is. Dat dient per taak, functie of sector te worden beoordeeld.

Een aantal voorbeelden biedt houvast.

AI in de gezondheidszorg

Artsen zijn goed in hun werk, maar ze worden ook moe. Ze zien honderden patiënten en foto’s en kunnen dingen missen. Een AI-systeem dat scans bekijkt, wordt niet moe en vergeet niets. Onderzoek in het RadboudUMC laat zien: “AI spoort ook in Nederland vaker en eerder tumoren op in het screeningsprogramma voor borstkanker.” Uit de studie kwam naar voren dat “één radioloog en AI samen meer tumoren vinden dan twee radiologen. Ook worden met AI de tumoren eerder gevonden.”

AI in advies en consultancy

In 2024 deden Harvard Business School en consultancybureau BCG samen onderzoek naar het effect van AI op het werk van adviseurs. Consultants die AI gebruikten presteren beter en sneller. Echter, wanneer consultants AI niet op de juiste manier gebruiken vergroot dit de foutkans. Het niet op de juiste manier gebruiken wordt hierbij uitgelegd als weten hoe en waarvoor je AI moet inzetten beschrijft een eerder artikel met de titel: Hoe AI de consultancybedrijven uitdaagt. Met de opkomst van AI, worden traditionele consultancybedrijven geconfronteerd met een groeiende dreiging die hun positie kan ondermijnen.

In zekere zin is dat ironisch: dezelfde bureaus die hun klanten vertellen dat AI-projecten bijna altijd mislukken, laten in hun eigen onderzoek zien dat hun medewerkers er significant beter van worden. De boodschap naar buiten en de resultaten van binnen spreken elkaar tegen.

Weersvoorspelling

NOS Nieuws legt uit hoe de afgelopen jaren grote technologiebedrijven verschillende AI-modellen hebben gelanceerd die gebruik maken van machine learning. Deze modellen worden getraind op ongeveer veertig jaar aan historische weergegevens en leren zo patronen in het gedrag van de atmosfeer herkennen. Op basis van de actuele toestand van de atmosfeer voorspelt het model hoe deze er enkele uren later waarschijnlijk uitziet. Die voorspelling dient vervolgens als uitgangspunt voor de volgende tijdstap, waardoor stap voor stap een weersverwachting voor de komende periode wordt opgebouwd.

Android auto

Interessant is om zelf te ervaren hoe bijvoorbeeld Android Auto verder ontwikkelt van navigatiesysteem naar een soort reisbegeleider. Onderweg in Toscane vroeg ik het systeem op een reisroute van Volterra naar Pisa naar interessante bezienswaardigheden op de route. Het systeem presenteerde binnen een aantal seconden een aantal opties met toelichting. Vervolgens kun je dan zelf kiezen of je een bezienswaardigheid wilt opnemen als tussenstop in je routeschema. Door de geautomatiseerde koppeling met Gemini wordt het navigatiesysteem van Android auto steeds veelzijdiger en presteert beter en veel sneller dan wij mensen kunnen.

Hoe moeten we AI dan beoordelen?

Niet door het te vergelijken met een ideale mens. Niet door alleen naar generatieve AI te kijken. En niet door bangmakerij te accepteren van consultants die zichzelf als redder aanbieden.

De juiste vragen zijn sectorspecifiek en vergelijkend: spoort dit AI-systeem kanker beter op dan een arts in een reguliere setting? Maakt een adviseur betere analyses met AI dan zonder? Enzovoorts.

Als het antwoord ja is — en dat is het steeds vaker — dan is de conclusie eenvoudig: het systeem of de mens zónder AI doet het slechter. Waarom zouden we AI dan niet gebruiken? Dat betekent niet dat elk AI-project slaagt, of dat implementatie eenvoudig is. Zeker niet als we ethiek meenemen bij het maken van keuzes. AI is niet perfect. Maar mensen ook niet.