Wie op zoek is naar de beste soft- of hardware voor hun geld kan niet om de benchmark heen. Dit zijn gestandaardiseerde tests waarbij verschillende producten vergeleken kunnen worden, bijvoorbeeld op rekenkracht of de snelheid waarmee een taak kan worden uitgevoerd. Maar bij kunstmatige intelligentie (AI) is gestandaardiseerd meten een stuk lastiger.
Voor het testen van een processor kan een benchmark worden gedaan door het laten uitvoeren van een groot aantal complexe berekeningen. Hoe sneller de processor het antwoord geeft, hoe beter. Voor een grafische kaart kan gekeken worden hoe snel een 3D beeld uitgetekend wordt. Voordeel hierbij is dat het doel dat behaald moet worden relatief simpel is. Er is één juist antwoord op de berekeningen, één juiste afbeelding die gegenereerd moet worden. Maar bij AI zijn de antwoorden vaak veel complexer, en dat maakt vergelijken moeilijk.
Taalmodel
Neem bijvoorbeeld een taalmodel (LLM). Wat een correct antwoord is op een rekensom, is eenvoudig. Er is één correct antwoord. Maar wat een goed antwoord is op een aan een LLM gestelde vraag is moeilijker te kwantificeren. Een antwoord moet niet alleen feitelijk correct zijn, maar ook volledig. Het mag geen tegenstrijdige of foutieve informatie bevatten.
Daarnaast kan ook de manier waarop het antwoord gegeven wordt, de syntax en het taalgebruik, enorm verschillen. Grote taalmodellen hebben vaak een zeer herkenbare manier van communiceren. Dit is bijvoorbeeld terug te zien in de manier waarop Wikipedia met door taalmodellen gegenereerde tekst omgaat, en hoe het beheerders instrueert in het herkennen van deze teksten. Een tekst die als door AI gegenereerd herkenbaar is is vaak niet wenselijk, maar hoe meet je hoe herkenbaar de hand van het taalmodel is?
Vragen
Maar misschien nog wel belangrijker dan het geven van het antwoord is het interpreteren van de vraag. Als het model niet begrijpt wat de gebruiker wil weten, zal het antwoord nooit goed zijn. En interpretatie van taal kan lastig zijn. Wie om een recept voor chocoladepasta vraagt, kan als antwoord een recept voor spaghetti met chocoladesaus krijgen. Dat is technisch gezien correct, maar een mens zal instinctief begrijpen dat het antwoord niet 'juist' is.
We schreven al eerder over de Bullshit Benchmark, een maatstaaf die peilt hoe goed een taalmodel in staat is om onderscheid te maken tussen zinnige en onzinnige vragen, en in hoeverre het bereid is om geen rekenkracht te besteden aan onzinnige vragen. Bij de bullshit benchmark wordt snel duidelijk dat het menselijk vermogen om vragen te interpreteren nog altijd vele malen sterker is dan het vermogen van een taalmodel om dit te doen.
Denkvermogen
Het peilen van de capaciteiten van een AI-model wordt pas echt ingewikkeld bij de zogenaamde Artificial General Intelligence (Algemene Kunstmatige Intelligentie, AGI). Dit zijn AI-modellen die breed toepasbaar zijn, zelfstandig nieuwe kennis kunnen verzamelen en deze ook kunnen toepassen op nieuwe situaties. Deze modellen bestaan momenteel alleen nog theoretisch, maar worden gezien als de heilige graal van kunstmatige intelligentie.
Het verschil tussen AI en AGI is uit te leggen in de vorm van schaken. De beste schaak-AI is Stockfish. Het model wint consistent van andere AI modellen die gebouwd zijn om te schaken, en het is vrijwel onmogelijk voor een mens om van Stockfish te winnen. Maar Stockfish is alleen goed in schaken, omdat het alleen gebouwd is voor schaken. Het is waardeloos voor dammen. Een AGI zou daarentegen in staat moeten zijn om elk spel te leren door observatie en logische inferentie.
Hoe ver we nog verwijderd zijn van kunstmatige intelligentie die het menselijk denkvermogen kan bijhouden, blijkt uit de nieuw gepubliceerde ARC-AGI-3 benchmark. Deze benchmark is ontworpen door de ARC Prize Foundation. Deze stichting is een non-profit die als doel heeft om de ontwikkeling van AGI te stimuleren. Dit doen ze door wedstrijden te organiseren en onderzoek te financieren. ARC-AGI-3 vormt de basis van de nieuwste wedstrijd. Deze benchmark is ontwikkeld om te kwantificeren hoe groot de afstand is tussen menselijk denkvermogen en de huidige sterkste AI-modellen. In deze benchmark wordt de intelligentie van een model getest aan de hand van een serie spelomgevingen die bedoeld zijn om vier kenmerken van intelligentie te testen: Het verkennen van een omgeving, het vormen van een model hiervan, het stellen van doelen en het maken en uitvoeren van een planning.
Uitdaging
En dat blijkt een uitdaging te zijn. De belangrijkste horde voor de geteste AI-modellen is dat in de spelomgevingen niet wordt verteld wat het einddoel is. Dat moet de AI zelf kunnen bepalen. Als het doel van een puzzel eenmaal is geïdentificeerd, dan moet vervolgens bepaald worden hoe dit doel zo efficiënt mogelijk kan worden bereikt. Denkvermogen wordt gemeten in het vermogen om het doel te bepalen, en dit in zo min mogelijk zetten te bereiken.
Je speelt een spel. Je doel is om te winnen. Geef een antwoord met de actie die je wil nemen. De laatst genoemde actie in je antwoord zal de volgende beurt worden uitgevoerd. Je volledige antwoord wordt meegenomen naar de volgende beurt.
De systeemprompt voor de ARC-AGI-3 benchmark
De mens is in ARC-AGI-3 de maatstaaf. De benchmark bepaalt de score aan de hand van het verschil tussen het aantal zetten dat menselijke deelnemers aan de puzzels nodig heeft om een puzzel te voltooien, en hoeveel zetten de verschillende AI-modellen nodig hebben. Dit verschil in het aantal zetten wordt via een exponentiele berekening verwerkt. Dit om onderscheid te maken tussen een oplossing die tot stand is gekomen door logisch redeneren, en een oplossing die tot stand is gekomen door eindeloos willekeurig te proberen.
Rekenkracht
En de resultaten zijn pijnlijk. In onderstaande tabel is te zien hoe ver de modellen van Google, OpenAI, Anthropic en xAI achterlopen bij het vermogen om complexe abstracte taken uit te voeren waarbij het model zelf moet kunnen bepalen wat het doel is. In deze benchmark is de score van het gemiddeld aantal zetten dat menselijke deelnemers nodig hebben 100%. Alle aan de AI-modellen voorgelegde puzzels werden door alle menselijke deelnemers met succes voltooid. De AI loopt duidelijk nog ver achter.
Beeld: © ARC Prize Foundation / ARC Prize Foundation
De resultaten van de vier geteste AI-modellen, met menselijke prestaties als basis
ARC-AGI-3 is ontworpen om het forceren van oplossingen te ontmoedigen. Dit om onderscheid te maken tussen de rauwe rekenkracht van een model, en het vermogen om deze rekenkracht efficiënt in te zetten. En dit is belangrijk voor commerciële AI-toepassingen, zeker voor kleinere organisaties. Niet elke organisatie heeft immers de middelen om eindeloos te investeren in meer cloudcapaciteit, zeker in situaties waar de bovengrens van beschikbare cloudcapaciteit in zicht komt.
Bovendien is de benchmark ook ontworpen om te voorkomen dat AI-modellen worden ontwikkeld die goed presteren in specifieke testomgevingen, maar minder goed meekomen in het uitvoeren van meer algemene taken. Dat is natuurlijk het einddoel van algemene kunstmatige intelligentie. Het model moet zichzelf kunnen leren schaken. Het feit dat de in de benchmark geteste modellen nog zo veel moeite hebben met het identificeren van wat de oplossing is, toont aan dat AGI nog ver weg is.
Optimisme
Toch betekent dat niet dat de huidige resultaten aanleiding zijn tot pessimisme. Bij de introductie van de ARC-AGI-1 benchmark in 2019 werden vergelijkbare scores gehaald, maar in de afgelopen jaren is de score van AI op deze test exponentieel toegenomen. Ook bij ARC-AGI-2, voor het eerst aangeboden in 2024, is snel verbetering te zien. Dat de huidige modellen slecht scoren op ARC-AGI-3, betekent niet dat toekomstige modellen ook zullen worstelen.
Beeld: © ARC Prize Foundation / ARC Prize Foundation
Dat is ook de hoop van de ARC Prize Foundation. In 2026 is de stichting van plan om $2 miljoen (€2,3 miljoen) aan prijzengeld uit te reiken aan ontwikkelaars die met hun AI-modellen de beste resultaten neerzetten op de ARC-AGI-3 benchmark. Voorwaarde is wel dat deelnemende modellen worden voorzien van een open source licentie. Het prijzengeld wordt verdeeld over modellen voor de twee meest recente benchmarks, en voor papers over AI.
Innovatie
Een door AI gegenereerd stuk muziek, een afbeelding of een tekst, bestaat alleen omdat het model dat deze genereert toegang heeft tot eerder werk. Zonder toegang tot dit eerdere werk is het niet in staat om resultaten te produceren. Het is niet in staat om werkelijk innovatieve ideeën te produceren, zoals een mens dit doet. AI-modellen zijn heel goed in reproduceren, maar blijven achter als het gaat om innoveren.
En dat is wat de ARC-AGI-3 benchmark aantoont. De stichting achter de benchmark heeft als doel om een test te ontwikkelen die voor mensen makkelijk is, maar voor AI moeilijk. Dit om aan te tonen dat er nog steeds een duidelijk verschil is tussen de manier waarop mensen denken en de manier waarop AI-modellen dat doen. Het is een benchmark die niet alleen peilt op het vermogen om antwoorden te produceren, maar ook het vermogen om onafhankelijk te bepalen wat het antwoord moet zijn, en wat de meest effectieve manier is om dit te bereiken. Op dat gebied zijn mensen superieur, maar de eerdere ARC benchmarks tonen aan hoe snel doorbraken bereikt kunnen worden.
De huidige AI-modellen kunnen al heel veel. Benchmarks als ARC-AGI-3 tonen echter aan dat er nog veel ruimte voor ontwikkeling is. Modellen voor hele specifieke taken zijn bijzonder sterk. Maar algemene modellen, en modellen die zelf kunnen bepalen wat hun taak is zoals mensen dat doen, zijn nog ver weg. Maar hoewel de kloof bij de derde ARC-benchark nog groot is, toont de snelle voorgang op de eerste twee benchmarks aan dat daar mogelijk heel snel verandering in kan komen.