Heeft u pijnlijke, jeukende ogen, met een roze uitslag op de oogleden? En werkt u veel met monitoren, vooral in de avond? Dan heeft u mogelijk Bixonimanie, een oogaandoening die veroorzaakt wordt door langdurige blootstelling aan blauw licht. Deze aandoening werd voor het eerst beschreven door de wetenschapper Lazljiv Izgubljenovic. Er is alleen een probleem: Zowel Izgubljenovic als Bixonimanie bestaan niet.
Hoewel de wetenschapper en de ziekte niet bestaan, was er een periode dat ze toch regelmatig opdoken in de antwoorden van verschillende taalmodellen (LLMs). Dit is het resultaat van een experiment van Almira Osmanovic Thunström, een medisch onderzoeker aan de Universiteit van Göteborg. Osmanovic Thurnström en haar team wilden weten of het mogelijk was om informatie die er officieel uitzag maar voor een menselijke lezer overduidelijk nep was in een taalmodel te laten verschijnen. En dat bleek bijzonder makkelijk.
Kritisch
Het begon met twee blogposts op het publicatieplatform Medium. Op 15 maart 2024 publiceerde het team twee artikelen over Bixonimania. Deze artikelen zijn inmiddels verwijderd, maar niet voordat de inhoud werd opgenomen in de dataset van verschillende grote taalmodellen. Op 26 april en 6 mei publiceerde het team vervolgens twee papers op SciProfiles, een netwerk waarop wetenschappers nog niet gepubliceerde artikelen kunnen publiceren. Deze papers stonden op naam van Lazljiv Izgubljenovic. Het eerste paper richtte zich op het gebruik van machine learning om de diagnose van Bixonimania te stellen. De tweede was een meer algemene beschrijving van de aandoening.
Wie kritisch las, zou snel moeten kunnen zien dat het om nep-papers ging. Niet alleen bestond Izgubljenovic niet, maar ook de universiteit waar deze onderzoeker zou werken (Asteria Horizon University) en de plaats waar deze universiteit gevestigd is (Nova City, Californië) waren verzonnen. In de papers werd verwezen naar werk van of bedankt voor bijdragen van personages uit The Simpsons, Star Trek en Lord of the Rings. Het paper dat de aandoening beschrijft is het meest expliciet: het beschrijft een controlegroep die is samengesteld uit 'vijftig verzonnen personen tussen twintig en vijftig jaar oud'.
Dataset
Maar de AI was niet kritisch. De blogposts en wetenschappelijke publicaties werden zonder tegenspraak opgenomen in datasets waar taalmodellen gebruik van maken om antwoorden op de vragen van gebruikers te vinden. Uit onderzoek gepubliceerd in The Lancet blijkt dat een informatiebron die geformatteerd is als een wetenschappelijk paper minder kritisch benaderd wordt door een taalmodel. Het onderzoek toont aan dat LLMs meer bereid zijn om te speculeren op en hallucineren over informatie doe op deze manier aan het model aangeboden wordt.
Hoe makkelijk het is om een AI iets wijs te maken, blijkt uit het experiment dat techjournalist Thomas Germain eerder dit jaar uitvoerde voor de BBC. Hij schreef op zijn persoonlijke website een blogpost waarin hij een ranglijst maakte van de tien meest succesvolle techjournalisten bij het competitief eten van hotdogs, met zichzelf als winnaar van een niet bestaande eetwedstrijd in South Dakota bovenaan de lijst. Binnen een dag gaven chatbots van onder andere Google en OpenAI zijn naam als antwoord op de vraag welke techjournalist het beste hotdogs kan eten.
Geciteerd
Maar niet alleen de taalmodellen leken om de tuin geleid te zijn door de Bixomania-papers. Het wetenschappelijk tijdschrift Cureus publiceerde op 27 november 2024 een paper dat verwees naar Bixomania. Het is niet duidelijk of de auteurs van dit paper het Bixomania-paper niet herkenden als duidelijk verzonnen, of dat ze een taalmodel gebruikten om het paper te schrijven dat de papers overnam. Dit paper is sindsdien geschrapt door het tijdschrift.
Het lijkt erop dat taalmodellen inmiddels op de hoogte zijn van de fictieve aard van Bixomania. Sinds de publicatie van het experiment met de nep-papers in Nature geven taalmodellen steeds vaker aan dat Bixomania niet meer is dan een experiment. Ook de publicaitie van Germain over zijn manipulatie van zoekresultaten via een nep-blogpost heeft ertoe geleid dat LLMs niet langer denken dat hij de techjournalist is die in korte tijd de meeste hotdogs kan eten. Maar twee jaar lang was het mogelijk om Bixomania als mogelijk antwoord te krijgen als je aan taalmodellen vroeg wat een mogelijke verklaring zou kunnen zijn voor jeukende ogen. En in lokaal draaiende modellen, waarvan de dataset minder vaak wordt bijgewerkt, kan deze informatie nog steeds aanwezig zijn.
Gevolgen
En deze goedgelovigheid van LLMs kan ook gevolgen hebben voor de (cyber)veiligheid, zeker in het licht van het steeds verdere gebruik van AI-agents. Identiteitsfraude is al langer een probleem, en met name het experiment van Germain toont aan hoe makkelijk het is om foutieve of frauduleuze informatie over een persoon te laten herhalen. En in het experiment van Osmanovic Thunström konden taalmodellen niet zien dat de auteur niet bestond en werkte voor een niet bestaande universiteit die gevestigd was in een niet bestaande stad. Met meer kwade wil lijkt het mogelijk om een identiteit te creëren die door taalmodellen of AI agents klakkeloos overgenomen kan worden.
Het is daarom belangrijk om altijd met kritische ogen te kijken naar antwoorden van een LLM. De modellen kunnen zeer snel zeer veel informatie verwerken, maar blijken in de praktijk niet in staat om de informatie kritisch te evalueren. En eenmaal in de dataset, dan wordt bij het beantwoorden van vragen een medisch paper over een niet-bestaande ziekte waarnaar het onderzoek deels is uitgevoerd in laboratoria aan boord van het ruimteschip USS Enterprise net zo zwaar gewogen als legitieme papers.