Met Sinterklaas in het land is het de tijd van het jaar waarin vrijwel iedereen zich van de poëtische kant laat zien. Een goedgeschreven sinterklaasgedicht is onvergetelijk. Meer mensen dan ooit zullen daarbij gebruik maken van taalmodellen (LLMs) als Claude of ChatGPT. Onderzoekers van de Universiteit Sapienza Rome hebben echter de mogelijke schade van gedichten voor de cyberveiligheid in kaart gebracht.
Het onderzoek richtte zich op adversarial prompting (vijandig prompten). Dit is een vorm van het schrijven van prompts voor kunstmatige intelligentie (AI) met als doel het omzeilen van de vangrails die ontwerpers van AI-modellen inbouwen om te voorkomen dat deze modellen gebruikt kunnen worden voor onwenselijke doeleinden, bijvoorbeeld het genereren van materiaal dat gebruikt kan worden om haat te verspreiden of het helpen bij het uitvoeren van criminele handelingen. Het onderzoek toont aan dat een specifieke methode significant vaak succesvol is bij het omzeilen van beperkingen van LLMs: het schrijven van prompts als gedichten.
Onderzoekers testten verschillende modellen van onder andere Google, OpenAI, Deepseek, Meta en Anthropic. De onderzoekers gebruikten twintig prompts, in het Engels en Italiaans. Door metafoor, beeldspraak en narratieve frames probeerden onderzoekers om de verschillende LLMs om de tuin te leiden. Elk gedicht was kort, en bevatte een specifieke instructie die een veilig taalmodel niet zou moeten uitvoeren. Het ging om prompts over gevaarlijke stoffen (8), cyberveiligheid (6), schadelijke manipulatie (3) en het overnemen van controle van het model (3). Deze twintig prompts werden getest op vijfentwintig modellen.
Resultaten
De resultaten waren schokkend. Gemini 2.5-pro van Google accepteerde alle prompts en gaf schadelijke antwoorden. Bij beide Deepseek modellen was de mate van succes 95%. Zestien van de vijfentwintig geteste modellen gaven bij minstens de helft van de als gedicht geschreven schadelijke prompts een antwoord dat verder ging dan mogelijk zou moeten zijn gezien de door de ontwikkelaars ingebouwde vangrails.
Vooral op het gebied van cyberveiligheid waren de taalmodellen bereid om schadelijke prompts te accepteren wanneer deze in een gedicht verstopt waren. Voor handelingen als het kraken van wachtwoorden, het introduceren van malware of het verkrijgen van ongewenste privileges voor een account ligt tussen de 72% en 84%. Gemiddeld was het slagingspercentage van schadelijke prompts die verborgen waren in gedichten 62%, tegen een slagingspercentage van 38% voor direct geformuleerde prompts.
Opvallend is dat met name kleinere modellen minder bereid bleken om poëtische versies van schadelijke prompts te accepteren. GPT5-Nano was het enige model dat geen enkel poëtisch prompt accepteerde, maar ook GPT5-Mini (5%) en GPT5 (10%) bleken zeer kritisch. Het enige niet-OpenAI model dat even goed was in het herkennen van schadelijke prompts verhuld in poëtische taal was Claude-haiku-4.5 van ontwikkelaar Anthropic.
Wanneer gekeken wordt naar het verbeteren van slagingspercentage, de mate waarin een LLM poëtische prompts wel accepteert maar direct geschreven prompts niet, zijn het vooral de modellen van Deepseek, Google en Quen die het meest gevoelig zijn. Bij deze modellen is een slagingspercentage van respectievelijk 62,15%, 56,19% en 55,87% te zien. Ook hier scoren OpenAI en Anthropic het best, met respectievelijk 6,95% en 3,12%.
Gevolgen
Met name het feit dat kleinere modellen beter in staat zijn om schadelijke prompts te weigeren lijkt paradoxaal. Het is voor de onderzoekers niet duidelijk of deze modellen kritischer zijn, of dat hun beperktere capaciteiten betekenen dat ze de verborgen intentie achter de prompts simpelweg niet herkennen. Het toont wel aan dat een groter taalmodel met meer capaciteit en gedreven door meer rekenkracht niet altijd wenselijk is.
Het onderzoek toont ook aan hoe gevoelig LLMs zijn voor manipulatie. Al eerder werd geschreven over het gebruik van LLMs in cybercriminaliteit, en het gevaar van een gebrek aan of het omzeilen van de vangrails in een taalmodel. Het onderzoek toont bovendien aan dat het gevaar niet beperkt is tot modellen van een bepaalde aanbieder of modellen die op een bepaalde manier ontwikkeld en getraind zijn. Het probleem is systematisch.
En met de groeiende inzet op agentic browsers en besturingssystemen, gebouwd op kunstmatige intelligentie die zelfstandig complexe handelingen uitvoert, neemt het gevaar van dit soort adversarial prompting toe. Cybercriminelen maken nu al gebruik van prompt injection, het verbergen van schadelijke instructies aan agentic AI-modellen, om toegang te krijgen tot systemen of gegevens. Het onderzoek toont aan dat het risico dat een agentic AI met een goedgeschreven haiku overtuigd kan worden om bankgegevens te overhandigen reëel is.