AI kan ook opgelicht worden automatiseren

Nieuwsbericht26-08-2025 | 13:18

Een van de grootste beloftes van de ontwikkelaars van kunstmatige intelligentie (AI) is agentic AI, een model dat onafhankelijk complexe taken kan uitvoeren, zelf beslissingen kan nemen en werk kan uitvoeren met minimaal menselijk toezicht. Het kan een hoop werk uit handen nemen, maar uit onderzoek van security bedrijf Guardio blijkt dat deze agentic AI niet alleen menselijk werk kan overnemen, maar ook menselijke fouten kan maken.

Verschillende aanbieders van AI werken aan browsers die een agentic AI-functionaliteit ingebouwd hebben. Zo is Microsoft momenteel bezig met het ontwikkelen van een integratie van Copilot in Edge, OpenAI experimenteert met een Agent Mode voor browsers, en Perplexity biedt zelfs een volledig Agentic browser, Comet. Uit het onderzoek van Guardio blijkt echter dat deze agentic AI vaak veel te goed van vertrouwen is, waardoor gebruikers op allerlei manieren risico's lopen.

Een vaak geprezen functionaliteit van een agentic AI is dat het de gebruiker kan bijstaan bij het doen van online aankopen. De gebruiker vraagt de AI bijvoorbeeld om een koptelefoon te kopen die voldoet aan een aantal voorwaarden, zoals prijs, frequentie, soort aansluiting en bepaalde merken. De AI gaat vervolgens het internet op, scant verschillende websites, vindt de beste deal die aan de voorwaarden van de gebruiker voldoet, en voltooit automatisch de bestelling.

Oude trucs

In het onderzoek van Guardio blijkt echter dat AI hierbij bijzonder kwetsbaar is voor oplichting. Het gebruik van nep-webshops om data te stelen en geld te verdienen uit valse betalingen is zo oud als shoppen op het internet zelf. Nu blijkt echter dat agentic AI hier bijzonder gevoelig voor is. Tijdens het onderzoek werden verschillende bestellingen geplaatst bij oplichters die sites hadden gebouwd die op die van bijvoorbeeld Walmart moesten lijken. Dit ging volledig automatisch. Zonder enig verzoek om bevestiging aan een mens vulde de AI gebruikersnamen, wachtwoorden en credit card gegevens in.

Ook bij phishing e-mails bleek de agentic AI makkelijk om de tuin te leiden. Bij een phishing mail vermomd als afkomstig van de bank Wells Fargo, met een link en een verzoek om in te loggen, deed de AI braaf wat ervan gevraagd wordt. Pijnlijk detail hierbij is dat de mail afkomstig was van een Protonmail account, iets wat de mail duidelijk herkenbaar maakt als onbetrouwbaar. Het verzoek om in te loggen op de dubieuze link werd echter klakkeloos gevolgd, wederom zonder verzoek om menselijke bevestiging.

Het toont aan hoe gevoelig deze agentic AI modellen zijn om opgelicht te worden, vaak op manieren die al decennia bestaan en die bovendien door mensen makkelijk te herkennen zijn. Het toont aan dat de belofte van agentic AI om werk uit handen te nemen ook een keerzijde heeft - een te enthousiaste AI agent valt in de naam van gebruiksgemak voor allerlei vormen van oplichting.

Nieuwe trucs

Naast het oplichten via nep-webwinkels en phishing brengt het gebruik van agentic AI ook nieuwe risico's met zich mee die gebruik maken van specifieke eigenschappen van deze vorm fan AI. Het gaat hierbij vaak om verschillende vormen van prompt injection, het geven van verborgen instructies aan een AI model op een manier die voor mensen die meekijken niet te herkennen is. Deze instructies kunnen er bijvoorbeeld voor zorgen dat de AI vertrouwelijke gegevens opstuurt of met malware besmette bestanden downloadt.

De meest basale vorm van prompt injection richt zich op het gebruik van agentic AI om e-mails te lezen en verwerken. Dit kan bijvoorbeeld door een normaal uitziende e-mail te versturen, waarbij tussen de paragrafen witte tekst op een witte achtergrond geplaatst wordt. Deze voor de mens onzichtbare tekst kan instructies bevatten voor een AI agent, die kunnen worden uitgevoerd zonder dat de gebruiker het doorheeft.

Een voorbeeld uit het Guardio onderzoek is het gebruik van captchas. Deze worden door veel websites gebruikt om geautomatiseerd verkeer te blokkeren door de gebruiker een simpele taak uit te laten voeren voordat men verder kan. Guardio toonde aan hoe agentic AI gretig gebruik maakte van een voor de mens onzichtbare knop die werd aangeboden als een manier voor agentic AI om de captcha te omzeilen. Wanneer de AI op deze knop drukt, krijgt het automatisch bestanden opgestuurd.

Een meer geraffineerde manier van het aanvallen van AI systemen is met prompts verborgen in afbeeldingen. Onderzoekers maakten hierbij gebruik van de manier waarop AI afbeeldingen vaak verkleint voordat deze verwerkt worden, om rekenkracht te besparen. Het is mogelijk om tekstopdrachten in afbeeldingen te verbergen die alleen zichtbaar worden als ze op een voor de AI specifieke manier verkleind worden. Op die manier kunnen aanvallers de AI van afstand aansturen en opdrachten geven, zonder dat de menselijke gebruiker dit doorheeft.

AI versus AI

Saillant detail bij het onderzoek van Guardio is dat een aantal van de nep-webwinkels waar de AI browsers voor vielen zelf ook door AI gegenereerd werden. Dit ondanks het feit dat aanbieders van generatieve AI beloven dat de ingebouwde vangrails voorkomen dat hun modellen gebruikt kunnen worden voor oplichting of andere vormen van criminaliteit. In de praktijk blijkt echter dat generatieve AI met een beetje creativiteit op allerlei ongewenste manieren gebruikt kan worden.

Neem bijvoorbeeld het voorbeeld van spearphishing, waarbij phishing op een meer doelgerichte manier wordt uitgevoerd. Dit gebeurt door de online aanwezigheid van het doelwit te analyseren, om zo een phishing mail te schrijven die een grotere slagingskans heeft. Eerder onderzoek toont aan dat generatieve AI hier heel goed in is. Met de gevoeligheid van agentic AI voor het accepteren van phishing e-mails, en de snelheid waarmee LLMs dit soort e-mails aan kunnen maken, lijkt het risico op misbruik bijzonder hoog.

En dat zijn manieren waarop AI modellen elkaar kunnen aanvallen die nog voor mensen te volgen zijn. Er zijn echter ook manieren waarop modellen met elkaar kunnen communiceren die buiten elke voor mens te begrijpen taal om gaan. Het gaat dan om als protocollen als Gibberlink. Wanneer twee AI modellen doorhebben dat ze met een ander AI model aan het praten zijn, kan overgeschakeld worden naar Gibberlink om sneller en effectiever te communiceren. Dit neemt echter ook de mogelijkheid tot menselijke controle weg, waardoor het risico op misbruik groot is.

Agentic AI belooft heel veel werk uit handen te nemen. Het blijft echter belangrijk om op te letten. In de praktijk blijkt deze vorm van kunstmatige intelligentie namelijk zeer gevoelig voor misbruik, zowel via klassieke aanvalsmethoden als met strategieën die doelgericht misbruik maken van zwaktes in bestaande modellen. Wie gebruik maakt van agentic AI zal dus altijd zorg moeten dragen dat het op cruciale momenten de mens is die de beslissingen maakt.