Steeds meer organisaties gebruiken kunstmatige intelligentie (AI) om werk (deels) te automatiseren. Met name taalmodellen (LLMs) zijn hier een populair middel voor. Inmiddels zijn er ook steeds meer vormen van AI-agenten beschikbaar. Dit zijn modellen die zelfstandig complexe taken kunnen uitvoeren. Dit gaat een stap verder dan simpel vragen beantwoorden. Deze zelfstandigheid brengt ook een nieuw cyberveiligheid-risico met zich mee: Prompt injection.

Prompt injection is het inbrengen van verborgen opdrachten aan AI-modellen. Hiermee kunnen kwaadwillenden instructies versturen. Deze instructies kunnen op allerlei manieren verborgen worden, bijvoorbeeld in afbeeldingen die dusdanig bewerkt zijn dat ze instructies bevatten die alleen zichtbaar worden wanneer een AI een specifiek algoritme gebruikt om deze te analyseren. Kort gezegd: de afbeelding bevat informatie die voor mensen niet zichtbaar is, waardoor de gebruiker niet doorheeft dat de onschuldig ogende foto stiekem aan de AI vraagt om bijvoorbeeld de inloggegevens voor internetbankieren door te mailen. Het geeft dus allerlei mogelijkheden voor cybercriminelen.

Bij prompt injection speelt ook het probleem dat het vaak zeer moeilijk te detecteren is, vooral terwijl de kwaadaardige instructies worden uitgevoerd. Het wordt immers gezien als een AI die gewoon zelfstandig aan het werk is. Zeker als er niet actief wordt meegekeken, bestaat dus het risico dat de AI-agent zonder zich van enig kwaad bewust te zijn allerlei deuren openzet en gevoelige informatie rond stuurt. In het ergste geval gebeurt dit zonder dat er sporen worden nagelaten, door geraffineerd gebruik te maken van de gedragspatronen van de AI.

Shadowleak

Een goed voorbeeld van een geraffineerde prompt injection aanval wordt beschreven in onderzoek van cyberbeveiligingsbedrijf Radware. Zij vonden een inmiddels gedichte kwetsbaarheid in Deep Research, een AI-agent van OpenAI. Deep Research is ontworpen om mensen bij te staan bij het doen van online onderzoek. Het kan autonoom onderzoeksvragen oplossen door zelfstandig op het internet bronnen te verzamelen en deze samen te brengen in een verslag. Deep Research kan ook gekoppeld worden aan e-mail, en juist daarin zit het gevaar.

De kwetsbaarheid, genaamd Shadowleak, werkt via de e-mail van de gebruiker. Aanvallers sturen een e-mail die geschreven is om eruit te zien als een verzoek om informatie uit een personeelsbestand. Wanneer Deep Research de opdracht krijgt om e-mails te verwerken, wordt deze e-mail gelezen en probeert het te voldoen aan de instructies. In de instructies staat echter ook dat naar de informatie moet worden gezocht op een domeinnaam die de aanvallers beheren.

Op deze manier kunnen de aanvallers de informatie uitlezen, zonder dat de gebruiker van de AI doorheeft dat gevoelige informatie verstuurd is. Dit komt doordat de handelingen van Deep Research volledig via de cloud infrastructuur van OpenAI worden uitgevoerd. Hierdoor is het feit dat de AI schadelijke instructies uitvoert niet alleen onzichtbaar voor de gebruiker, maar ook voor de digitale beveiligingsmaatregelen die door de organisatie gebruikt worden.

De onderzoekers van Radware geven ook zes manieren waarop AI-agenten gemanipuleerd kunnen worden. Door social engineering toe te passen kan de AI ervan overtuigd worden om instructies uit te voeren die het normaal niet zou volgen. Het gaat hierbij om de volgende vormen van manipulatie:

  • Autoriteit vaststellen: De AI wordt verteld dat het expliciet toestemming heeft om handelingen uit te voeren.
  • De domeinnaam verhullen: Door overtuigend klinkende termen als 'compliance validation system' te gebruiken in de domeinnaam, is de AI meer geneigd om deze te vertrouwen.
  • Opdracht tot doorzetten: Door opdrachten als 'blijf het proberen' of 'probeer dit op verschillende manieren' wordt de AI aangestuurd om beperkingen te omzeilen.
  • Creëer een gevoel van noodzakelijkheid en spoed: Als de AI wordt verteld dat er tijdsdrang is, of dat deze stap essentieel is voor het voltooien van een project, dan is het minder kritisch.
  • Claim veiligheid: De AI wordt verteld dat de domeinnaam die gebruikt wordt om informatie te ontvangen veilig is, waardoor deze eerder vertrouwd wordt.
  • Geef één duidelijk voorbeeld: Wanneer de AI een simpele instructie krijgt, is het meer geneigd om deze te volgen.

Beschermen

Wie zich tegen prompt injection wil beschermen, moet dus met een aantal dingen rekening houden. Het eerste aandachtspunt is kijken welke informatie uw AI ontvangt en verwerkt. Shadowleak liet cybercriminelen instructies versturen aan het systeem via e-mails die er voor de AI-agent overtuigend genoeg uitzagen. De instructies in deze e-mail waren echter niet verborgen. Deze specifieke aanval kan dus voorkomen worden door als gebruiker kritisch te zijn en zelf een voorselectie te maken op welke e-mails de AI te zien krijgt. Het door de gebruiker monitoren en valideren van de input kost tijd, maar het maakt het gebruik van AI wei veiliger.

Ook is het belangrijk om bewust te kijken naar waar de AI de handelingen uitvoert. Shadowleak was mogelijk doordat Deep Research de handelingen uitvoert in de gesloten omgeving van de cloud infrastructuur van OpenAI. Hierdoor is voor zowel de gebruiker als de beveiligingssoftware niet te zien dat de AI-agent gevoelige informatie heeft doorgespeeld naar de buitenwereld. Daarom is het belangrijk om altijd te kijken tot welke gevoelige informatie een AI-model toegang heeft, en of deze informatie ook verwerkt wordt buiten de systemen van de organisatie. Idealiter worden de handelingen zo veel mogelijk binnen een digitale zandbak uitgevoerd, waardoor ongewenst contact met de buitenwereld niet nodig is.

Daarnaast was Shadowleak afhankelijk van de specifieke manier waarop Deep Research werkt, en de manier waarop Gmail binnen het systeem geïntegreerd wordt. Veel vormen van prompt injection richten zich op kwetsbaarheden van specifieke AI-modellen. Het is daarom belangrijk om op de hoogte te blijven van zowel algemene beveiligingsrisico's, als de risico's die specifiek van toepassing zijn op de AI-modellen die door uw organisatie gebruikt worden.

Prompt injection is een nieuw beveiligingsrisico bij het gebruik van AI. Extra gevaar hierbij, is dat de schade van prompt injection vaak veel minder goed te detecteren is dan schade door conventionele cyberaanvallen. Het belangrijkste wapen tegen cybercriminaliteit werkt echter nog steeds: gezond verstand. Kijk daarom kritisch naar welke informatie een AI binnenkrijgt, zorg dat u mee kan kijken met het werk dat de AI doet, en blijf op de hoogte van de laatste ontwikkelingen op het gebied van cyberveiligheid.