Zo voorkomt u (deels) dat de inhoud van uw website gebruikt wordt om AI te trainen

Nieuwsbericht11-11-2024 | 09:00

Om artificiële intelligentie (AI) te trainen is grote hoeveelheid inhoud nodig, met name tekst en afbeeldingen. Deze worden veelal verzameld op het internet. Dit gebeurt met behulp van web crawlers, geautomatiseerde software die systematisch websites doorlopen en in kaart brengen. Deze worden veel gebruikt door bijvoorbeeld zoekmachines als Google om een index te maken voor de zoekmachine. Maar ook bedrijven die datasets maken voor generatieve AI gebruiken crawlers, en dat is niet altijd wenselijk.

Nieuwsfoto bij artikel over AI web crawlers

Deze crawlers maken vaak geen duidelijke inventarisatie van de data die ze verzamelen. Zo kan het dus gebeuren dat een crawler die uw website bezoekt gegevens meeneemt waarop auteursrecht rust, of zelfs informatie die gevoelig is voor de veiligheid van uw bedrijf. Door deze crawlers kan materiaal van uw website dus ongewenst terechtkomen in de datasets van generatieve AI. De robots.txt standaard kan dit deels voorkomen door instructies te geven aan bots die uw website bezoeken om informatie te verzamelen.

Robots.txt is een tekstbestand dat geplaatst wordt in de bronmap van de website. Het bestand is bedoeld voor crawlers. Het bevat informatie over welke crawlers wel en niet welkom zijn, en welke mappen ze wel en niet mogen bekijken. Daarnaast kan het ook andere instructies bevatten, zoals hoe vaak crawlers pagina's mogen bezoeken. Ook bevat het bestand vaak een verwijzing naar de sitemap, de pagina die kan dienen als plattegrond voor de website.

Een goedgeschreven robots.txt voorkomt dat uw site overbelast raakt, bijvoorbeeld door te voorkomen dat de software de zoekfunctie van uw website te zwaar belast. Ook kunnen bepaalde mappen uitgesloten worden, om zo ongewenste zoekresultaten te voorkomen. Zo gebruiken bijvoorbeeld nieuwswebsites een uitzondering in robots.txt om te voorkomen dat advertorials, betaalde advertenties die ontworpen zijn om eruit te zien als nieuwsartikelen, uit externe niewsarchieven als Google News te houden.

Hoewel robots.txt geen officiële standaard is, wordt het door de meeste grote techbedrijven wel geëerd. Het gaat dan bijvoorbeeld om Google, Microsoft (onder andere de zoekmachine Bing.com) en andere bedrijven die om verschillende redenen het internet in kaart brengen. Veel bedrijven die datasets voor het gebruik door generatieve AI gebruiken, houden zich ook aan de standaard van robots.txt. Zo kan dit dus gebruikt worden om (deels) te voorkomen dat de inhoud van uw website ongewenst eindigt in de datasets van generatieve AI.

Bescherming

Het buiten de deur houden van web crawlers die gebruikt worden om gegevens voor AI datasets te verzamelen, is dus redelijk eenvoudig. U kunt aan het robots.txt een set instructies toevogen, die specifiek de crawlers van AI-bedrijven blokkeert, maar wel de crawlers van zoekmachines toestaat. Zo blijft uw website zichtbaar voor zoekmachines, maar voorkomt u dat de inhoud van uw website gebruikt wordt om AI te trainen.

De meest up to date informatie over welke AI bots via robots.txt geblokkeerd kunnen worden, vindt u op het ontwikkelingsplatform GitHub. Op dit platform voor open source software is een project gestart om alle bekende web crawlers die gebruikt worden om data te verzamelen voor het trainen van AI in kaart te brengen. In het robots.txt bestand van het project vindt u een blok tekst die aan robots.txt toegevoegd kan worden om AI-crawlers buiten de deur te houden.

Daarnaast bevat het project ook een index van de verschillende crawlers, met informatie over bijvoorbeeld welke bedrijven achter deze crawlers zitten, wat hun functie is, hoe vaak ze bezoeken en of ze wel of niet de robots.txt standaard eerbiedigen. Op die manier kunt u het robotx.txt bestand van uw eigen website aanpassen, om zo specifieke crawlers wel toe te staan.

Hoe werkt het?

De meeste hosting services hebben diensten die automatisch robot.txt aanmaken voor uw website. Als u zelf het bestand wil aanmaken of uw huidige robots.txt wil bijwerken, kan dat ook. Het werkt als volgt:

User-agent: Googlebot
Disallow: /search/

Dit voorbeeld bevat twee onderdelen, de User-agent en een Disallow commando. De User-agent geeft aan voor welke crawler deze toestemming geldt, in dit geval de Crawler van Google. Het Disallow commando geeft aan waar deze crawler niet mag kijken, in dit geval de map /search/. In de praktijk betekent dit dat wanneer de crawler van Google uw website indexeert, de map /search/ wordt overgeslagen.

User-agent: *
Disallow: /private/

Door achter User-agent een sterretje toe te voegen, geeft u aan dat de daaropvolgende instructies gelden voor alle crawlers. In dit voorbeeld wordt dus aan alle crawlers gemeld dat ze niet welkom zijn in het deel van uw website dat onder de map /private/ staat. Dit kan handig zijn, maar als het Disallow gedeelte niet goed is uitgeschreven, dan zou het kunnen betekenen dat uw website niet langer geïndexeerd wordt door zoekmachines. Hierdoor zal uw organisatie minder makkelijk online terug te vinden zijn.

User-agent: ChatGPT-User
Disallow: /

In dit voorbeeld wordt de crawler van ChatGPT geblokkeerd op de gehele website. Door / aan te geven onder Disallow wordt de bot verteld dat geen enkel onderdeel van de website open is. Als de crawler geprogrammeerd is om de instructies van Robots.txt te volgen, dan betekent dit dus dat het geen materiaal van uw website zal verzamelen in de dataset.

Op de projectpagina van GitHub vindt u de meest recente tekst die geldt voor alle bekende crawlers die gebruikt worden om gegevens te verzamelen voor de datasets van AI. In de bijgevoegde documentatie van het project (robots.json) vindt u een overzicht van de bots die door deze lijst geblokkeerd worden, van welke bedrijven deze robots afkomstig zijn, en in hoeverre bekend is of ze het robots.txt protocol respecteren.

U kunt deze lijst simpelweg toevoegen aan uw bestaande robots.txt en het nieuwe bestand uploaden naar de bronmap van uw website. Onderaan dit artikel vindt u als voorbeeld een versie van robots.txt die geschreven is om alle momenteel bekende AI-crawlers te blokkeren. U kunt de inhoud van dit bestand kopiëren en aan uw eigen robots.txt toevoegen, of in de huidige vorm uploaden naar de bronmap van uw website. Deze voorbeeldversie van robots.txt bevat echter geen verwijzing naar een eventuele sitemap, en geen verdere instructies voor crawlers die voor andere doeleinden gebruikt worden.

De robots.txt standaard is niet officieel, maar wel breed gebruikt. Het toevoegen van een verbod voor AI-web crawlers is geen garantie dat de inhoud van uw website niet in een dataset eindigt. Toch kan het een manier zijn om te voorkomen dat uw materiaal gebruikt wordt om AI te trainen, en dat auteursrechtelijk materiaal van uw bedrijf eindigt in de datasets van generatieve AI die wordt aangeboden door bedrijven als OpenAI. Op de GitHub pagina vindt u de meest recente informatie om het robots.txt bestand van uw organisatie up to date te houden.