Het lijkt alsof elke techreus aan een eigen platform voor kunstmatige intelligentie (AI) werkt. En dat wrijft soms met Europese wetgeving, met name op het gebied van privacy. Bedrijven als Meta en xAI liggen al jaren in de clinch met de EU over het gebruik van de informatie van gebruikers om AI-modellen te trainen. Maar ook bedrijven moeten hier goed op letten op waar hun data terecht komt.

Het zit hem vaak in de kleine lettertjes. Diep in de pagina's lange gebruiksvoorwaarden vol met tekst die geschreven is op zo'n manier dat men een rechtenstudie gedaan moet hebben om het volledig te begrijpen, kunnen allerlei rechten worden weggegeven. Sommige bedrijven gaan daar heel ver in. Te ver, blijkt uit de furore rond een update van de gebruiksvoorwaarden van WeTransfer, een online platform voor het delen van bestanden die te groot zijn om via e-mail te versturen, en dat ook abonnementen aanbiedt voor commercieel gebruik.

Op 1 juli kondigde het bedrijf een wijziging in de gebruiksvoorwaarden aan. Wat gebruikers vooral opviel was clausule 6.3. Simpel gezegd stelde deze dat gebruikers van WeTransfer het bedrijf een onbeperkte wereldwijde licentie geven om de content van gebruikers in te zetten voor het verbeteren van de diensten van WeTransfer. Hierbij werd het gebruik van de data van gebruikers om machine learning algoritmes die gebruikt worden voor moderatie van de content op WeTransfer te trainen specifiek genoemd.

Het leidde tot zo veel ophef dat het bedrijf zich gedwongen zag om twee weken later de tekst van de gebruikersovereenkomst aan te passen en een nieuwsbericht te plaatsen met een toelichting. Het bedrijf stelde dat machine learning slechts genoemd werd als een voorbeeld van hoe data gebruikt zou kunnen worden, en dat het momenteel geen plannen heeft om dit daadwerkelijk te doen.

Deze wijzigingen worden echter niet als overtuigend gezien. In de nieuwe versie van de gebruiksvoorwaarden wordt nu gestel dat WeTransfer de data van gebruikers inzet om het functioneren van de dienst te verbeteren. AI wordt hierbij niet langer genoemd. Ook stelt het bedrijf dat het de op het platform gedeelde data niet gebruikt om AI te trainen. Juristen stellen echter dat deze formulering zeer vaag is. Ook wordt het toekomstig trainen van AI niet uitgesloten.

Crawlers

Het laat zien dat bedrijven zich actief bezig moeten houden met hoe en wanneer hun informatie gebruikt kan worden om AI te trainen. Het is uiteraard niet wenselijk als bedrijfsgevoelige informatie, of informatie waarop auteursrecht ligt, terecht komt in de datasets van AI-modellen. En het lijkt steeds moeilijker te worden om dat te voorkomen.

Dat komt niet alleen door het feit dat de moederbedrijven van AI-platforms de data van hun gebruikers zien als potentiële bron van trainingsmateriaal voor hun large language models (LLMs) of andere vormen van kunstmatige intelligentie. Sommige ontwikkelaars van AI nemen een meer proactieve houding aan in het verkrijgen van data, bijvoorbeeld door het gebruik van web crawlers. Dit zijn programma's die de openbaar zichtbare delen van het internet afstruinen en in kaart brengen. Dit is ook hoe zoekmachines hun resultaten samenstellen.

Deze crawlers kunnen echter ook het materiaal op een website opslaan, bijvoorbeeld tekst en beeldmateriaal. En deze crawlers lijken niet altijd onderscheid te maken tussen data die vrij gebruikt kan worden, en materiaal waar auteursrecht op staat. Deze crawlers kunnen deels bestreden worden met bijvoorbeeld een Robots.txt bestand, maar deze standaard is vrijwillig, en van een aantal crawlers is bekend dat ze verzoeken vanuit Robots.txt om weg te blijven negeren.

Het is belangrijk voor organisaties om zich bewust te zijn van de manieren waarop hun data mogelijk gebruikt kan worden, of al gebruikt wordt, om AI te trainen. Niet alleen uit overwegingen omtrent auteursrecht en privacy, maar ook omdat bedrijven in de toekomst mogelijk zelf AI willen trainen met hun data, of deze data mogelijk willen verkopen aan derden om AI te trainen. Het is daarom alert te blijven, ook bij de gebruiksvoorwaarden van software en online diensten die uw organisatie gebruikt.