Al bijna vijfentwintig jaar is Wikipedia de grootste online encyclopedie. Een van de redenen voor hun succes is de strenge eisen waaraan de tekst in artikelen moet voldoen. Om die reden is het op Wikipedia niet toegestaan om teksten te gebruiken die gegeneerd zijn door kunstmatige intelligentie (AI). Om beheerders te helpen deze teksten te herkennen, is nu een overzicht gepubliceerd van de meest voorkomende eigenschappen van door AI gegenereerde tekst.
Het herkennen van deze eigenschappen kan heel handig zijn, ook buiten Wikipedia. Niet alleen voor het herkennen van het gebruik van AI in een ontvangen tekst, maar ook voor het verbeteren van de kwaliteit wan door AI geschreven materiaal. Er bestaat immers erg veel wantrouwen ten opzichte van AI. Het kan dus nuttig zijn om te weten waarop u moet letten als u uw door AI gegenereerde teksten meer menselijk wil maken. Bovendien kan door het aanpassen van de door AI veelgebruikte taalpatronen een tekst professioneler overkomen.
De gids van Wikipedia is geschreven in het Engels. Toch kan deze ook nuttig zijn voor Nederlandse teksten. De grootste Large Language Models (LLM) schrijven immers allemaal in het Engels. Wie met een LLM als ChatGPT in het Nederlands werkt, krijgt te maken met twee lagen vertaling. Eerst vertaalt ChatGPT de vraag naar het Engels, en de Engelstalige output wordt vervolgens weer vertaald naar het Nederlands. En doordat AI over het algemeen een vrij letterlijke vorm van vertalen heeft, zijn de in het Engels beschreven taalpatronen ook in het Nederlands herkenbaar.
De belangrijkste kenmerken van door AI gegenereerde tekst zijn een onnodige mate van nadruk op symbolisme en belang, en het gebruik van bevorderende, promotionele taal. Een LLM zal vaak frases gebruiken die bedoeld zijn om het onderwerp van de tekst belangrijker te laten lijken door het in een bredere context te plaatsen. Ook zijn deze teksten vaak zeer positief van toon, zelfs als specifiek gevraagd wordt om neutrale tekst.
Daarnaast gebruikt AI vaak specifieke verbindingswoorden, en worden deze vaak herhaald. Het gaat dan bijvoorbeeld om frases en woorden als 'op de ene/op andere hand', 'verder', en 'bovendien'. Ook negatieve verbindingswoorden worden veel gebruikt. Het gaat dan om termen als 'daarentegen', 'niet alleen, maar ook' en 'echter'. Niet elke LLM gebruikt dezelfde verbindingswoorden, maar veel herhaalde verbindingswoorden geven een tekst een kunstmatige toon, en kunnen een teken zijn van het gebruik van AI.
Ook wordt in door AI geschreven tekst vaak gebruik gemaakt van expliciet concluderend taalgebruik. De slotparagraaf van een door AI geschreven tekst begint vaak met een term als 'in conclusie' of 'in het algemeen'. Deze termen kunnen een tekst overzichtelijker maken, maar nemen vaak de neutrale toon weg en kunnen te geforceerd of kunstmatig overkomen.
De door Wikipedia gepubliceerde gids heeft meer voorbeelden, en vergelijkt ook door AI geschreven tekst met menselijke tekst. Het kan gebruikt worden om AI gegenereerde tekst te herkennen, maar is zeker ook nuttig voor het verbeteren van AI gegenereerde tekst, zowel voor intern als extern gebruik.