Wikipedia kampt met fouten door AI-vertalingen. Vrijwillige redacteuren zien steeds vaker onnauwkeurigheden in artikelen die met tools als Google Translate, DeepL, Microsoft Translator of ChatGPT zijn gemaakt. Het speelt in meerdere taalversies, waaronder de Nederlandse Wikipedia, en neemt recent toe. De trend raakt ook aan de Europese AI-verordening en de gevolgen voor overheid en onderwijs.
AI-vertalingen missen context
Automatische vertalingen zetten tekst om zonder begrip van cultuur, vaktaal of stijl. Daardoor sluipen verkeerde namen, datums en terminologie in artikelen. Vooral bij medische onderwerpen en plaatsnamen gaat het mis, omdat kleine nuanceverschillen grote gevolgen hebben. Lezers nemen die fouten soms over, wat de verkeerde informatie verder verspreidt.
Vrijwilligers merken patronen die wijzen op klakkeloze kopieën uit vertaalmachines. Zinnen zijn letterlijk, stroef en bevatten vaste foutjes die bij een specifieke tool horen. Ook bronnen verdwijnen soms, omdat vertaalde alinea’s losraken van hun verwijzingen. Zo ontstaan ogenschijnlijk complete, maar slecht onderbouwde lemma’s.
Machinevertaling kan helpen bij een eerste opzet, maar vraagt menselijk herstelwerk. Zonder redactie blijven idiomen en vaktermen hangen in een andere betekenis. Dat is extra riskant in encyclopedische context, waar precisie voorop staat. De werkdruk verschuift zo van schrijven naar repareren.
Machinevertaling is tekst die door een algoritme uit een andere taal is omgezet, zonder menselijke controle.
Controle door vrijwilligers kraakt
Wikipedia draait op vrijwilligers die bewerkingen controleren en verbeteren. Die groep groeit minder snel dan het aantal AI-hulpmiddelen. Daardoor glippen meer gebrekkige vertalingen door de mazen van het net. Handmatige controle kost tijd en concentratie, juist waar AI-teksten vaak lang en repetitief zijn.
De gemeenschap gebruikt hulpmiddelen om risicobewerkingen te signaleren. Wikimedia’s ORES-systeem, een algoritme dat de kans op schadelijke edits inschat, helpt hierbij. Toch ziet ORES niet of een tekst inhoudelijk klopt. Het kan afwijkend taalgebruik markeren, maar geen feit van misvertaling scheiden.
De Nederlandse Wikipedia hanteert richtlijnen tegen ruwe machinevertalingen. Artikelen zonder duidelijke bronnen of met zichtbare vertaalfouten kunnen snel worden teruggedraaid. Moderatoren plaatsen waarschuwingssjablonen en vragen om menselijke herziening. Dat werkt, maar pas nadat het artikel al is gepubliceerd.
Wikimedia biedt vertaalhulpen
De Wikimedia Foundation levert de tool Content Translation, die redacteuren helpt teksten tussen taalversies over te zetten. De tool kan machinevertaling inschakelen via diensten van Google, Microsoft, en DeepL. Ook is er MinT, een Wikimedia-dienst die open modellen zoals Meta’s NLLB-200 gebruikt. Deze opties versnellen vertalen, maar vragen expliciet om kwaliteitscontrole door mensen.
Content Translation waarschuwt gebruikers als een tekst grotendeels onbewerkt blijft. Toch kunnen redacteuren uit externe AI-systemen kopiëren, zoals ChatGPT van OpenAI. Die output oogt vloeiend, maar kan “hallucineren”: overtuigend klinkende onwaarheden genereren. Zonder broncontrole belanden zulke fouten snel in de encyclopedie.
Wikimedia en communities balanceren tussen groei en kwaliteit. Vertaalhulpen vergroten toegang voor kleinere taalversies, wat goed is voor kennisdeling. Tegelijk stijgt het risico op systematische fouten in niche-onderwerpen. Meer hulpmiddelen voor bronkoppeling en feitcontrole zijn daarom gewenst.
AI-verordening vraagt transparantie
De Europese AI-verordening (AI Act) legt aanbieders van generatieve AI transparantieplichten op. Diensten als OpenAI, Google en Microsoft moeten onder meer duidelijk maken dat inhoud door AI is gemaakt. Voor vertaling is dat grijs gebied, maar labeling van AI-bijdragen kan gebruikers helpen. Wikipedia-gemeenschappen kunnen zulke etiketten vrijwillig invoeren voor meer duidelijkheid.
Ook de AVG is relevant wanneer redacteuren biografische gegevens via cloudvertalers verwerken. Dataminimalisatie en versleuteling zijn dan uitgangspunten. Overheden en onderwijsinstellingen die Wikipedia-teksten hergebruiken, moeten rekening houden met die regels. De vraag “is dit AI-tekst en klopt het?” wordt daarmee een organisatorische verantwoordelijkheid.
Voor publieke instellingen kan de AI-verordening gevolgen hebben bij inkoop en gebruik van vertaal- en schrijfsoftware. Contracten moeten helder zijn over dataopslag, trainingsgebruik en foutenafhandeling. Transparantie en auditlogs maken herkomst van tekst beter traceerbaar. Dat helpt ook bij het corrigeren van misvertalingen die in beleid of lesmateriaal zijn beland.
Nederlandse wiki hanteert grenzen
Op de Nederlandstalige Wikipedia zijn ruwe AI-vertalingen ongewenst en onderwerp van moderatie. Redacteuren worden aangemoedigd om bronnen te controleren en zinnen actief te herschrijven. Sjablonen markeren twijfelachtige passages en vragen om verificatie. Dat beperkt schade, maar verhoogt de werkdruk voor vrijwilligers.
Lokale projecten richten zich op thematische kwaliteitsrondes, bijvoorbeeld voor zorg, geschiedenis of topografie. Daarin worden AI-sporen zoals letterlijke zinsbouw en ontbrekende bronverwijzingen gericht opgespoord. Vrijwilligers delen lijsten met veelgemaakte vertaalfouten, zodat anderen ze sneller herkennen. Zo ontstaat een praktische gereedschapskist voor herstelwerk.
Er is ook aandacht voor training. Workshops leggen uit hoe je Content Translation verantwoord gebruikt en hoe je bronnen koppelt. Redacteuren leren bovendien hoe je AI-tekst herkent en toetst. Dat verkleint de kans dat misvertalingen lang zichtbaar blijven.
Mogelijke oplossingen in zicht
Technisch valt winst te halen met automatische broncontroles. Tools die citaties uit de brontaal meenemen en dubbelchecken, verminderen losgezongen claims. Ook kunnen modellen worden getraind op encyclopedische stijl en terminologie. Dat maakt vertalingen consistenter en beter navolgbaar.
Detectie van machinevertalingen kan gerichter en transparanter. Een signaal “mogelijk AI-vertaling” helpt moderators prioriteren, zonder te verbieden. Gecombineerd met ORES ontstaat zo een vroegtijdig waarschuwingssysteem. Menselijke beoordeling blijft daarbij leidend.
Samenwerking met Europese spelers kan versnellen. DeepL en universiteiten in EU-taaltechnologie beschikken over domeinspecifieke data en evaluatiesets. Publieke financiering via EU-programma’s kan open modellen voor encyclopedisch gebruik verbeteren. Daarmee stijgt de kwaliteit zonder de open aard van Wikipedia te verliezen.
