Onderzoek: streng gefilterde AI-chatbots hallucineren juist vaker

  • Home
  • >
  • Blog
  • >
  • Nieuws
  • >
  • Onderzoek: streng gefilterde AI-chatbots hallucineren juist vaker

Amsterdam, 12 oktober 2025 07:31 

Nieuwe testresultaten wijzen op een lastige ruil in kunstmatige intelligentie: strengere veiligheidsfilters in chatmodellen leiden vaker tot verzinsels. Het gaat om ā€œgecensureerdeā€ modellen die gevoelige of risicovolle antwoorden blokkeren. Die filters verminderen schadelijke output, maar verhogen tegelijk het risico op foutieve, zelfbedachte informatie. Dat is belangrijk voor Europa, waar de AI Act inzet op veiligheid Ć©n betrouwbaarheid.

Filters vergroten kans op onzin

Het onderzoek laat zien dat chatmodellen met zwaardere inhoudsmoderatie vaker hallucineren. Hallucineren betekent dat een systeem iets overtuigend formuleert, maar het niet klopt of niet verifieerbaar is. Denk aan een bron die niet bestaat, of een zogenaamd feit zonder bewijs. De balans tussen veiligheid en juistheid blijkt dus broos.

Waarom gebeurt dit? Een filter dwingt het model soms om te omzeilen of te herschrijven. Daardoor komt er een net antwoord, maar zonder harde onderbouwing. Het model wordt beleefd en behulpzaam, terwijl het de waarheid minder strikt volgt.

Dit is vooral zichtbaar bij gevoelige onderwerpen. Bij gezondheidsadvies, politiek of recht gaat het model sneller ā€œveiligeā€ formuleringen gebruiken. Die klinken plausibel, maar zijn niet altijd feitelijk correct.

Veiligheidslagen hebben bijeffecten

Veiligheidslagen bestaan uit regels die bepaalde woorden, claims of categorieĆ«n blokkeren. Ze werken als een contentfilter boven op het taalmodel. Dat reduceert risico’s, maar kan ook context wegdrukken die nodig is voor een precies antwoord. Minder context vergroot de kans op fouten.

Ook krijgen modellen via menselijk feedbackleren vaak beloningen voor vriendelijk en conformerend gedrag. Dat traint het model op toon en vorm. De feitelijke controle blijft dan soms achter. Het resultaat: een nette, maar mogelijk onjuiste uitleg.

Voor gebruikers is dit lastig te zien. De stijl is overtuigend en de zinnen lopen goed. Toch ontbreekt soms bewijs of een controleerbare bron.

Meer veiligheid kan onbedoeld meer onzin opleveren. De kunst is filteren zonder de feiten onder druk te zetten.

Effect verschilt per model en taak

Niet elk systeem reageert hetzelfde op moderatie. Grotere taalmodellen met betere kennisbasis blijven vaak iets robuuster. Maar ook zij kunnen onder strengere filters vaker wegglijden naar plausibele, maar foutieve antwoorden. Vooral bij open vragen zonder harde data is dat zichtbaar.

De taaksoort telt mee. Bij feitelijke Q&A met duidelijke bronnen is het effect kleiner. Bij advies, interpretatie of samenvatting zonder bronnen groeit de ruimte voor fouten. Hoe vager de opdracht, hoe groter de kans op hallucinaties.

Commerciƫle modellen hebben meestal strakkere veiligheidslagen dan veel openbronsystemen. Dat maakt ze veiliger bij risicotaken, maar kan de betrouwbaarheid op detailniveau verminderen. Het blijft een ontwerpkeuze met gevolgen voor de eindgebruiker.

Europese regels vragen bewijs

De EU AI Act legt de lat hoger voor risicovolle toepassingen. Organisaties moeten laten zien hoe ze risico’s beheersen en prestaties meten. Op het moment van schrijven werken toezichthouders aan normen en testprotocollen. Betrouwbaarheid en uitlegbaarheid wegen daarbij zwaar.

Voor Nederlandse organisaties betekent dit: documenteer filters, log beslissingen en test systematisch op hallucinaties. Denk aan sectoren als zorg, overheid en finance. Daar zijn fout-positieve antwoorden niet alleen onhandig, maar potentieel schadelijk voor burgers.

Publieke inkoop en toezicht in de EU zullen vragen naar meetbare kwaliteit. Niet alleen veiligheid, ook feitelijke juistheid moet aantoonbaar zijn. Dat maakt evaluatie en audit net zo belangrijk als modelkeuze.

Zo beperk je hallucinaties in de praktijk

Begin met taakontwerp. Stel concrete vragen, vraag om bronnen en laat het model onbekendheid erkennen. Beloon ā€œik weet het nietā€ boven een gok. Dat verlaagt de druk om iets te verzinnen.

Gebruik retrieval augmented generation. Laat het model antwoorden op basis van interne documenten of betrouwbare databanken. Koppel deze context zichtbaar aan het antwoord. Zo kunnen gebruikers claims meteen checken.

  • Test meerdere modellen en veiligheidsniveaus naast elkaar.
  • Meet hallucinaties met vaste checklists en voorbeeldsets.
  • Pas filters fijnmazig aan in plaats van ƩƩn harde stand.
  • Zet mens-in-de-lus in voor kritieke beslissingen.

Let tot slot op UX. Toon bronverwijzingen, onzekerheidsscores en tijdstempels. Maak het makkelijk om claims te controleren. Dat vergroot vertrouwen zonder schijnzekerheid.

Beleid en techniek moeten samen optrekken

De kernboodschap is dubbel. Veiligheidsfilters zijn nodig om misbruik en schadelijke output te remmen. Maar te strakke censuur kan het aantal verzinsels verhogen. Het ontwerp van die lagen vraagt dus nuance en data.

Voor Europa is de timing relevant. De AI Act stimuleert testen, transparantie en risicobeperking. Dit onderzoek onderstreept waarom: wat ā€œveiligā€ lijkt, is niet altijd ā€œjuistā€. Beide doelen moeten samen worden afgewogen.

De volgende stap is een publiek meetkader voor feitelijkheid, naast veiligheid. Met gedeelde benchmarks, Europese referentiedata en duidelijke rapportage. Pas dan kunnen bedrijven en overheden onderbouwd kiezen welk model bij welke taak past.


Over Dave

Hoi, ik ben Dave – schrijver, onderzoeker en nieuwsgierige geest achter AIInsiders.nl. Ik hou me bezig met de manier waarop technologie ons leven verandert, en vooral: hoe we dat een beetje kunnen bijbenen. Van slimme tools tot digitale trends, ik duik graag in de wereld achter de schermen.

Mijn stijl? Lekker helder, soms kritisch, altijd eerlijk. Geen onnodig jargon of overdreven hype, maar praktische inzichten waar je echt iets aan hebt. AI is niet eng of magisch – het is interessant, en ik help je graag om dat te zien.

{"email":"Email address invalid","url":"Website address invalid","required":"Required field missing"}

Misschien ook interessant

>