Nieuwe testresultaten wijzen op een lastige ruil in kunstmatige intelligentie: strengere veiligheidsfilters in chatmodellen leiden vaker tot verzinsels. Het gaat om āgecensureerdeā modellen die gevoelige of risicovolle antwoorden blokkeren. Die filters verminderen schadelijke output, maar verhogen tegelijk het risico op foutieve, zelfbedachte informatie. Dat is belangrijk voor Europa, waar de AI Act inzet op veiligheid Ć©n betrouwbaarheid.
Filters vergroten kans op onzin
Het onderzoek laat zien dat chatmodellen met zwaardere inhoudsmoderatie vaker hallucineren. Hallucineren betekent dat een systeem iets overtuigend formuleert, maar het niet klopt of niet verifieerbaar is. Denk aan een bron die niet bestaat, of een zogenaamd feit zonder bewijs. De balans tussen veiligheid en juistheid blijkt dus broos.
Waarom gebeurt dit? Een filter dwingt het model soms om te omzeilen of te herschrijven. Daardoor komt er een net antwoord, maar zonder harde onderbouwing. Het model wordt beleefd en behulpzaam, terwijl het de waarheid minder strikt volgt.
Dit is vooral zichtbaar bij gevoelige onderwerpen. Bij gezondheidsadvies, politiek of recht gaat het model sneller āveiligeā formuleringen gebruiken. Die klinken plausibel, maar zijn niet altijd feitelijk correct.
Veiligheidslagen hebben bijeffecten
Veiligheidslagen bestaan uit regels die bepaalde woorden, claims of categorieĆ«n blokkeren. Ze werken als een contentfilter boven op het taalmodel. Dat reduceert risicoās, maar kan ook context wegdrukken die nodig is voor een precies antwoord. Minder context vergroot de kans op fouten.
Ook krijgen modellen via menselijk feedbackleren vaak beloningen voor vriendelijk en conformerend gedrag. Dat traint het model op toon en vorm. De feitelijke controle blijft dan soms achter. Het resultaat: een nette, maar mogelijk onjuiste uitleg.
Voor gebruikers is dit lastig te zien. De stijl is overtuigend en de zinnen lopen goed. Toch ontbreekt soms bewijs of een controleerbare bron.
Meer veiligheid kan onbedoeld meer onzin opleveren. De kunst is filteren zonder de feiten onder druk te zetten.
Effect verschilt per model en taak
Niet elk systeem reageert hetzelfde op moderatie. Grotere taalmodellen met betere kennisbasis blijven vaak iets robuuster. Maar ook zij kunnen onder strengere filters vaker wegglijden naar plausibele, maar foutieve antwoorden. Vooral bij open vragen zonder harde data is dat zichtbaar.
De taaksoort telt mee. Bij feitelijke Q&A met duidelijke bronnen is het effect kleiner. Bij advies, interpretatie of samenvatting zonder bronnen groeit de ruimte voor fouten. Hoe vager de opdracht, hoe groter de kans op hallucinaties.
Commerciƫle modellen hebben meestal strakkere veiligheidslagen dan veel openbronsystemen. Dat maakt ze veiliger bij risicotaken, maar kan de betrouwbaarheid op detailniveau verminderen. Het blijft een ontwerpkeuze met gevolgen voor de eindgebruiker.
Europese regels vragen bewijs
De EU AI Act legt de lat hoger voor risicovolle toepassingen. Organisaties moeten laten zien hoe ze risicoās beheersen en prestaties meten. Op het moment van schrijven werken toezichthouders aan normen en testprotocollen. Betrouwbaarheid en uitlegbaarheid wegen daarbij zwaar.
Voor Nederlandse organisaties betekent dit: documenteer filters, log beslissingen en test systematisch op hallucinaties. Denk aan sectoren als zorg, overheid en finance. Daar zijn fout-positieve antwoorden niet alleen onhandig, maar potentieel schadelijk voor burgers.
Publieke inkoop en toezicht in de EU zullen vragen naar meetbare kwaliteit. Niet alleen veiligheid, ook feitelijke juistheid moet aantoonbaar zijn. Dat maakt evaluatie en audit net zo belangrijk als modelkeuze.
Zo beperk je hallucinaties in de praktijk
Begin met taakontwerp. Stel concrete vragen, vraag om bronnen en laat het model onbekendheid erkennen. Beloon āik weet het nietā boven een gok. Dat verlaagt de druk om iets te verzinnen.
Gebruik retrieval augmented generation. Laat het model antwoorden op basis van interne documenten of betrouwbare databanken. Koppel deze context zichtbaar aan het antwoord. Zo kunnen gebruikers claims meteen checken.
- Test meerdere modellen en veiligheidsniveaus naast elkaar.
- Meet hallucinaties met vaste checklists en voorbeeldsets.
- Pas filters fijnmazig aan in plaats van ƩƩn harde stand.
- Zet mens-in-de-lus in voor kritieke beslissingen.
Let tot slot op UX. Toon bronverwijzingen, onzekerheidsscores en tijdstempels. Maak het makkelijk om claims te controleren. Dat vergroot vertrouwen zonder schijnzekerheid.
Beleid en techniek moeten samen optrekken
De kernboodschap is dubbel. Veiligheidsfilters zijn nodig om misbruik en schadelijke output te remmen. Maar te strakke censuur kan het aantal verzinsels verhogen. Het ontwerp van die lagen vraagt dus nuance en data.
Voor Europa is de timing relevant. De AI Act stimuleert testen, transparantie en risicobeperking. Dit onderzoek onderstreept waarom: wat āveiligā lijkt, is niet altijd ājuistā. Beide doelen moeten samen worden afgewogen.
De volgende stap is een publiek meetkader voor feitelijkheid, naast veiligheid. Met gedeelde benchmarks, Europese referentiedata en duidelijke rapportage. Pas dan kunnen bedrijven en overheden onderbouwd kiezen welk model bij welke taak past.
