Steeds meer gebruikers melden dat ChatGPT van OpenAI minder precies en minder behulpzaam antwoordt. Het gaat om wisselende prestaties bij code, wiskunde en redeneren, in Europa en ook in Nederland. Dat is een risico voor burgers en organisaties die het systeem in werkprocessen inzetten. Dit voedt ook het debat over Europese AI-verordening gevolgen overheid en wat aanbieders en gebruikers moeten regelen.
Kwaliteit wisselt per update
ChatGPT, op het moment van schrijven vaak aangedreven door GPT-4 en GPT-4o, levert niet altijd dezelfde kwaliteit. Na een modelupdate geven antwoorden soms minder onderbouwing of worden vragen ontwijkend beantwoord. Ook kan de helderheid van stap-voor-stap uitleg wisselen per dag of per sessie.
OpenAI werkt de modellen regelmatig bij om snelheid, veiligheid en kosten te verbeteren. Zulke veranderingen kunnen onbedoeld effect hebben op nauwkeurigheid of bruikbaarheid. Voor eindgebruikers is het niet altijd duidelijk wat er is veranderd en hoe dat hun uitkomst beĆÆnvloedt.
Deze onvoorspelbaarheid creƫert frictie in teams die het systeem gebruiken voor onderzoek, programmeren of klantenservice. Als de output ineens korter of minder correct is, lopen deadlines en kwaliteitseisen gevaar. Dat maakt organisaties terughoudender om volledig op het algoritme te vertrouwen.
Studies tonen prestatie-drift
Onderzoekers zagen eerder al zogenoemde modeldrift: dezelfde taak krijgt andere uitkomsten na een update. In 2023 liet een veelbesproken academische meting zien dat GPT-4 op sommige wiskundetaken fors verslechterde, terwijl GPT-3.5 soms juist verbeterde. De methode en conclusies zijn betwist, maar het patroon van schommelingen is relevant voor gebruikers.
In ƩƩn test daalde GPT-4 bij het herkennen van priemgetallen van 97,6% (maart) naar 2,4% (juni).
Open benchmarks tonen eveneens variatie per maand en per prompt. Dat is geen bewijs dat het systeem ādommerā wordt, wel dat prestaties kunnen verschuiven door nieuwe afstellingen of veiligheidsfilters. Voor professionele inzet telt dan vooral: kan ik dezelfde vraag morgen nog met gelijke kwaliteit beantwoorden?
OpenAI stelt dat updates bedoeld zijn om het model breder bruikbaar te maken, met betere veiligheid en lagere kosten. In de praktijk ruil je soms snelheid in voor nauwkeurigheid, of andersom. Zonder vaste prestatienormen blijft het lastig om deze keuzes goed te wegen.
Risicoās voor gebruikers stijgen
Waar beslissingen gevolgen hebben, tellen kleine fouten zwaar. Bij medische triage, juridisch advies of financiƫle analyses kan een minder precies antwoord direct schade doen. Ook bekende valkuilen, zoals hallucinaties (bedacht klinkende maar onjuiste feiten), blijven aanwezig.
Voor bedrijven betekent dit extra validatie en menselijk toezicht. Werk dat eerder automatisch leek, vraagt nu om checklists, referentie-antwoorden en second opinions. Dat kost tijd en geld, maar voorkomt fouten die later duurder zijn.
Consumenten lopen risico als zij ChatGPT zien als autoriteit. Het systeem is een taalmodel: het voorspelt woorden op basis van patronen, niet op basis van begrip van waarheid. Duidelijke waarschuwingen en bronverwijzingen helpen om verwachtingen te managen.
Europese AI-verordening: gevolgen overheid
De Europese AI-verordening (AI Act) legt aanbieders van algemene AI-systemen, zoals OpenAI met ChatGPT, nieuwe plichten op. Denk aan technische documentatie, evaluaties, en een samenvatting van gebruikte trainingsdata. Voor zeer capabele modellen gelden extra eisen rond systeemrisicoās en beveiliging.
Voor overheden en publieke diensten in Nederland betekent dit dat inkoop en gebruik strakker worden geregeld. Instellingen moeten kunnen uitleggen welke versie is gebruikt, welke testen zijn gedaan en hoe fouten worden opgevangen. Dat sluit aan bij de roep om transparante update-notities en reproduceerbare metingen.
Wie persoonsgegevens verwerkt via ChatGPT, valt onder de AVG. Dat vraagt om dataminimalisatie, versleuteling en vaak een Data Protection Impact Assessment (DPIA). Onvoorspelbare modelprestaties zijn daarbij een extra risico dat je expliciet moet meenemen.
Beheersing vraagt andere aanpak
Organisaties kunnen het risico beperken door versiebeheer en regressietests. āPinā het gebruikte model in de API, draai vaste testprompts en meet kwaliteit over tijd. Leg afwijkingen vast en stel drempels in waarop een mens verplicht meekijkt.
Ontwerp processen met een vangnet. Combineer het model met betrouwbare databronnen, of gebruik retrieval-technieken om actuele en controleerbare informatie op te halen. Voor kritieke beslissingen blijft vier-ogencontrole de norm.
Scherm gevoelige gegevens af. Verwijder of anonimiseer persoonsgegevens en bedrijfskritische informatie vóórdat prompts worden verzonden. Zet waar mogelijk een eigen, Europees gehoste oplossing in als dat privacy- en compliance-risicoās verlaagt.
Wat gebruikers nu kunnen doen
Wees specifiek in je vraag en vraag om onderbouwing met bronnen. Laat het systeem tussenstappen tonen, zodat fouten eerder opvallen. Vergelijk waar nodig antwoorden tussen GPT-4o en alternatieven, en check cruciale claims handmatig.
Gebruik functies als ācustom instructionsā en voorbeeldprompts om consistentie te verhogen. Sla goede antwoorden op als referentie en hergebruik ze als kwaliteitsanker. Stel alerts in bij grote modelupdates en herhaal dan je belangrijkste tests.
Voor publieke organisaties en scholen in Nederland geldt: update interne richtlijnen en training. Benoem expliciet wat wel en niet met generatieve AI mag. Zo blijft de technologie bruikbaar, ook als de kwaliteit van het model tijdelijk schommelt.
