Door Dave

mei 12, 2026

OpenAI CoT grading is op 7 mei 2026 naar buiten gekomen via een bericht van onderzoeker Micah Carroll, dat door OpenAI werd gedeeld. Carroll schrijft dat OpenAI bij eerder uitgerolde modellen enkele gevallen heeft gevonden waarin chain-of-thought, het redeneringsspoor van een AI-model, per ongeluk is meegenomen in de beoordeling tijdens reinforcement learning. Het gaat om RL-runs van OpenAI, het trainingsproces dat ook relevant is voor ChatGPT en GPT-modellen. Het bedrijf bouwde daarvoor een systeem dat alle OpenAI RL-runs scant op zulke fouten.

Carroll meldt ook dat er geen duidelijk bewijs is gevonden dat deze gevallen de ā€œCoT monitorabilityā€ hebben verslechterd. Daarmee blijft een kernpunt open voor ontwikkelaars en onderzoekers: OpenAI erkent een trainingsfout, maar zegt niet om welke modellen, hoeveel runs of welke periode het precies gaat.

OpenAI vond fouten in RL-runs

De kern van het bericht is technisch maar concreet: bij training van eerder ingezette modellen zijn gevallen gevonden van accidental CoT grading. CoT staat voor chain of thought, de interne redeneringsstappen die een AI-model kan gebruiken om tot een antwoord te komen. Grading betekent hier dat die redeneringsstappen onderdeel werden van de beoordeling tijdens training. Dat is gevoelig, omdat OpenAI juist wil kunnen volgen of redeneringsmodellen betrouwbaar blijven zonder ze te trainen op het verbergen van hun sporen.

Reinforcement learning, vaak afgekort als RL, is een methode waarbij een model leert via beloningen of beoordelingen. OpenAI gebruikt zulke technieken in de fase na basistraining, onder meer om modellen beter te laten aansluiten op opdrachten van gebruikers. Het nieuwe detail is dat OpenAI een systeem heeft gebouwd dat alle RL-runs controleert op onbedoelde CoT grading. Dat wijst op een interne controlelaag over bestaande trainingsprocessen, niet op een nieuwe ChatGPT-functie voor gebruikers.

CoT-monitoring blijft hoofdvraag

Carroll schrijft dat er geen duidelijk bewijs is gevonden dat de gevonden gevallen de monitorbaarheid van chain-of-thought hebben verslechterd. Die formulering is belangrijk. Er staat niet dat er geen effect was, maar dat er geen heldere aanwijzing is gevonden voor verslechtering. Voor AI-veiligheidsonderzoekers maakt dat verschil uit, omdat monitorability draait om de vraag of ontwikkelaars nog kunnen zien waarom een model een bepaald antwoord of een bepaalde actie kiest.

Bij reasoning-modellen is dat punt extra relevant. OpenAI heeft sinds de introductie van zijn o-serie meer nadruk gelegd op modellen die langer redeneren voordat ze antwoorden. Als die redeneringssporen tijdens RL verkeerd worden beloond, kan dat het gedrag van een model beĆÆnvloeden. Carroll noemt geen GPT-versie, o-model of ChatGPT-release bij naam. Daardoor blijft de duiding beperkt tot ā€œpreviously deployed modelsā€, een brede categorie binnen OpenAI.

Geen modelnamen of aantallen genoemd

Het bericht bevat geen lijst met getroffen modellen, geen aantallen RL-runs en geen datumbereik voor de training. Ook ontbreekt informatie over de vraag of de modellen beschikbaar waren via ChatGPT, via de API of via enterprise-omgevingen. Voor ontwikkelaars die modellen via platform.openai.com gebruiken, is dat een praktische beperking: zij kunnen uit dit bericht niet afleiden of hun gebruikte modelversie bij de gevonden gevallen hoorde.

OpenAI heeft vaker system cards en technische rapporten gebruikt om modelgedrag, beperkingen en veiligheidstests te documenteren. In dit geval gaat het alleen om een kort bericht van Micah Carroll met twee concrete mededelingen: er zijn gevallen gevonden, en er is geen duidelijk bewijs voor slechtere CoT-monitoring. Een uitgebreider rapport zou kunnen verduidelijken welke evaluaties zijn gebruikt om die tweede conclusie te trekken.

Nieuwe scanner controleert trainingen

Het meest concrete nieuwe onderdeel is het scansysteem voor alle OpenAI RL-runs. Dat systeem is gebouwd om accidental CoT grading op te sporen, dus niet alleen om ƩƩn eerder probleem na te lopen. Voor enterprise-klanten is vooral die proceswijziging relevant: de waarde zit in een vaste controle op trainingsruns, niet in een zichtbare wijziging aan ChatGPT of een API-eindpunt.

De tweet noemt geen planning voor publicatie van extra data, geen externe audit en geen openbaar dashboard voor toekomstige meldingen. Wel is duidelijk dat OpenAI de gevonden gevallen koppelt aan ā€œpreviously deployed modelsā€, dus aan modellen die al buiten de trainingsomgeving zijn gebruikt. Het veelzeggende detail is dat de scanner pas na die eerdere trainingen is gebouwd, waardoor de vraag openblijft welke oudere RL-runs nu met terugwerkende kracht zijn gecontroleerd.

Over de schrijver 

Dave

Hoi, ik ben Dave – schrijver, onderzoeker en nieuwsgierige geest achter AIInsiders.nl. Ik hou me bezig met de manier waarop technologie ons leven verandert, en vooral: hoe we dat een beetje kunnen bijbenen. Van slimme tools tot digitale trends, ik duik graag in de wereld achter de schermen.

Mijn stijl? Lekker helder, soms kritisch, altijd eerlijk. Geen onnodig jargon of overdreven hype, maar praktische inzichten waar je echt iets aan hebt. AI is niet eng of magisch – het is interessant, en ik help je graag om dat te zien.

Meer lezen

14/05/2026 23:31

OpenAI heeft Codex in de ChatGPT mobile app in preview gezet. De functie is op 14 mei 2026 aangekondigd voor gebruikers van de ChatGPT-app, zonder lees verder

Codex krijgt mobiele bediening in ChatGPT-app in preview

13/05/2026 20:31

OpenAI Codex is op 13 mei 2026 opnieuw naar voren geschoven in een kort bericht van OpenAI op X. Het bedrijf noemt Codex daarin als lees verder

OpenAI promoot Codex maar publiceert geen specificaties

12/05/2026 22:36

OpenAI Parameter Golf is op 12 mei 2026 afgesloten met meer dan 2.000 inzendingen en ruim 1.000 geverifieerde GitHub-accounts, meldde Alex Zhao in een bericht lees verder

OpenAI Parameter Golf haalt 2.000 inzendingen en 1.000 GitHub

12/05/2026 11:36

OpenAI heeft het OpenAI realtime vertaalmodel op 7 mei 2026 gedeeld via een bericht van Jason Liu. De aankondiging noemt een nieuw model voor realtime lees verder

OpenAI introduceert realtime vertaalmodel via API vandaag
>