OpenAI CoT grading is op 7 mei 2026 naar buiten gekomen via een bericht van onderzoeker Micah Carroll, dat door OpenAI werd gedeeld. Carroll schrijft dat OpenAI bij eerder uitgerolde modellen enkele gevallen heeft gevonden waarin chain-of-thought, het redeneringsspoor van een AI-model, per ongeluk is meegenomen in de beoordeling tijdens reinforcement learning. Het gaat om RL-runs van OpenAI, het trainingsproces dat ook relevant is voor ChatGPT en GPT-modellen. Het bedrijf bouwde daarvoor een systeem dat alle OpenAI RL-runs scant op zulke fouten.
Carroll meldt ook dat er geen duidelijk bewijs is gevonden dat deze gevallen de āCoT monitorabilityā hebben verslechterd. Daarmee blijft een kernpunt open voor ontwikkelaars en onderzoekers: OpenAI erkent een trainingsfout, maar zegt niet om welke modellen, hoeveel runs of welke periode het precies gaat.
We recently found some instances of CoT grading during the training of previously deployed models after building a system that scans all OpenAI RL runs for accidental CoT grading.
We did not find clear evidence that these instances degraded CoT monitorability.
ā Micah Carroll (@MicahCarroll) May 7, 2026
OpenAI vond fouten in RL-runs
De kern van het bericht is technisch maar concreet: bij training van eerder ingezette modellen zijn gevallen gevonden van accidental CoT grading. CoT staat voor chain of thought, de interne redeneringsstappen die een AI-model kan gebruiken om tot een antwoord te komen. Grading betekent hier dat die redeneringsstappen onderdeel werden van de beoordeling tijdens training. Dat is gevoelig, omdat OpenAI juist wil kunnen volgen of redeneringsmodellen betrouwbaar blijven zonder ze te trainen op het verbergen van hun sporen.
Reinforcement learning, vaak afgekort als RL, is een methode waarbij een model leert via beloningen of beoordelingen. OpenAI gebruikt zulke technieken in de fase na basistraining, onder meer om modellen beter te laten aansluiten op opdrachten van gebruikers. Het nieuwe detail is dat OpenAI een systeem heeft gebouwd dat alle RL-runs controleert op onbedoelde CoT grading. Dat wijst op een interne controlelaag over bestaande trainingsprocessen, niet op een nieuwe ChatGPT-functie voor gebruikers.
CoT-monitoring blijft hoofdvraag
Carroll schrijft dat er geen duidelijk bewijs is gevonden dat de gevonden gevallen de monitorbaarheid van chain-of-thought hebben verslechterd. Die formulering is belangrijk. Er staat niet dat er geen effect was, maar dat er geen heldere aanwijzing is gevonden voor verslechtering. Voor AI-veiligheidsonderzoekers maakt dat verschil uit, omdat monitorability draait om de vraag of ontwikkelaars nog kunnen zien waarom een model een bepaald antwoord of een bepaalde actie kiest.
Bij reasoning-modellen is dat punt extra relevant. OpenAI heeft sinds de introductie van zijn o-serie meer nadruk gelegd op modellen die langer redeneren voordat ze antwoorden. Als die redeneringssporen tijdens RL verkeerd worden beloond, kan dat het gedrag van een model beĆÆnvloeden. Carroll noemt geen GPT-versie, o-model of ChatGPT-release bij naam. Daardoor blijft de duiding beperkt tot āpreviously deployed modelsā, een brede categorie binnen OpenAI.
Geen modelnamen of aantallen genoemd
Het bericht bevat geen lijst met getroffen modellen, geen aantallen RL-runs en geen datumbereik voor de training. Ook ontbreekt informatie over de vraag of de modellen beschikbaar waren via ChatGPT, via de API of via enterprise-omgevingen. Voor ontwikkelaars die modellen via platform.openai.com gebruiken, is dat een praktische beperking: zij kunnen uit dit bericht niet afleiden of hun gebruikte modelversie bij de gevonden gevallen hoorde.
OpenAI heeft vaker system cards en technische rapporten gebruikt om modelgedrag, beperkingen en veiligheidstests te documenteren. In dit geval gaat het alleen om een kort bericht van Micah Carroll met twee concrete mededelingen: er zijn gevallen gevonden, en er is geen duidelijk bewijs voor slechtere CoT-monitoring. Een uitgebreider rapport zou kunnen verduidelijken welke evaluaties zijn gebruikt om die tweede conclusie te trekken.
Nieuwe scanner controleert trainingen
Het meest concrete nieuwe onderdeel is het scansysteem voor alle OpenAI RL-runs. Dat systeem is gebouwd om accidental CoT grading op te sporen, dus niet alleen om ƩƩn eerder probleem na te lopen. Voor enterprise-klanten is vooral die proceswijziging relevant: de waarde zit in een vaste controle op trainingsruns, niet in een zichtbare wijziging aan ChatGPT of een API-eindpunt.
De tweet noemt geen planning voor publicatie van extra data, geen externe audit en geen openbaar dashboard voor toekomstige meldingen. Wel is duidelijk dat OpenAI de gevonden gevallen koppelt aan āpreviously deployed modelsā, dus aan modellen die al buiten de trainingsomgeving zijn gebruikt. Het veelzeggende detail is dat de scanner pas na die eerdere trainingen is gebouwd, waardoor de vraag openblijft welke oudere RL-runs nu met terugwerkende kracht zijn gecontroleerd.
