OpenAI heeft deze week drie nieuwe modellen aan zijn Realtime API toegevoegd en een Chrome-extensie voor zijn coding-agent Codex uitgebracht. Met de update zet het bedrijf vol in op spraak-AI die meertalig kan onderhandelen en op agents die taken uitvoeren in de browser waar gebruikers al zijn ingelogd.
De nieuwe modellen, aangekondigd in een ontwikkelaarsnieuwsbrief, zijn gpt-realtime-2, gpt-realtime-translate en gpt-realtime-whisper. Het eerste model is bedoeld voor stemagenten die instructies beter volgen en meertalig kunnen werken. Het tweede vertaalt gesproken gesprekken live tussen 70 invoer- en 13 uitvoertalen. Het derde transcribeert tijdens het spreken in plaats van te wachten tot een zin is afgemaakt. OpenAI kondigde tegelijk DevDay 2026 aan en plant een Build Hour over de modellen op 12 mei.
Voice AI als nieuw front
De update onderstreept dat spraak het volgende strijdtoneel is in de AI-markt. De wereldwijde markt voor text-to-speech wordt geraamd op 37,5 miljard dollar in 2032, tegenover 4,5 miljard in 2024, en 40 procent van zakelijke applicaties zou in 2026 een AI-agent bevatten. OpenAI concurreert daarbij met gespecialiseerde aanbieders als ElevenLabs, Deepgram, Cartesia en Inworld AI, die elk inzetten op lage latency en hoge spraakkwaliteit. Deepgrams Aura-2 haalt naar eigen zeggen een time-to-first-audio van 90 milliseconden, ElevenLabs’ Flash v2.5 ongeveer 75. Welke latency de nieuwe OpenAI-modellen halen, maakt het bedrijf niet bekend.
“It’s one of those things you have to see (and hear) for yourself”, schrijft OpenAI over de nieuwe stemmodellen in zijn ontwikkelaarsnieuwsbrief.
Met gpt-realtime-translate stapt OpenAI bovendien direct het terrein van live tolken op, waar partijen als Google Translate en Microsoft Translator al jaren actief zijn. De combinatie van 70 invoertalen en 13 uitvoertalen suggereert dat het model vooral als luistermachine is ingericht: het bedrijf zet zwaarder in op begrijpen dan op uitspreken.
Codex breekt uit de terminal
De aankondiging van een Chrome-extensie voor Codex is voor ontwikkelaars minstens zo betekenisvol. De extensie bouwt voort op de computer-use-functionaliteit en laat de agent rechtstreeks werken binnen sites waar de gebruiker is ingelogd, taakspecifieke tabbladen organiseren en resultaten teruggeven voor controle. Codex breidt daarmee uit van een terminal-tool naar een browser-agent, een gebied waar OpenAI concurreert met onder meer Anthropic’s Claude Code, Cursor en GitHub Copilot.
Naast de extensie kondigde OpenAI ook GPT-5.5 aan als zijn meest capabele model tot nu toe, een nieuwe Agents SDK waarmee agents bestanden kunnen inspecteren en commando’s draaien in afgeschermde omgevingen, en GPT-Image-2 voor productieklare beelden. Voor Codex zelf komen er 90 nieuwe plugins en achtergrondondersteuning voor computer-use.
Wat OpenAI niet zegt
In de aankondiging ontbreken harde cijfers. OpenAI publiceert geen prijzen voor de nieuwe Realtime-modellen, geen benchmarks tegenover concurrenten, en geen breed beschikbaarheidsschema buiten de eigen API. Onafhankelijke productiebenchmarks die de stemmodellen vergelijken met die van Deepgram of ElevenLabs ontbreken eveneens, een terugkerend probleem in de spraak-AI-markt: ontwikkelaarsteams moeten doorgaans zelf private tests draaien om vendor-claims te valideren.
Een eerste praktijkbeeld komt van Perplexity, dat de Realtime API gebruikt voor de spraakfunctie in zijn browser Comet en in zijn agent Perplexity Computer. Het bedrijf zegt te hebben opgeschaald naar miljoenen spraaksessies, maar deelt geen latencycijfers.
Lange aanloop naar DevDay 2026
OpenAI’s belangrijkste signaal richting ontwikkelaars zit in de combinatie van de releases. Met de Realtime-uitbreiding, Codex in de browser, een nieuwe Agents SDK en de aankondiging van DevDay 2026 bouwt het bedrijf zichtbaar door aan een platform waarin agents zelfstandig taken uitvoeren in spraak, code en visuele content. De vraag voor 2026 is of OpenAI die platformbelofte ook in productieomgevingen kan waarmaken, of dat gespecialiseerde aanbieders blijven domineren op de stukken waar latency, taalbreedte of compliance doorslaggevend zijn.
