28 augustus 2025 ā OpenAI maakt de Realtime API algemeen beschikbaar en introduceert een nieuwe generatie spraak-naar-spraakmodel: gpt-realtime. De update brengt verbeterde audio-intelligentie, natuurlijker klinkende stemmen en nieuwe API-functies zoals ondersteuning voor afbeeldingen, MCP-servers en SIP-bellen. Hiermee wil OpenAI ontwikkelaars en bedrijven helpen om betrouwbare, productieklare voice agents te bouwen.
Nieuw spraakmodel: gpt-realtime
Het nieuwe model gpt-realtime is de meest geavanceerde versie tot nu toe. Het is getraind om beter complexe instructies te volgen, tools nauwkeurig aan te roepen en spraak te produceren die menselijker en expressiever klinkt. Ook is het beter in het begrijpen van systeemberichten en ontwikkelaarsprompts, zoals het woordelijk oplezen van disclaimers of het foutloos herhalen van alfanumerieke codes.
Met gpt-realtime worden bovendien twee nieuwe stemmen geĆÆntroduceerd, Cedar en Marin, exclusief beschikbaar in de Realtime API. De bestaande acht stemmen zijn ook verbeterd voor meer natuurlijke intonatie en variatie.
Betere audio, intelligentie en instructienaleving
OpenAI claimt grote stappen op meerdere vlakken:
- Audio: spraak met natuurlijker intonatie, emotie en tempo. Het model kan zelfs specifieke stijlen volgen zoals āprofessioneel en snelā of āempathisch in een Frans accentā.
- Intelligentie: accurater in het herkennen van niet-verbale geluiden, schakelen tussen talen en het correct detecteren van alfanumerieke reeksen in verschillende talen. Op de Big Bench Audio-test haalde gpt-realtime 82,8% nauwkeurigheid, versus 65,6% voor de vorige generatie.
- Instructies: verbeterde opvolging van complexe aanwijzingen. Op de MultiChallenge-audiobenchmark steeg de score naar 30,5%, een duidelijke sprong ten opzichte van 20,6% eind 2024.
- Function calling: het model kiest nu beter de juiste functies en parameters op het juiste moment. Op de ComplexFuncBench-audio-evaluatie haalde gpt-realtime 66,5%, aanzienlijk beter dan de 49,7% van eind 2024.
Nieuwe functies in de Realtime API
Naast het nieuwe model bevat de API meerdere uitbreidingen:
- Remote MCP server support: tools koppelen via externe servers zonder handmatig te integreren.
- Image input: naast spraak en tekst kunnen nu ook afbeeldingen of screenshots worden toegevoegd aan een gesprek.
- SIP-ondersteuning: voice agents kunnen direct worden verbonden met telefoonsystemen en PBX-netwerken via Session Initiation Protocol.
- Herbruikbare prompts: prompts kunnen worden opgeslagen en hergebruikt over meerdere sessies, net als in de Responses API.
Veiligheid en privacy
De Realtime API bevat meerdere lagen van veiligheidsmaatregelen, zoals actieve classifiers die gesprekken stoppen bij overtreding van de richtlijnen. Ontwikkelaars kunnen daarnaast eigen guardrails instellen via de Agents SDK. Ook is er volledige EU Data Residency-ondersteuning, waarmee Europese bedrijven voldoen aan strengere privacyregels.
Beschikbaarheid en prijs
De Realtime API is per direct algemeen beschikbaar. Tegelijk verlaagt OpenAI de prijzen met 20% vergeleken met de vorige previewversie:
- ā¬32 per 1M audio-inputtokens (ā¬0,40 voor gecachte inputtokens)
- ā¬64 per 1M audio-outputtokens
Daarnaast krijgen ontwikkelaars meer controle over de contextlengte en kostenbeheersing bij langere sessies.
Toepassingen
Bedrijven als Zillow, T-Mobile en Oscar Health experimenteren al met de API. Volgens Zillow kan gpt-realtime gebruikers soepeler begeleiden bij complexe beslissingen, zoals het zoeken naar woningen of het berekenen van financieringsopties, ābijna alsof je praat met een vriendā.
Referenties
- OpenAI ā āIntroducing gpt-realtime and Realtime API updates for production voice agentsā, gepubliceerd op 28 augustus 2025 via OpenAI.com.
