OpenAI lanceert nieuwe spraakmodellen via API

OpenAI introduceeert nieuwe speech-to-text and text-to-speech modellen via de app. Dit stelt ontwikkelaars in staat om spraakagenten te bouwen die beter afgestemd zijn op toon en expressie.

In de afgelopen maanden lanceerde OpenAI verschillende nieuwe tools, waaronder Operator, Deep Research, Computer-Using Agents en de Responses API. Deze ontwikkelingen richtten zich voornamelijk op tekst gebaseerde agenten. Nu meldt Neowin dat OpenAI nieuwe speech-to-text en text-to-speech audiomodellen ontwikkelde die beschikbaar zijn via de API. Met deze modellen kunnen ontwikkelaars krachtigere, aanpasbare en expressievere spraakagenten bouwen.

De nieuwe audiomodellen van OpenAI, gpt-4o-transcribe en gpt-4o-mini-transcribe, laten aanzienlijke verbeteringen zien op het gebied van woordfouten, taalherkenning en nauwkeurigheid in vergelijking met de bestaande Whisper-modellen van het bedrijf. Deze vooruitgang behaalde het bedrijf door middel van reinforcement learning en uitgebreide mid-training. Hierbij gebruikten ontwikkelaars diverse en hoogwaardige audiodatasets.

Beter begrip van nuances

OpenAI stelt dat deze nieuwe audiomodellen beter in staat zijn om nuances in spraak te begrijpen. Ook maken ze minder fouten in de spraakherkenning en leveren betrouwbaardere transcripties. Dat geldt ook bij invoeraudio met accenten, achtergrondgeluiden of wisselende spreektempo’s.

Het model gpt-4o-mini-tts is het nieuwste tekst-naar-spraakmodel en biedt verbeterde stuurbaarheid. Ontwikkelaars kunnen het model nu instructies geven over hoe de tekst moet worden uitgesproken. Voorlopig is dit model echter beperkt tot kunstmatige, vooraf ingestelde stemmen.

Prijsstelling bekend

De prijsstelling van de modellen is als volgt: gpt-4o-transcribe kost $6 per miljoen audio-invoertokens, $2,50 per miljoen tekstinvoertokens en $10 per miljoen tekstuitvoertokens. De gpt-4o-mini-transcribe kost respectievelijk $3, $1,25 en $5 per miljoen tokens. Tot slot kost de gpt-4o-mini-tts $0,60 per miljoen tekstinvoertokens en $12 per miljoen audiouitvoertokens. Dit komt neer op de volgende geschatte kosten per minuut:

gpt-4o-transcribe: ongeveer 0,6 cent per minuut
gpt-4o-mini-transcribe: ongeveer 0,3 cent per minuut
gpt-4o-mini-tts: ongeveer 1,5 cent per minuut

Het team van OpenAI gaf aan dat het van plan is om te blijven investeren in het verbeteren van de intelligentie en nauwkeurigheid van de audiomodellen. Ook wil het bedrijf manieren verkennen waarop ontwikkelaars hun eigen aangepaste stemmen kunnen gebruiken om nog persoonlijkere ervaringen te creëren. Dit overigens wel op manieren die in lijn zijn met de veiligheidsnormen van OpenAI.

Deze nieuwe audiomodellen zijn vanaf nu beschikbaar voor alle ontwikkelaars via de API’s. OpenAI maakte bovendien bekend dat er een integratie is met de Agents SDK, waardoor het bouwen van spraakagenten eenvoudiger wordt. Voor spraak-naar-spraakervaringen met lage latentie raadt OpenAI het gebruik van de Realtime API aan.

OpenAI lanceert nieuwe spraakmodellen via API

Beter begrip van nuances

Prijsstelling bekend

Blijf op de hoogte, abonneer!

Tech-aandelen schieten omhoog na verlaging Trump-tarieven

OT-security: hoe AI zowel bedreigt als beschermt

Atlassian’s System of Work-visie krijgt vorm met Teamwork Collection en Rovo AI Agents

Groot datalek treft meerdere Nederlandse ministeries, impact nog onduidelijk

Cisco AI Defense maakt veilige inzet van AI mogelijk

Het securityplatform lonkt: wat is het en wat levert het op?

Jarviss gaat de nood aan een geautomatiseerde XDR beantwoorden in Nederland

VeeamON 2025

GITEX ASIA

SAS Innovate 2025

.NEXT 2025

LambdaConf 2025

Qlik Connect 2025

Probeer gratis het nieuwste high-end Synology backup-systeem

Hoe kies je het juiste Enterprise Linux-platform?

Hoe selecteer je het juiste ERP-systeem?

Veilige toegang met Zero Trust