OpenAI introduceeert nieuwe speech-to-text and text-to-speech modellen via de app. Dit stelt ontwikkelaars in staat om spraakagenten te bouwen die beter afgestemd zijn op toon en expressie.
In de afgelopen maanden lanceerde OpenAI verschillende nieuwe tools, waaronder Operator, Deep Research, Computer-Using Agents en de Responses API. Deze ontwikkelingen richtten zich voornamelijk op tekst gebaseerde agenten. Nu meldt Neowin dat OpenAI nieuwe speech-to-text en text-to-speech audiomodellen ontwikkelde die beschikbaar zijn via de API. Met deze modellen kunnen ontwikkelaars krachtigere, aanpasbare en expressievere spraakagenten bouwen.
De nieuwe audiomodellen van OpenAI, gpt-4o-transcribe en gpt-4o-mini-transcribe, laten aanzienlijke verbeteringen zien op het gebied van woordfouten, taalherkenning en nauwkeurigheid in vergelijking met de bestaande Whisper-modellen van het bedrijf. Deze vooruitgang behaalde het bedrijf door middel van reinforcement learning en uitgebreide mid-training. Hierbij gebruikten ontwikkelaars diverse en hoogwaardige audiodatasets.
Beter begrip van nuances
OpenAI stelt dat deze nieuwe audiomodellen beter in staat zijn om nuances in spraak te begrijpen. Ook maken ze minder fouten in de spraakherkenning en leveren betrouwbaardere transcripties. Dat geldt ook bij invoeraudio met accenten, achtergrondgeluiden of wisselende spreektempo’s.
Het model gpt-4o-mini-tts is het nieuwste tekst-naar-spraakmodel en biedt verbeterde stuurbaarheid. Ontwikkelaars kunnen het model nu instructies geven over hoe de tekst moet worden uitgesproken. Voorlopig is dit model echter beperkt tot kunstmatige, vooraf ingestelde stemmen.
Prijsstelling bekend
De prijsstelling van de modellen is als volgt: gpt-4o-transcribe kost $6 per miljoen audio-invoertokens, $2,50 per miljoen tekstinvoertokens en $10 per miljoen tekstuitvoertokens. De gpt-4o-mini-transcribe kost respectievelijk $3, $1,25 en $5 per miljoen tokens. Tot slot kost de gpt-4o-mini-tts $0,60 per miljoen tekstinvoertokens en $12 per miljoen audiouitvoertokens. Dit komt neer op de volgende geschatte kosten per minuut:
gpt-4o-transcribe: ongeveer 0,6 cent per minuut
gpt-4o-mini-transcribe: ongeveer 0,3 cent per minuut
gpt-4o-mini-tts: ongeveer 1,5 cent per minuut
Het team van OpenAI gaf aan dat het van plan is om te blijven investeren in het verbeteren van de intelligentie en nauwkeurigheid van de audiomodellen. Ook wil het bedrijf manieren verkennen waarop ontwikkelaars hun eigen aangepaste stemmen kunnen gebruiken om nog persoonlijkere ervaringen te creëren. Dit overigens wel op manieren die in lijn zijn met de veiligheidsnormen van OpenAI.
Deze nieuwe audiomodellen zijn vanaf nu beschikbaar voor alle ontwikkelaars via de API’s. OpenAI maakte bovendien bekend dat er een integratie is met de Agents SDK, waardoor het bouwen van spraakagenten eenvoudiger wordt. Voor spraak-naar-spraakervaringen met lage latentie raadt OpenAI het gebruik van de Realtime API aan.