Meta onthult Voicebox, generatieve AI voor spraak

Onderzoekers beweren dat dit het eerste AI-model is dat volledig zelfstandig spraak kan genereren.

De AI-laboratoria van Meta hebben een uniek model van kunstmatige intelligentie geïntroduceerd. Het is ontworpen om voor spraak te doen wat andere AI-diensten kunnen doen met tekst en afbeeldingen. Volgens de onderzoekers kan het nieuwe “Voicebox” generatieve AI-model generaliseren naar spraakgeneratietaken waar het niet specifiek voor getraind is, en dit met “state-of-the-art prestaties”.

Spraak synthetiseren in zes talen

Meta AI beschrijft de nieuwe AI-service in een blogpost. Ze leggen uit dat Voicebox, net als generatieve systemen voor afbeeldingen en tekst, “outputs creëert in een grote verscheidenheid aan stijlen”. Het kan ook uit het niets beginnen en een gegeven voorbeeld aanpassen.

Het verschil is natuurlijk dat Voicebox audioclips van hoge kwaliteit produceert in plaats van een afbeelding of tekst. De onderzoekers beweren dat het model spraak in zes talen kan synthetiseren. Daarnaast kan het ook ruis verwijderen, inhoud bewerken, stijlen omzetten en “diverse samples genereren”.

Meta trainde Voicebox met meer dan 50.000 uur opgenomen spraak en transcripties van audioboeken uit het publieke domein. Deze bevatten gegevens in het Engels, Frans, Spaans, Duits, Pools en Portugees. De AI is getraind om een spraaksegment te voorspellen wanneer hij de omringende spraak en het transcript van het segment krijgt. Dit wordt vervolgens toegepast in spraakgeneratietaken.

Wat maakt Voicebox speciaal?

De belangrijkste technologische doorbraak die dit nieuwe AI-model uniek maakt, is zijn vermogen om spraak volledig autonoom te synthetiseren. Vóór Voicebox vereiste generatieve AI voor spraak specifieke training voor elke taak met behulp van zorgvuldig voorbereide trainingsdata. Voicebox kan leren “gewoon van ruwe audio en een begeleidende transcriptie”, aldus de onderzoekers.

Om de AI-uitvoer “menselijker” te laten klinken, bouwde Meta Voicebox op basis van een methode die Flow Matching (FM) heet. Dit helpt Voicebox om beter te presteren dan Microsfts VALL-E in termen van verstaanbaarheid en audiogelijkenis, beweren ze.

Tip: Meta komt met generatieve AI in WhatsApp, Messenger en Instagram

Top story

Synthetische data en het gevaar van ‘model collapse’

Nvidia heeft start-up Gretel, gespecialiseerd in synthetische data, gekocht. Als onderdeel van 's werelds gro...

Erik van Klinken 21 maart 2025

Tech calendar

Meta onthult Voicebox, generatieve AI voor spraak

Spraak synthetiseren in zes talen

Wat maakt Voicebox speciaal?

Blijf op de hoogte, abonneer!

CVE-database MITRE op allerlaatste moment gered

OpenAI eist ID-verificatie voor toegang tot toekomstige AI-modellen

OpenAI lanceert GPT-4.1 modellen, met focus op ontwikkelen

Hoe ziet het duurzame datacenter van de toekomst eruit?

De 3 meest gemaakte fouten die de implementatie van ERP doen falen

IFS groeit als kool ondanks AI-strategie met de handrem erop

NetSuite zet in op kwalitatieve groei en omarmt Salesforce

VeeamON 2025

GITEX ASIA

SAS Innovate 2025

.NEXT 2025

LambdaConf 2025

Qlik Connect 2025

Probeer gratis het nieuwste high-end Synology backup-systeem

Hoe kies je het juiste Enterprise Linux-platform?

Hoe selecteer je het juiste ERP-systeem?

Veilige toegang met Zero Trust