Onderzoekers beweren dat dit het eerste AI-model is dat volledig zelfstandig spraak kan genereren.
De AI-laboratoria van Meta hebben een uniek model van kunstmatige intelligentie geïntroduceerd. Het is ontworpen om voor spraak te doen wat andere AI-diensten kunnen doen met tekst en afbeeldingen. Volgens de onderzoekers kan het nieuwe “Voicebox” generatieve AI-model generaliseren naar spraakgeneratietaken waar het niet specifiek voor getraind is, en dit met “state-of-the-art prestaties”.
Spraak synthetiseren in zes talen
Meta AI beschrijft de nieuwe AI-service in een blogpost. Ze leggen uit dat Voicebox, net als generatieve systemen voor afbeeldingen en tekst, “outputs creëert in een grote verscheidenheid aan stijlen”. Het kan ook uit het niets beginnen en een gegeven voorbeeld aanpassen.
Het verschil is natuurlijk dat Voicebox audioclips van hoge kwaliteit produceert in plaats van een afbeelding of tekst. De onderzoekers beweren dat het model spraak in zes talen kan synthetiseren. Daarnaast kan het ook ruis verwijderen, inhoud bewerken, stijlen omzetten en “diverse samples genereren”.
Meta trainde Voicebox met meer dan 50.000 uur opgenomen spraak en transcripties van audioboeken uit het publieke domein. Deze bevatten gegevens in het Engels, Frans, Spaans, Duits, Pools en Portugees. De AI is getraind om een spraaksegment te voorspellen wanneer hij de omringende spraak en het transcript van het segment krijgt. Dit wordt vervolgens toegepast in spraakgeneratietaken.
Wat maakt Voicebox speciaal?
De belangrijkste technologische doorbraak die dit nieuwe AI-model uniek maakt, is zijn vermogen om spraak volledig autonoom te synthetiseren. Vóór Voicebox vereiste generatieve AI voor spraak specifieke training voor elke taak met behulp van zorgvuldig voorbereide trainingsdata. Voicebox kan leren “gewoon van ruwe audio en een begeleidende transcriptie”, aldus de onderzoekers.
Om de AI-uitvoer “menselijker” te laten klinken, bouwde Meta Voicebox op basis van een methode die Flow Matching (FM) heet. Dit helpt Voicebox om beter te presteren dan Microsfts VALL-E in termen van verstaanbaarheid en audiogelijkenis, beweren ze.
Tip: Meta komt met generatieve AI in WhatsApp, Messenger en Instagram