5 min Analytics

Synthetische data en het gevaar van ‘model collapse’

Synthetische data en het gevaar van ‘model collapse’

Nvidia heeft start-up Gretel, gespecialiseerd in synthetische data, gekocht. Als onderdeel van ’s werelds grootste AI-chipmaker moet het de softwaresuite van Nvidia verder uitbreiden. Maar wat levert synthetische data überhaupt op? En waarom kan het GenAI op den duur juist bedreigen?

Er is nog geen sprake van een officiële aankondiging, maar Wired heeft de Gretel-overname door Nvidia bevestigd. De aanschafprijs zou hoger liggen dan Gretel’s eerdere waardering van 320 miljoen dollar. Aangezien dat een bedrag is dat Nvidia ruimschoots in twee dagen aan omzet binnenhaalt, zal de financiële last miniem zijn voor de grootste winnaar in het domein van AI-processoren.

Het feit dát het oog viel op een synthetische data-start-up is eveneens onopmerkelijk. Daar zijn er inmiddels extreem veel van, met elk hetzelfde bestaansrecht: de menselijk gegenereerde data die online te vinden is, is op en wordt zelfs steeds verder beperkt.

De ‘data squeeze’

Er is meer schaarste in de GenAI-wereld te vinden tegenwoordig. Het aanbod aan GPU’s voldoet al twee jaar lang niet aan de vraag vanuit AI-modelbouwers en organisaties die modellen willen draaien. Echter is het aanbod aan data niet zomaar op te lossen door wat extra chipfabrieken. Allereerst zijn de onvrijwillige dataleveranciers voor ChatGPT niet zo gul meer. Reddit, X en allerlei nieuwsorganisaties kregen door op welke goudmijn men zat in de vorm van menselijk gegenereerde data. Inmiddels zijn er lucratieve deals voor diegenen die wel toegang verschaffen, zoals eveneens met Reddit, Axel Springer en de Associated Press.

Dit alles is sinds eind 2023 in gang gezet en dus niet nieuw. Wat wél is veranderd, is het vooruitzicht van de verbeteringen die nieuwe modellen leveren. Er is al sinds de introductie van GPT-4 in april 2023 heftig gespeculeerd over de aardschok die GPT-5 zou opleveren. De beoogde LLM hiervoor was ‘Orion’, maar OpenAI heeft voor het model dat uiteindelijk de naam GPT-4.5 kreeg, omwegen moeten vinden om voor het gebrek aan nieuwe data te compenseren. GPT-4.5, verreweg de grootste LLM van OpenAI ooit, is eigenlijk een perfecte naam: het model is namelijk zo ongeveer de helft van wat er van GPT-5 verwacht werd.

De ‘scaling laws’ die GPT-2, GPT-3 en GPT-4 voorstuwden, zijn opgehouden. Inference time compute, ofwel ‘redeneren’, bleek een nieuwe weg vooruit voor betere, meer doordachte AI-outputs. Maar onderhuids blijft het probleem bestaan dat bergen data en bergen parameters de eenvoudigste manier lijken om progressie te boeken.

Tip: Databricks lanceert API om synthetische datasets te genereren

Synthetische data: privacybewust én mensvriendelijker?

De oplossing lijkt synthetische data zoals ook Gretel produceert. “Betere data leidt tot betere modellen”, luidt de salespitch. “Betere” data als kwalificatie suggereert meer dan alleen “extra” data. Het voordeel van de synthetische aard van de data valt te zien aan het feit dat er banken, overheden en medische organisaties klant zijn van Gretel. Zij willen immers wél AI trainen op hoogwaardige datasets, maar allesbehalve op data die privacygevoelig ligt. Aangezien de trainingswaarde niet afneemt als je persoonlijke gegevens anoniem maakt, kan een model ook geen authentieke patiënt- of burgerinformatie doorspelen. En wat als je trainingsdata geen correcte weerspiegeling van de demografie is? Met synthetische data zijn er extra personen uit ondergerepresenteerde groepen te ‘genereren’, om zo bias te voorkomen.

Dit alles klinkt positief, maar vergt een precieze aanpak. Het tweaken en uitbreiden van je dataset vergt een hoge mate van bewustzijn over de inhoud van die data en de potentiële tekortkomingen. Vandaar ook dat start-ups zich geroepen voelen om deze synthetische generatie namens organisaties te doen.

Het is echter niet zo dat het hierbij blijft. AI-modelbouwers trainen hun nieuwe LLM’s al op hun voorgangers of grotere versies. Zo zijn alle DeepSeek-destillaties kleinere modellen die het grotere DeepSeek-R1 over van alles hebben bevraagd. Meta’s Llama 3 werd deels getraind met data die door Llama 2 gegenereerd was. Amazon Bedrock gebruikt Claude om organisaties synthetische informatie te laten genereren. Kortom: het hek is van de dam.

Dit heeft een reusachtig potentieel privacyvoordeel en ook juridische implicaties. Wie immers Llama 3 gebruikt, maakt ook indirect gebruik van Llama 2, dat hapklare brokken content met auteursrechten zou hebben gebruikt. Toch is het denkbaar dat er AI-modellen verschijnen die alléén synthetische data gebruiken, zoals met medische datasets die nu niet meer herleidbaar zijn tot de individuen die er ooit hun data aan hadden ontleend.

Model collapse?

Het gevaar van een ‘ouroboros’ bestaat, dit is een slang die zichzelf opeet. Modellen zijn namelijk te ‘vergiftigen’ met heimelijk doorgespeelde data naast kwaadaardige prompts. Dit kan ook onbedoeld zijn: AI-modellen hallucineren weleens, ook als ze data genereren voor hun LLM-nazaat. Met genoeg doorwerkfouten dreigt een nieuw LLM slechter te presteren dan de voorgangers. Het eindpunt: totale ‘model collapse‘, waarbij het onzingehalte alle AI-outputs verpest. Wanneer de data overwegend fictief van aard is, heeft dit tevens een impact op de use cases. Historische kennis kan bijvoorbeeld vergezeld worden door waarachtig ogende onzin, of medische data wordt incorrect getransformeerd zodat ze opeens biologische patronen suggereren die niet bestaan.

Kortom: er is een grote mate van expertise vereist voor elke stap in het AI-proces. Momenteel ligt de aandacht op de bouw van de foundation models enerzijds en de werkelijke implementatie anderzijds. Het belang van de trainingsdata werd in 2023 aangestipt doordat online organisaties zich regelmatig bestolen voelden. Nu de stroom aan online opvraagbare gegevens eindigt, grijpen AI-spelers naar een alternatief dat nieuwe problemen oplevert. Nu Nvidia nog nadrukkelijker synthetische datageneratie beschikbaar zal stellen, is de kans op ongewenste consequenties enorm.

Lees ook: Potentieel van synthetische data is enorm