2 min Applications

Nieuwe OpenAI-modellen hallucineren vaker dan voorgangers

Nieuwe OpenAI-modellen hallucineren vaker dan voorgangers

Volgens OpenAI’s eigen tests hallucineren de nieuwste redeneermodellen, o3 en o4-mini, aanzienlijk vaker dan het eerdere model o1. 

TechCrunch meldde als eerste dat de system card van OpenAI de resultaten van de PersonQA-evaluatie beschrijft. Deze test is bedoeld om hallucinaties te meten. Uit de evaluatie bleek dat het hallucinatiepercentage van o3 33 procent bedraagt. En dat van o4-mini ligt zelfs op 48 procent. Dat is dus bijna de helft van de tijd. Ter vergelijking: o1 had een hallucinatiepercentage van 16 procent, wat betekent dat o3 ongeveer twee keer zo vaak hallucineerde.

Nieuwe modellen geen verbetering

Hallucinaties blijken een van de grootste en moeilijkste problemen te zijn om op te lossen in AI, en hebben zelfs invloed op de best presterende systemen van vandaag. Historisch gezien is elk nieuw model iets verbeterd op het gebied van hallucinaties, waardoor het minder hallucineert dan zijn voorganger. Maar dat lijkt dus niet het geval te zijn voor de o3 en o4-mini.

Volgens de system card maakt o3 over het algemeen meer beweringen. Dit leidt tot zowel meer correcte als meer foutieve of gehallucineerde uitspraken. OpenAI gaf aan dat de onderliggende oorzaak hiervan nog onbekend is en dat er meer onderzoek nodig is om deze te begrijpen.

Meer rekenkracht

De redeneermodellen van OpenAI worden gepresenteerd als nauwkeuriger dan de niet-redeneermodellen, zoals GPT-4o en GPT-4.5. Dit omdat ze meer rekenkracht gebruiken om langer na te denken voordat ze antwoorden. In de aankondiging van o1 werd dit omschreven als een proces waarbij de modellen hun denkproces verfijnen, verschillende strategieën proberen en hun fouten leren herkennen. Ze vertrouwen minder dan voorheen op stochastische methoden.

De system card van GPT-4.5, die in februari werd uitgebracht, laat zien dat dit model een hallucinatiepercentage van 19 procent heeft in de PersonQA-evaluatie. Diezelfde kaart vergelijkt dit met GPT-4o, dat een percentage van 30 procent behaalde.