Nieuwe OpenAI-modellen hallucineren vaker dan voorgangers

Volgens OpenAI’s eigen tests hallucineren de nieuwste redeneermodellen, o3 en o4-mini, aanzienlijk vaker dan het eerdere model o1.

TechCrunch meldde als eerste dat de system card van OpenAI de resultaten van de PersonQA-evaluatie beschrijft. Deze test is bedoeld om hallucinaties te meten. Uit de evaluatie bleek dat het hallucinatiepercentage van o3 33 procent bedraagt. En dat van o4-mini ligt zelfs op 48 procent. Dat is dus bijna de helft van de tijd. Ter vergelijking: o1 had een hallucinatiepercentage van 16 procent, wat betekent dat o3 ongeveer twee keer zo vaak hallucineerde.

Nieuwe modellen geen verbetering

Hallucinaties blijken een van de grootste en moeilijkste problemen te zijn om op te lossen in AI, en hebben zelfs invloed op de best presterende systemen van vandaag. Historisch gezien is elk nieuw model iets verbeterd op het gebied van hallucinaties, waardoor het minder hallucineert dan zijn voorganger. Maar dat lijkt dus niet het geval te zijn voor de o3 en o4-mini.

Volgens de system card maakt o3 over het algemeen meer beweringen. Dit leidt tot zowel meer correcte als meer foutieve of gehallucineerde uitspraken. OpenAI gaf aan dat de onderliggende oorzaak hiervan nog onbekend is en dat er meer onderzoek nodig is om deze te begrijpen.

Meer rekenkracht

De redeneermodellen van OpenAI worden gepresenteerd als nauwkeuriger dan de niet-redeneermodellen, zoals GPT-4o en GPT-4.5. Dit omdat ze meer rekenkracht gebruiken om langer na te denken voordat ze antwoorden. In de aankondiging van o1 werd dit omschreven als een proces waarbij de modellen hun denkproces verfijnen, verschillende strategieën proberen en hun fouten leren herkennen. Ze vertrouwen minder dan voorheen op stochastische methoden.

De system card van GPT-4.5, die in februari werd uitgebracht, laat zien dat dit model een hallucinatiepercentage van 19 procent heeft in de PersonQA-evaluatie. Diezelfde kaart vergelijkt dit met GPT-4o, dat een percentage van 30 procent behaalde.

Top story

Cisco ThousandEyes: een weerbaar netwerk begint met inzicht

Router opnieuw opstarten volstaat niet meer

Sander Almekinders 4 uren geleden

Tech calendar

Nieuwe OpenAI-modellen hallucineren vaker dan voorgangers

Nieuwe modellen geen verbetering

Meer rekenkracht

Blijf op de hoogte, abonneer!

OT-security: hoe AI zowel bedreigt als beschermt

IBM aast op eenvoud met AI-agents en automation

Hoe ziet het duurzame datacenter van de toekomst eruit?

Google laat AI-agents data-werk in BigQuery en Looker afhandelen

Data-analisten nog altijd erg afhankelijk van spreadsheets

Na de AI-wereld wil Databricks nu de analytics markt veranderen

Wat is het nieuwe AI-project Red Hat InstructLab?

GITEX ASIA

SAS Innovate 2025

.NEXT 2025

LambdaConf 2025

Qlik Connect 2025

Red Hat Summit

Probeer gratis het nieuwste high-end Synology backup-systeem

Hoe kies je het juiste Enterprise Linux-platform?

Hoe selecteer je het juiste ERP-systeem?

Veilige toegang met Zero Trust