3 min Applications

OpenAI lanceert o3 en o4-mini

OpenAI lanceert o3 en o4-mini

OpenAI lanceert vandaag o3 en o4-mini. Dit zijn de nieuwste toevoegingen aan een reeks taalmodellen die geoptimaliseerd zijn voor redenering.

Dit meldt SiliconANGLE. De productlancering vond plaats tegen de achtergrond van berichten dat het bedrijf mogelijk Windsurf wil overnemen voor 3 miljard dollar. Windsurf, officieel Exafunction, verkoopt populaire AI-tools voor programmeren. Het bedrijf maakt voor sommige functies gebruik van modellen van OpenAI.

Volgens OpenAI is o3 het meest geavanceerde model tot nu toe als het gaat om redeneren. Het andere nieuwe model, o4-mini, levert iets in op kwaliteit van output in ruil voor snellere prestaties en lagere kosten. Beide modellen zijn volgens het bedrijf kostenefficiënter dan hun voorgangers bij de meeste praktische toepassingen.

OpenAI stelt dat o3 nieuwe records heeft gevestigd op verschillende bekende AI-benchmarks. Een daarvan is SWE-bench, een toets die de programmeercapaciteiten van AI beoordeelt door modellen bugs in open-sourceprojecten te laten oplossen. Een andere benchmark, MMMLU, waarop o3 eveneens uitblonk, bevat vragen op universitair niveau over onderwerpen zoals wetenschap en economie.

Een factor die bijdraagt aan de kwaliteit van de output is het verbeterde vermogen van het model om hulpmiddelen te gebruiken. Daarmee wordt bedoeld dat het model externe systemen, zoals een code-editor of zoekmachine, kan inzetten om taken uit te voeren die het anders niet zelfstandig zou kunnen afronden. OpenAI meldt dat o3 in staat is om afbeeldingen te analyseren en te genereren, Python-code uit te voeren, op internet te zoeken en interactie te hebben met aangepaste tools die klanten via een API koppelen.

Twintig procent minder grote fouten

Medewerkers van OpenAI verklaarden dat externe experts bij evaluaties hebben vastgesteld dat o3 twintig procent minder grote fouten maakt dan het eerdere model o1 bij complexe, praktische taken.

Het tweede model dat vandaag werd gelanceerd, o4-mini, beschikt over veel van dezelfde functies voor toolgebruik als o3. Het verschil is dat dit model kleiner is, waardoor het een beperkter aantal taken aankan, maar die sneller en goedkoper uitvoert. OpenAI geeft aan dat deze kostenefficiëntie het mogelijk maakt om veel ruimere gebruikslimieten aan te bieden dan bij o3.

Uit interne tests blijkt dat o4-mini vooral geschikt is voor taken die rekenen, programmeren en visuele input vereisen. Ook zonder het gebruik van tools kan dit model betere prestaties leveren dan de geavanceerdere o3 op toetsen zoals AIME 2024 en AIME 2025, kwalificatiewedstrijden voor de Amerikaanse Wiskunde Olympiade. Medewerkers van OpenAI gaven aan dat uit deskundige evaluaties bleek dat o4-mini beter presteert dan zijn voorganger, o3-mini, bij niet-bètawetenschappelijke taken en op gebieden zoals datawetenschap.

Nieuw open-sourceproject

De lancering van de modellen ging gepaard met een nieuw open-sourceproject met de naam Codex CLI. Dit is een AI-agent die geoptimaliseerd is voor programmeertaken en die ontwikkelaars lokaal op hun desktops kunnen draaien. Het programma is toegankelijk via de terminal, het onderdeel van het besturingssysteem waarin gebruikers opdrachten kunnen uitvoeren via scripts in plaats van via een grafische interface.

Geruchten over overname Windsurf

De ambities van OpenAI op de markt voor programmeerassistenten gaan mogelijk verder dan open-sourceprojecten. Op basis van bronnen die bekend zijn met de situatie, meldden Bloomberg en CNBC dat OpenAI in gesprek is om Windsurf over te nemen. De overname zou mogelijk een waarde van 3 miljard dollar hebben.

Windsurf, dat tot voor kort opereerde onder de naam Codeium, biedt een AI-programmeerassistent die nieuwe code kan genereren, bestaande code kan uitleggen en gerelateerde taken kan uitvoeren. Deze assistent kan worden geïntegreerd in populaire code-editors via plugins. Daarnaast heeft Windsurf een eigen editor ontwikkeld die speciaal is ontworpen om ontwikkelaars te helpen AI in hun werk te integreren.