DeepSeek werkt samen met de Tsinghua Universiteit om het trainingsproces van zijn kunstmatige intelligentie (AI)-modellen te verminderen, met als doel de operationele kosten te verlagen.
De Chinese start-up, die in januari de markt opschudde met zijn goedkope redeneermodel, werkt volgens The Edge inmiddels samen met onderzoekers van de instelling in Peking aan een paper waarin het een nieuwe benadering van reinforcement learning beschrijft om kunstmatige intelligentie-modellen efficiënter te maken.
Beloning voor nauwkeurige antwoorden
De nieuwe methode is bedoeld om AI-modellen beter te laten aansluiten op menselijke voorkeuren door beloningen te geven voor nauwkeurigere en begrijpelijkere antwoorden, schreven de onderzoekers. Reinforcement learning heeft bewezen effectief te zijn bij het versnellen van AI-taken binnen beperkte toepassingsgebieden.
Het uitbreiden ervan naar meer algemene toepassingen blijkt echter in de praktijk een uitdaging. En dat is het probleem dat het team van DeepSeek probeert op te lossen met wat zij noemen self-principled critique tuning. Volgens het paper presteerde deze strategie beter dan bestaande methoden en modellen op verschillende benchmarks, en leidde dit tot betere prestaties met minder rekenkracht.
DeepSeek noemt deze nieuwe modellen DeepSeek-GRM. Dit staat voor generalist reward modelling. DeekSeek zegt dat het de modellen op open source-basis beschikbaar stelt. Andere AI-ontwikkelaars, waaronder het Chinese technologiebedrijf Alibaba Group Holding en het in San Francisco gevestigde OpenAI, richten zich ook op deze nieuwe frontier van redeneervermogen en zelfverbetering van modellen terwijl ze taken in realtime uitvoeren.
Mixture of Experts-architectuur
Meta Platforms bracht afgelopen weekend zijn nieuwste familie van AI-modellen uit. Dit betreft Llama 4. Het bedrijf merkte daarbij op dat dit de eerste modellen zijn die gebruikmaken van de mixture of experts (MOE)-architectuur. De modellen van DeepSeek maken ook in grote mate gebruik van MOE om efficiënter met middelen om te gaan. Meta vergeleek zijn nieuwe release met de modellen van de start-up uit Hangzhou. DeepSeek heeft nog niet aangegeven wanneer het zijn volgende vlaggenschipmodel zal uitbrengen.