Pruna AI, een Europese startup die zich richt op compressie-algoritmen voor AI-modellen, heeft zijn optimalisatieframework open source gemaakt.
Pruna AI heeft een framework dat verschillende efficiëntiemethoden toepast op AI-modellen gebouwd, zoals caching, pruning, kwantisatie en distillatie. Het bedrijf standaardiseert tevens het opslaan en laden van gecomprimeerde modellen, het combineren van deze compressiemethoden en het evalueren van gecomprimeerde modellen na compressie. John Rachwan, medeoprichter en CTO van Pruna AI, vertelde aan TechCrunch dat dit framework ontwikkelaars helpt om deze processen te stroomlijnen.
Het framework is bovendien in staat om te beoordelen of er sprake is van significant kwaliteitsverlies na compressie, en het toont de prestatieverbeteringen die hierdoor worden bereikt.
Grotere AI-laboratoria maken al gebruik van verschillende compressiemethoden. Zo gebruikt OpenAI distillatie om snellere versies van zijn toonaangevende modellen te ontwikkelen. Het is waarschijnlijk dat GPT-4 Turbo op deze manier is gecreëerd als een snellere versie van GPT-4. Evenzo is het Flux.1-schnell beeldgeneratiemodel een gedistilleerde versie van het Flux.1-model van Black Forest Labs.
Leraar-leerling-model
Distillatie is een techniek waarbij kennis wordt geëxtraheerd uit een groot AI-model door middel van een leraar-leerling-model. In dit proces sturen ontwikkelaars verzoeken naar het leraarmodel en registreren de uitkomsten. Deze antwoorden worden soms vergeleken met een dataset om de nauwkeurigheid te meten. Het leerlingmodel wordt vervolgens getraind om het gedrag van de leraar te benaderen.
Rachwan merkte op dat grote bedrijven dit soort oplossingen doorgaans intern ontwikkelen. Volgens hem is wat je in de open-sourcewereld vindt meestal gebaseerd op enkele methoden, zoals één kwantisatiemethode voor LLM’s of één cachingmethode voor diffusie-modellen. Hij voegde eraan toe dat het moeilijk is om een tool te vinden die al deze methoden samenbrengt, ze eenvoudig te gebruiken maakt en combineert, en dat dit precies de grote meerwaarde is die Pruna nu biedt.
Vooral beeld- en videogeneratie
Hoewel Pruna AI elk type model ondersteunt, van grote taalmodellen tot diffusie-, spraak-naar-tekst- en computervisiemodellen, richt het bedrijf zich momenteel specifiek op beeld- en videogeneratie. Tot de bestaande klanten van Pruna AI behoren Scenario en PhotoRoom. Naast de open-sourceversie biedt het bedrijf een enterprise-editie met geavanceerde optimalisatiefuncties, waaronder een optimalisatie-agent.
Een functie die Pruna binnenkort lanceert, is de compressie-agent, geeft Rachwan aan. Deze agent stelt gebruikers in staat om hun model op te geven en een specifieke prestatiebehoefte te formuleren, zoals het verhogen van de snelheid zonder dat de nauwkeurigheid met meer dan 2% afneemt. Vervolgens doet de agent het werk door de beste combinatie van compressiemethoden te vinden. Dit bespaart ontwikkelaars de moeite van handmatig optimaliseren.
Pruna AI rekent een uurtarief voor de pro-versie, vergelijkbaar met het huren van een GPU op een cloudservice zoals AWS, volgens Rachwan. Het geoptimaliseerde model kan aanzienlijk kosten besparen op inferentie, vooral als het model een cruciaal onderdeel vormt van de AI-infrastructuur. Rachwan deelde ook een voorbeeld waarin Pruna AI een Llama-model acht keer kleiner maakte, zonder al te veel kwaliteitsverlies, met behulp van zijn compressieframework. Het bedrijf hoopt dat klanten het compressieframework zien als een investering die zichzelf terugbetaalt.
Enkele maanden geleden haalde Pruna AI een seed-investering van $6,5 miljoen op. Investeerders in de startup zijn onder andere EQT Ventures, Daphni, Motier Ventures en Kima Ventures.