Microsoft kondigt tijdens KubeCon aan dat het Retrieval Augmented Generation (RAG) ondersteunt in KAITO op Azure Kubernetes Service (AKS) clusters. Daarnaast is vLLM standaard beschikbaar bij de AI toolchain operator add-on.
De toevoeging van RAG-ondersteuning in KAITO is een belangrijke stap voor ontwikkelaars die geavanceerde zoekmogelijkheden willen implementeren op hun AKS-clusters. Met deze functie kunnen gebruikers de RAG-engine binnen enkele minuten deployen met een ondersteund embedding model om grote datasets te indexeren en te doorzoeken. Dit gebeurt via een KAITO inference service URL.
Hogere verwerkingssnelheid met vLLM
Een andere verbetering is dat de AI toolchain operator add-on nu standaard model inferencing workloads implementeert met de vLLM serving engine. Deze engine biedt volgens Microsoft een aanzienlijke versnelling bij het verwerken van binnenkomende requests. Ontwikkelaars krijgen hiermee de flexibiliteit om OpenAI-compatibele API’s, DeepSeek R1 modellen en verschillende vooraf getrainde HuggingFace modellen te gebruiken.
Voor ontwikkelaars die de voorkeur geven aan HuggingFace Transformers boven vLLM, biedt Microsoft de mogelijkheid om op elk moment tussen deze engines te wisselen voor KAITO inference deployments.
Aangepaste GPU-driver installatie
De derde update betreft het overslaan van automatische GPU-driver installatie, een functie die nu algemeen beschikbaar is. Standaard installeert AKS NVIDIA GPU-drivers wanneer een node pool wordt aangemaakt met een VM-grootte die NVIDIA GPU’s ondersteunt. Met deze nieuwe optie kunnen gebruikers nu kiezen voor het zelf installeren van aangepaste GPU-drivers of voor het gebruik van de GPU Operator op zowel Linux- als Windows-node pools.