LLM's met NVIDIA GPU's implementeren op OCI Compute Bare Metal

Onderwerpen over AI-oplossingen

Inleiding
-demonstratie
Vereisten en instellingen
Aan de slag

Inleiding

Heeft u zich ooit afgevraagd hoe u een groot taalmodel (LLM) implementeert op Oracle Cloud Infrastructure (OCI)? In deze oplossing leert u hoe u LLM's implementeert met behulp van OCI Compute Bare Metal-instances die worden versneld door NVIDIA GPU's met een inferentieserver met de naam vLLM.

vLLM kan worden geïmplementeerd als een server die het API-protocol OpenAI implementeert. Hierdoor kan vLLM worden gebruikt als een drop-in vervanging voor applicaties met behulp van de OpenAI API, wat betekent dat we OpenAI-modellen (zoals GPT-3.5 of GPT-4) kunnen kiezen om tekst voor ons verzoek te genereren op basis van slechts twee dingen.

De query van de oorspronkelijke gebruiker
De modelnaam van de LLM waarvoor u tekst wilt genereren

Deze LLM's kunnen afkomstig zijn uit een goed gevormde Hugging Face-repository (de keuze van de ontwikkelaar), dus we moeten ons verifiëren bij Hugging Face om de modellen (als we ze niet uit de broncode hebben opgebouwd) te halen met een verificatietoken.

LLM's kunnen ook worden geïmplementeerd met NVIDIA NIM, een set gebruiksvriendelijke microservices die zijn ontworpen voor een veilige, betrouwbare implementatie van hoogwaardige AI-modelinferencing op NVIDIA GPU-versnelde instances op OCI.

-demonstratie

Demo: LLM's met NVIDIA GPU's implementeren op OCI Compute Bare Metal (1:17)

Vereisten en instellingen

Oracle Cloud account: aanmeldingspagina
Documentatie over Oracle Cloud Infrastructure
OCI Generative AI: documentatie
vLLM: documentatie over aan de slag

Aan de slag

Gedetailleerde stappen en voorbeeldcode op GitHub