AI-oplossing

LLM's implementeren met NVIDIA GPU's op OCI Compute Bare Metal

Inleiding

Hebt u zich ooit afgevraagd hoe u een groot taalmodel (LLM) implementeert op Oracle Cloud Infrastructure (OCI)? In deze oplossing leert u hoe u LLM's kunt implementeren met behulp van OCI Compute Bare Metal instances die zijn versneld door NVIDIA GPU's met een inferentie-server genaamd vLLM.

vLLM kan worden geïmplementeerd als een server die het OpenAI API-protocol implementeert. Hierdoor kan vLLM worden gebruikt als een drop-in vervanging voor applicaties met behulp van OpenAI API, wat betekent dat we OpenAI modellen (zoals GPT-3.5 of GPT-4) kunnen kiezen om tekst voor onze aanvraag te genereren op basis van slechts twee dingen.

  • De query van de oorspronkelijke gebruiker
  • De modelnaam van de LLM waarvoor u tekst wilt genereren

Deze LLM's kunnen afkomstig zijn uit elke Hugging Face goed gevormde repository (de keuze van de ontwikkelaar), dus we moeten verifiëren bij Hugging Face om de modellen (als we ze niet uit de broncode hebben opgebouwd) te halen met een verificatietoken.

LLM's kunnen ook worden geïmplementeerd met NVIDIA NIM, een set gebruiksvriendelijke microservices die zijn ontworpen voor veilige, betrouwbare implementatie van hoogwaardige AI-modelinferencing op NVIDIA GPU-versnelde instances op OCI.

-demonstratie

Demo: LLM's implementeren met NVIDIA GPU's op OCI Compute Bare Metal (1:17)

Vereisten en instellingen

  1. Aanmeldingspagina voor Oracle Cloud account
  2. Oracle Cloud Infrastructure - documentatie
  3. Generatieve AI van OCI - documentatie
  4. vLLM-documentatie aan de slag

Deze pagina is automatisch vertaald.

Oracle-chatbot
Disconnected