Soluzione AI

Microservizio di inferenza NIM NVIDIA su larga scala con OCI Container Engine for Kubernetes

Argomenti sulla soluzione AI

Introduzione
Prerequisiti e impostazione
Inizia

Introduzione

In che modo puoi fornire richieste di inferenza su larga scala per il tuo modello di linguaggio di grandi dimensioni e accelerare la distribuzione dell'AI? Implementando la soluzione di livello Enterprise NVIDIA NIM su Oracle Cloud Infrastructure (OCI) Container Engine for Kubernetes (OKE). In questa demo verrà illustrato come distribuire NVIDIA NIM su OKE con il repository di modelli ospitato nello storage degli oggetti OCI. Utilizzando una distribuzione Helm, puoi eseguire facilmente lo scale-up e lo scale-down del numero di repliche a seconda del numero di richieste di inferenza, oltre a semplificare il monitoraggio. Sfrutta OCI Object Storage per distribuire i modelli da qualsiasi luogo, con il supporto di vari tipi di modelli. Basato sulle GPU NVIDIA, sfrutta appieno NIM per ottenere il throughput massimo e la latenza minima per le tue richieste di inferenza.

Prerequisiti e impostazione

Account Oracle Cloud: pagina di registrazione
Accesso a VM.GPU.A10.1 basato su un singolo limite di servizi A10 GPU Tensor Core di NVIDIA
Principal istanza: documentazione
NVIDIA AI Enterprise, parte del Marketplace OCI, documentazione
HuggingFace con token di accesso utente - documentazione
OCI Container Engine for Kubernetes: documentazione

Inizia

Passi dettagliati e codice di esempio su GitHub

Questa pagina è stata tradotta da una macchina.