Déploiement de LLM avec des GPU NVIDIA sur OCI Compute Bare Metal

Sujets relatifs à la solution d'IA

Introduction
Démonstration
Prérequis et configuration
Pour démarrer

Introduction

Vous êtes-vous déjà demandé comment déployer un grand modèle de langage (LLM) sur Oracle Cloud Infrastructure (OCI) ? Dans cette solution, vous apprendrez à déployer des LLM à l'aide d'instances OCI Compute Bare Metal accélérées par des GPU NVIDIA avec un serveur d'inférence appelé vLLM.

vLLM peut être déployé en tant que serveur implémentant le protocole d'API OpenAI. Cela permet à vLLM d'être utilisé en remplacement des applications utilisant l'API OpenAI, ce qui signifie que nous pouvons choisir les modèles OpenAI (tels que GPT-3.5 ou GPT-4) pour générer du texte pour notre demande en fonction de deux choses seulement.

Requête de l'utilisateur d'origine
Nom de modèle du LLM sur lequel vous voulez exécuter la génération de texte

Ces LLM peuvent provenir de n'importe quel référentiel bien formé de Hugging Face (choix du développeur), nous devrons donc nous authentifier auprès de Hugging Face pour extraire les modèles (si nous ne les avons pas construits à partir du code source) avec un jeton d'authentification.

Les LLM peuvent également être déployés avec NVIDIA NIM, un ensemble de microservices faciles à utiliser conçus pour un déploiement sécurisé et fiable de l'inférence de modèle d'IA à hautes performances sur les instances accélérées par GPU NVIDIA sur OCI.

Démonstration

Démo : déploiement de LLM avec des GPU NVIDIA sur OCI Compute Bare Metal (1:17)

Prérequis et configuration

Compte Oracle Cloud : page d'inscription
Oracle Cloud Infrastructure - Documentation
OCI Generative AI : documentation
vLLM : documentation de prise en charge

Lancez-vous

Étapes détaillées et exemple de code sur GitHub