Despliegue de LLM con GPU NVIDIA en OCI Compute Bare Metal

Temas de soluciones de IA

Introducción
Demostración
Requisitos y configuración
Comienza hoy mismo

Introducción

¿Alguna vez se ha preguntado cómo desplegar un modelo de lenguaje de gran tamaño (LLM) en Oracle Cloud Infrastructure (OCI)? En esta solución, aprenderá a desplegar LLM utilizando instancias de OCI Compute Bare Metal aceleradas por GPU NVIDIA con un servidor de inferencia denominado vLLM.

vLLM se puede desplegar como un servidor que implementa el protocolo de API OpenAI. Esto permite que vLLM se utilice como un reemplazo directo para aplicaciones que utilizan la API OpenAI, lo que significa que podemos elegir modelos OpenAI (como GPT-3.5 o GPT-4) para generar texto para nuestra solicitud basándose solo en dos cosas.

Consulta del usuario original
El nombre de modelo del LLM en el que desea ejecutar la generación de texto

Estos LLM pueden provenir de cualquier repositorio bien formado de Hugging Face (la elección del desarrollador), por lo que tendremos que autenticarnos en Hugging Face para extraer los modelos (si no los hemos creado desde el código fuente) con un token de autenticación.

Los LLM también se pueden desplegar con NVIDIA NIM, un conjunto de microservicios fáciles de usar diseñados para un despliegue seguro y fiable de la inferencia de modelos de IA de alto rendimiento en instancias aceleradas por GPU NVIDIA en OCI.

Demostración

Requisitos y configuración

Cuenta en Oracle Cloud: página de registro
Oracle Cloud Infrastructure: documentación
OCI Generative AI: documentación
vLLM: documentación de inicio

Comience ahora

Pasos detallados y código de muestra en GitHub