Solution IA

Déploiement de LLM à l'aide de Hugging Face et de Kubernetes sur OCI

Introduction

Les grands modèles de langage (LLM) ont fait des progrès significatifs dans la génération de texte, la résolution de problèmes et les instructions suivantes. Alors que les entreprises utilisent les LLM pour développer des solutions de pointe, le besoin de plates-formes de déploiement évolutives, sécurisées et efficaces devient de plus en plus important. Kubernetes est devenu l'option privilégiée pour son évolutivité, sa flexibilité, sa portabilité et sa résilience.

Dans cette démonstration, nous montrons comment déployer des conteneurs d'inférence de LLM affinés sur Oracle Cloud Infrastructure Container Engine for Kubernetes (OKE), un service Kubernetes géré qui simplifie les déploiements et les opérations à grande échelle pour les entreprises. Le service leur permet de conserver le modèle personnalisé et les ensembles de données dans leur propre location sans dépendre d'une API d'inférence tierce.

Nous utiliserons l'inférence de génération de texte (TGI) comme structure d'inférence pour exposer les LLM.

Démonstration

Démonstration : Déploiement de LLM à l'aide de Hugging Face et de Kubernetes sur OCI (1:30)

Prérequis et configuration

  1. Compte Oracle Cloud : page d'inscription
  2. Oracle Cloud Infrastructure - Documentation
  3. OCI Generative AI - Documentation
  4. OCI Container Engine for Kubernetes - Documentation