KI-Lösung

NVIDIA NIM-Inferenz-Microservice in großem Maßstab mit OCI Container Engine for Kubernetes

Einführung

Wie können Sie Inferenzanforderungen in großem Maßstab für Ihr großes Sprachmodell bereitstellen und Ihre KI-Bereitstellung beschleunigen? Durch die Bereitstellung der unternehmensgerechten Lösung NVIDIA NIM auf Oracle Cloud Infrastructure (OCI) Container Engine for Kubernetes (OKE). In dieser Demo wird gezeigt, wie Sie NVIDIA NIM auf OKE mit dem in OCI Object Storage gehosteten Modell-Repository bereitstellen. Mit einem Helm-Deployment können Sie die Anzahl der Replikate je nach Anzahl der Inferenzanforderungen einfach nach oben und unten skalieren und eine einfache Überwachung erhalten. Nutzen Sie OCI Object Storage, um Modelle von überall bereitzustellen, mit Unterstützung für verschiedene Typen von Modellen. Profitieren Sie von NVIDIA-GPUs und nutzen Sie NIM, um den maximalen Durchsatz und die minimale Latenz für Ihre Inferenzanforderungen zu erreichen.

Voraussetzungen und Einrichtung

  1. Oracle Cloud-Account - Anmeldeseite
  2. Zugriff auf VM.GPU.A10.1 auf Basis einer einzelnen NVIDIA A10 Tensor Core GPU-Servicelimits
  3. Instanz-Principals - Dokumentation
  4. NVIDIA AI Enterprise, Teil des OCI Marketplace - Dokumentation
  5. HuggingFace mit Benutzerzugriffstoken - Dokumentation
  6. OCI Container Engine for Kubernetes - Dokumentation