AI 解決方案

在 OCI Compute 裸機上部署具備 NVIDIA GPU 的 LLM

簡介

您是否曾想過如何在 Oracle Cloud Infrastructure (OCI) 上部署大型語言模型 (LLM)?在本解決方案中,您將瞭解如何使用 NVIDIA GPU 加速的 OCI Compute Bare Metal 執行處理,搭配名為 vLLM 的推論伺服器來部署 LLM。

您可以將 vLLM 部署為實行 OpenAI API 協定的伺服器。這可讓 vLLM 用來取代使用 OpenAI API 的應用程式,這表示我們可以選擇 OpenAI 模型 (例如 GPT-3.5 或 GPT-4),根據兩件事為我們的要求產生文字。

  • 原始使用者的查詢
  • 要對其執行文字產生的 LLM 模型名稱

這些 LLM 可以來自任何 Hugging Face 良好格式的儲存區域 (開發人員選擇),因此我們需要向 Hugging Face 認證,才能使用認證權杖提取模型 (如果尚未從原始程式碼建立模型)。

您也可以使用 NVIDIA NIM 部署 LLM,這是一組易於使用的微服務,專為在 OCI 上的 NVIDIA GPU 加速實例上安全可靠地部署高效能 AI 模型推論而設計。

展示

示範:在 OCI Compute 裸機上部署搭載 NVIDIA GPU 的 LLM (1:17)

先決條件與設定

  1. Oracle Cloud 帳戶 — 註冊頁面
  2. Oracle Cloud Infrastructure —文件
  3. OCI 生成式 AI—說明文件
  4. vLLM —開始使用文件