您是否想知道如何在 Oracle Cloud Infrastructure (OCI) 上部署大型語言模型 (LLM)?在此解決方案中,您將瞭解如何使用 NVIDIA GPU 加速的 OCI Compute Bare Metal 執行處理部署 LLM,並搭配稱為 vLLM 的推論伺服器。
vLLM 可以部署為實行 OpenAI API 協定的伺服器。這可讓 vLLM 使用 OpenAI API 作為應用程式的直接取代項目,這表示我們可以選擇 OpenAI 模型 (例如 GPT-3.5 或 GPT-4),根據兩件事為我們的要求產生文字。
這些 LLM 可以來自任何 Hugging Face 良好格式的儲存區域 (開發者選擇),因此我們需要向 Hugging Face 認證,才能使用認證權杖提取模型 (如果我們尚未從原始程式碼建置這些模型)。
LLM 也可以使用 NVIDIA NIM 部署,這是一套易於使用的微服務,專為在 OCI 上的 NVIDIA GPU 加速實例上安全可靠地部署高效能 AI 模型推論而設計。