您是否曾想過如何在 Oracle Cloud Infrastructure (OCI) 上部署大型語言模型 (LLM)?在本解決方案中,您將瞭解如何使用 NVIDIA GPU 加速的 OCI Compute Bare Metal 執行處理,搭配名為 vLLM 的推論伺服器來部署 LLM。
您可以將 vLLM 部署為實行 OpenAI API 協定的伺服器。這可讓 vLLM 用來取代使用 OpenAI API 的應用程式,這表示我們可以選擇 OpenAI 模型 (例如 GPT-3.5 或 GPT-4),根據兩件事為我們的要求產生文字。
這些 LLM 可以來自任何 Hugging Face 良好格式的儲存區域 (開發人員選擇),因此我們需要向 Hugging Face 認證,才能使用認證權杖提取模型 (如果尚未從原始程式碼建立模型)。
您也可以使用 NVIDIA NIM 部署 LLM,這是一組易於使用的微服務,專為在 OCI 上的 NVIDIA GPU 加速實例上安全可靠地部署高效能 AI 模型推論而設計。