您是否曾想过如何在 Oracle Cloud Infrastructure (OCI) 上部署大型语言模型 (LLM)?在此解决方案中,您将学习如何使用 NVIDIA GPU 加速的 OCI Compute Bare Metal 实例以及名为 vLLM 的推断服务器来部署 LLM。
vLLM 可以部署为实施 OpenAI API 协议的服务器。这允许使用 vLLM 作为使用 OpenAI API 的应用程序的直接替代,这意味着我们可以选择 OpenAI 模型(例如 GPT-3.5 或 GPT-4)来基于两件事为我们的请求生成文本。
这些 LLM 可以来自任何 Hugging Face 格式良好的存储库(开发人员的选择),因此我们需要对 Hugging Face 进行身份验证,以使用身份验证令牌拉取模型(如果我们还没有从源代码构建它们)。
LLM 还可以与 NVIDIA NIM 一起部署,NVIDIA NIM 是一组易于使用的微服务,专为在 OCI 上加速 NVIDIA GPU 的实例上安全可靠地部署高性能 AI 模型推断而设计。
注:为免疑义,本网页所用以下术语专指以下含义:
此页面内容为机器翻译。