为了简化重复性任务或实现完全自动化,为什么不寻求 AI 的帮助?使用基础模型来自动执行重复性任务听起来可能很有吸引力,但可能会使机密数据面临风险。检索增强生成 (Retrieval-augmented Generation,RAG) 是微调的替代方案,可保持推断数据与模型语料库的隔离。
我们希望将推理数据和模型分开,但我们也希望能够选择我们使用的大语言模型 (LLM) 和强大的 GPU 来提高效率。想象一下,如果你能用一个 GPU 来完成这一切!
在本演示中,我们将展示如何使用单个 NVIDIA A10 GPU、LangChain、LlamaIndex、Qdrant 或 vLLM 等开源框架以及 Mistral AI 提供的 70 亿参数 LLM 来部署 RAG 解决方案。它是价格和性能的完美平衡,并保持推断数据分离,同时根据需要更新数据。
注:为免疑义,本网页所用以下术语专指以下含义: