为了简化重复性任务或完全实现自动化,为什么不寻求 AI 的帮助?使用基础模型自动执行重复性任务听起来很有吸引力,但可能会使机密数据面临风险。检索增强生成 (Retrieval-augmented Generation,RAG) 是微调的替代方法,可使推理数据与模型语料库隔离。
我们希望将推理数据和模型保持分离 - 但我们也希望选择我们使用的大型语言模型 (LLM) 和强大的 GPU 来提高效率。想象一下,如果你能用一个 GPU 完成这一切!
在本演示中,我们将介绍如何使用单个 NVIDIA A10 GPU 部署 RAG 解决方案;一个开源框架,例如 LangChain、LlamaIndex、Qdrant 或 vLLM;以及 Mistral AI 提供的 7 亿参数 LLM。它是价格和性能的极佳平衡,并在根据需要更新数据时保持推断数据分离。
注:为免疑义,本网页所用以下术语专指以下含义: