What is a large language model?

A large language model (LLM) is an artificial intelligence system that has been trained on a vast dataset, often consisting of billions of words taken from books, the web, and other sources, to generate human-like, contextually relevant responses to queries. Because LLMs are designed to understand questions—called “prompts” in LLM terminology—and generate natural language responses, they can perform tasks such as answering customer questions, summarizing information in a report, generating first drafts of emails, even writing poetry and computer code. LLMs typically have a deep understanding of the grammar and semantics of the language in which they are trained, and they can be refined using a company’s own data.

What are the top five large language models?

Experts disagree on the top LLMs, but five that many tout are GPT-4 from OpenAI, Claude 2 from Anthropic, Llama 2 from Meta, Orca 2 from Microsoft Research, and Command from Cohere. ChatGPT is also from OpenAI.

What is the difference between LLMs and AI?

Artificial intelligence is a broad term that encompasses many technologies that can mimic human-like behavior or capabilities. Large language models are a type of generative AI, the umbrella term for AI models that generate content including text, images, video, spoken language, and music.

菜单联系我们登录 Oracle Cloud

什么是大语言模型 (LLM)？

Mark Jackley | 内容策略师 | 2024 年 2 月 16 日

本文目录

什么是大语言模型？
大语言模型的常见问题解答

大语言模型 (LLM) 是一种越来越受欢迎的人工智能 (AI) 类型，旨在为查询生成类似人类的书面回应。LLM 经过大量文本数据的训练，学习如何根据所提供的上下文预测下一个单词或单词序列，甚至可以模仿特定作者或体裁的写作风格。

在 2020 年初，LLM 作为实验室的成果面世，成为一大新闻。如今，LLM 已经演变成能够嵌入在许多类型的业务软件中的独立产品和增值功能。鉴于在解释请求和产生有用的响应方面表现出色，LLM 被广泛应用于自然语言处理、机器翻译、内容生成、聊天机器人和文档摘要。

什么是大语言模型 (LLM)？

大语言模型 (LLM) 是一个人工智能系统，经过了大量数据集的训练（这些数据通常是来自书籍、网络和其他来源的数十亿个单词），可针对查询生成类似人类、与上下文相关的响应。LLM 专为理解问题（即 LLM 术语中的“提示”）并生成自然语言响应，因此这些模型可以执行各种任务，比如回答客户问题，在报告中汇总信息，生成电子邮件的初稿，甚至是写诗和写代码。LLM 通常对所训练的语言的语法和语义有深刻的理解，并且支持企业使用自己的数据来加以完善。

正因为 LLM 能够识别和解释人类语言（虽然和人类的理解方式不一样），LLM 代表了自然语言处理方面的重大进步。如今，其中一个知名度很高的 LLM 就是 ChatGPT，这个出自 OpenAI 的 AI 程序接受了来自书籍、文章和网站的数十亿个单词的训练。该公司让用户能够通过网络浏览器或移动应用直接访问 ChatGPT，也可以通过可编程 API 链接到业务软件。其他一些常见的 LLM 还包括 Cohere、GPT-4 和 BARD。

用于训练 LLM 的文本数据可以是结构化的，比如数据库中的数据，也可以是非结构化的。大多数企业都有大量的非结构化数据，包括短信、电子邮件和文档。

LLM 的热门商业用途包括客户服务聊天机器人、数字助手和翻译服务，这些服务比传统的逐字翻译工具更符合情境，更口语化，也更自然。LLM 还可以执行相当高级的任务，例如预测蛋白质结构和编写软件代码。医疗卫生、制药、金融和零售业都很好地应用了 LLM。例如，医疗卫生提供方可以使用 LLM 对呼叫热线的患者进行分类，而投资公司则可以使用 LLM 筛选并汇总收入报告、新闻报道和社交媒体帖子以发现股票趋势。LLM 可以帮助企业管理和分析数据，获得可以创造商业价值的洞察。在这两种情况下，LLM 执行任务的速度都比人类分析师快。

2023 年 Valuates Reports 研究报告显示，LLM 的全球市场预计将以 21.4% 的复合年增长率增长，到 2029 年将达到 408 亿美元。

以下是您需要了解的一些 LLM 关键概念。其中包括：

自然语言。人类在普通情况下使用的任何语言，例如在对话或书面报告中，而不是为技术目的而开发的，例如计算机代码。
自然语言处理。一种数据处理，可以分析书面或口头文本的结构和含义。
语言模型。一种自然语言模型，可以在所需的上下文中预测短语或句子中的下一个词。

就像人类一样，LLM 并不完美。LLM 的输出质量取决于输入质量，也就是用于训练模型的信息。过时的数据可能会导致出错，例如聊天机器人错误地回答了有关公司产品的问题。缺乏足够的数据会导致 LLM 虚构答案，这也称为“幻觉”。虽然 LLM 擅长预测，但无论如何，这种模型不善于解释它们是如何得出给定的结论的。许多 LLM 用书籍、报纸文章甚至维基百科页面进行训练，存在侵权的顾虑。如果管理不当，LLM 还可能会带来安全挑战，例如在响应中使用敏感或私人信息。

还有一种称为检索增强生成 (RAG) 的 AI 技术，可以通过提高 LLM 输出的准确性和相关性来帮助解决其中的一些问题。RAG 提供了能够一种在不更改底层模型的情况下添加目标信息的方法。RAG 模型会创建知识库（通常是基于企业自己的数据），并且可以不断更新这些信息库，从而能够及时提供与具体情境相关的答案。例如，聊天机器人和其他会话系统可能会使用 RAG，以确保针对客户问题的答案是根据相关库存、买家偏好和购买历史记录的当前信息而生成的，并排除过时或与 LLM 预期运营环境无关的信息。

通过在启动 AI 模型训练项目前构建一个 AI 卓越中心 (CoE)，组织可以更有力地推动 AI 项目成功。阅读电子书，了解为何以及如何构建一个行之有效的 CoE。

获取电子书

大语言模型的常见问题解答

五大主流大语言模型是哪些模型？

专家们各有不同的见解，但呼声较高的是 OpenAI 的 GPT-4、Anthropic 的 Claude 2、Meta 的 Llama 2、Microsoft Research 的 Orca 2 以及 Cohere 的 Command。ChatGPT 同样也来自于 OpenAI。

LLM 与 AI 有何区别？

人工智能 (AI) 是一个广泛的术语，其中包含了许多可以模仿人类行为或能力的技术。大语言模型 (LLM) 则是一种生成式 AI，是生成文本、图像、视频、口语和音乐等内容的 AI 模型的总称。

注：为免疑义，本网页所用以下术语专指以下含义：

除Oracle隐私政策外，本网站中提及的“Oracle”专指Oracle境外公司而非甲骨文中国。
相关Cloud或云术语均指代Oracle境外公司提供的云技术或其解决方案。