术语表  / 大语言模型(LLM)
大语言模型(LLM)

什么是大语言模型(LLM)?|开发者指南

大型语言模型(LLM)是一种机器学习模型,能够执行各种自然语言处理(NLP)任务,如翻译文本、对话式回答问题、基于从不同数据集获得的知识对单词进行分类和生成。这里的“大型”指的是其架构中使用的参数数量,一些最常见的 LLM 拥有数十亿个参数。

定义 LLM 最简单的方式是将其视为一个在大量数据语料上训练的模型,以理解人类语言。该模型从互联网或专有企业数据中摄取数据,算法预测接下来最有可能的词语。因此,这些语言模型在各种 NLP 任务中变得越来越受欢迎。

LLMs 特点及原理

当前的大多数 LLM 都基于 Transformer 架构,并使用自注意机制来捕捉单词之间的依赖关系,从而使它们能够理解上下文。它还使用自回归生成来基于之前生成的词语(称为 Token)生成文本。 让我们分解这些内容,以便更好地理解大型语言模型是如何工作的。

基于 Transformer 的架构

能够理解文本的机器通常使用基于递归神经网络(RNN)的模型。这种模型一次处理一个单词,并递归地捕捉序列中单词或“ Token ”之间的关系。然而,当它到达序列的末尾时,它通常难以记住序列的开头。这就是 Transformer 基础架构发挥作用的地方。 与 RNN 不同,大多数语言处理模型核心的 Transformer 神经网络使用自注意力机制来捕捉关系。

注意力机制

与一次只看一个单词的句子或段落的递归神经网络不同,注意力机制允许模型同时看到整个句子。这使得模型能够更好地理解上下文。大多数语言处理模型遵循使用注意力机制的 Transformer 架构。一些 LLM 结合了这两者和自回归生成。

自回归生成

Transformer 模型通过将文本输入标记化为一系列单词来处理文本。然后,将这些标记编码为数字并转换为 Embedding 向量。可以将向量 视为这些标记及其句法和语义信息的向量空间表示。

接下来,编码器(Encoder)通过分析输入并创建捕获其意义和上下文的隐藏状态,将输入向量 转换为上下文向量。上下文向量是 Transformer 中的解码器(Decoder)用来生成输出的。解码器启用自回归生成,模型使用之前生成的标记来生成顺序输出。这个过程重复进行,以产生整个段落,以首句为起点。这就是大型语言模型的工作方式。

LLM 的作用

正如前面提到的,LLM 可以运用在各行各业和所用场景中,包括以下几个方面:

  • 可以全天候回答常见问题的对话式聊天机器人,以提供更好的客户服务
  • 用于文章、博客和产品描述的文本生成,尤其适用于电子商务商店
  • 将内容翻译成不同语言,以触及更广泛的受众
  • 情感分析,用于分析来自产品评论、社交媒体帖子和电子邮件的客户反馈,以及理解不同内容的意图
  • 摘要和改写文本块
  • 对文本进行分类和归类,以便更有效的分析和处理

一些最常见的大型语言模型包括以下内容:

BERT

由谷歌开发的 BERT 是一款著名的大型语言模型,拥有两种模型大小。BERT 基础模型拥有 1.1 亿个参数,而 BERT 大型模型拥有 3.4 亿个参数。像其他 LLM 一样,它可以理解上下文并产生有意义的回应。BERT 还可以用于生成文本的向量。

GPT-3

GPT-3可能是最受欢迎的大型语言模型之一,原因是 ChatGPT 是基于 GPT-3.5 和 GPT-4 的。这里的数字表示模型的版本,GPT-3 是第三版。这是最大的大型语言模型之一。它由 OpenAI 开发,拥有 1750 亿个参数。

RoBERTa

RoBERTa 是由 Meta AI(前身为 Facebook 人工智能研究,FAIR)开发的谷歌 BERT 模型的改进版本。得益于更高的参数数量,RoBERTa 在许多语言任务上表现更佳。就像 BERT 一样,RoBERTa 也有两种模型大小。基础版本拥有 1.23 亿个参数,而大型版本拥有 3.54 亿个参数。

BLOOM

开源大型语言模型(LLM)使开发者、企业和研究人员更容易免费构建使用这些模型的应用程序。其中一个例子是 BLOOM。这是第一个涉及 AI 研究人员在项目中最大规模合作且完全透明培训的 LLM。它在 1.6 TB 的数据上进行训练,拥有 1760 亿个参数,并且能够以 13 种编程语言和 46 种自然语言生成输出。

T5

谷歌开发的另一个大型语言模型是 T5,它在各种语言任务上进行了训练。其基础版本拥有 2.2 亿个参数,而大型版本拥有 7.7 亿个参数。

LLM 常见问题

LLM 原理是什么样的?

大型语言模型基于 Transformer 架构,并使用自注意力来捕捉单词或“Token”之间的关系。它们计算输入的加权和,并确定输入中的 Token 如何彼此相关。然后使用注意力得分来计算 Token 之间的关系,并使用自回归生成根据给定输入产生输出。大多数 LLM 都是在互联网上可用的大量文本数据上训练的,但你也可以向它们提供专有的企业数据,以更好地服务于你的客户。

自然语言处理和大型语言模型之间有什么区别?

自然语言处理(NLP)是人工智能的一个领域,专注于处理和理解人类语言。与此同时,大型语言模型指的是在 NLP 中能够执行各种与语言相关的任务的模型,例如回答问题、总结文本和将句子从一种语言翻译成另一种语言。

如何创建一个大型语言模型?

从头开始创建一个大型语言模型包括在一个拥有数十亿参数的大量数据语料上训练它。这意味着你需要拥有一个支持并行和分布式计算的多 GPU 基础设施。设置这个可能非常昂贵,所以大多数研究人员开始制作一个 LLM 时会使用现有的 LLM 架构及其超参数,如 GPT-3。然后,他们调整超参数、数据集和架构以创建一个新的 LLM。

生成式 AI 与大型语言模型有什么区别?

“生成式 AI”是一个总称,指的是一系列能在训练后动态生成输出的算法。生成式 AI 的特点是它能产生复杂的输出形式,如图像、代码、诗歌等。生成式 AI 的例子包括 DALL-E、ChatGPT、Bard、Midjourney 和 MusicLM。 大型语言模型是一种生成式 AI。与 DALL-E、ChatGPT 和其他生成式 AI 工具不同,大型语言模型是在文本数据上训练的,并产生可以用于各种目的的新文本。