博客
大型语言模型（LLMs）101 揭开 GPT-4.0 和大型语言模型的秘密

大型语言模型（LLMs）101 揭开 GPT-4.0 和大型语言模型的秘密

2024-07-24

By Ankush Chander

引言

自 2022 年 11 月 ChatGPT 上线以来，它不仅吸引了技术社区的想象力，也吸引了公众的广泛关注。一个人工智能系统能够生成类似人类的文本是令人惊讶和卓越的。机器学习研究人员在语言建模领域一直在稳步取得进展，但正是 ChatGPT 将公众的注意力引向了正在进行的 AI 革命。在本文中，我们将深入探讨 LLMs 及其内部工作。

在过去的十年中，人工智能经历了戏剧性的转变，并在图像识别、计算机视觉和自然语言处理等领域产生了巨大影响。强大的 GPU 的出现使得训练只存在于理论中的复杂模型成为可能。早期基于规则的系统依赖于手工编码的逻辑，在自然语言的复杂性上挣扎。这在 2010 年代初发生了变化，当时基于神经网络的嵌入，如 word2vec 和 GloVe，通过将单词转换为高质量的数字表示，增强了语言理解。

与它们的基于规则的前辈不同，循环神经网络（RNNs）提供了一个进步，因为它们能够很好地泛化到未见过的文本上。然而，基于 RNN 的方法在处理长期依赖性方面存在困难，即它们无法生成更长的连贯序列。然后在 2017 年出现了变革性的 Transformer 架构。凭借其并行处理能力，它更有效地解决了这些依赖性问题。

由 Transformer 驱动的序列到序列学习模型，如 GPT2，使 AI 能够理解语言并生成人类质量的文本。

同时，ULMFiT 引入的迁移学习技术允许用户通过在特定任务上微调它们来利用预训练模型（在大型数据集上训练）。

这是一个特别重要的突破，因为模型预训练是一个昂贵的步骤，通过微调重用预训练模型成为解决各种 NLP 问题（如文本分类、摘要、情感分析和问答）的可行选项。大型语言模型成为解决大多数 NLP 问题的首选解决方案。

这些进步，以 LLMs 为高潮，导致了 2022 年底的 ChatGPT 时刻。

**ChatGPT：捕捉闪电 **

2023 年 11 月 30 日，OpenAI 推出了 ChatGPT。由 LLMs 提供动力，它是第一个允许用户与模型进行对话式交互的应用程序。对话格式使 ChatGPT 能够回答后续问题，承认错误，挑战不正确的前提，并拒绝不适当的请求。到 2023 年 1 月，它已成为增长最快的消费软件应用程序，拥有超过 1 亿用户。

ChatGPT 目前由 GPT 4.0 提供动力，这是一个大型多模态模型（接受图像和文本输入，输出文本），尽管在许多现实世界场景中比人类能力差，但在各种专业和学术基准上表现出人类水平的性能。

以下是它在不同领域的帮助方式：

软件开发：你是开发人员吗？凭借其先进的语言理解能力，ChatGPT 可以通过为特定任务生成代码片段来协助你，节省你的时间和精力。它甚至可以帮助你分析代码并编写全面的文档或良好的测试用例。
内容创作和营销：ChatGPT 可以基于输入数据和指令生成视觉上令人惊叹的信息图表，如果你从事内容创作或营销。此外，它还可以帮助语法校正和改写，使你的内容创作过程变得轻松。

3.教育：ChatGPT 可以成为你的学习伴侣，帮助你根据书本章节生成课程计划和练习问题。就像在你的指尖拥有一个教学助手。

4.医疗保健：ChatGPT 不仅聪明；它还精通诊断成像。它可以准确分析医学图像，如 X 光片、MRI 和 CT 扫描，协助放射科医生。

5.客户服务：由 ChatGPT 驱动的虚拟助手正在彻底改变客户服务。它们能够更准确和富有同情心地理解和响应一级客户查询，提供全天候的个性化帮助。

什么是 LLMs？- 简单解释

语言模型是语言的概率模型，即它们为单词序列分配概率，使得像“我吃了一个冰淇淋”这样的合理序列比“我吃了一个伞”或“伞吃了一个冰淇淋”这样的可能性更高。最早的语言模型是基于统计模型，通过计算给定语料库中单词（n-gram）的共现次数。计算资源（GPU）的可用性的最新进展使得递归模型（RNNs）复兴，它们的表现优于统计模型。然而，RNNs 有一个缺点：由于其递归性质，它们训练起来很慢，并且在处理大序列时效果不佳。随着 Transformer 架构的引入，训练大型模型变得更加高效。

21.webp

LLMs 之所以被称为“大型”，有两个原因：首先，它们通常在互联网规模的庞大数据上进行训练；其次，它们包含一个巨大的神经网络，神经元之间有大量的连接，这些连接以模型权重/参数为特征。这两个因素使 LLM 能够理解文本中隐藏的细微差别，并学习单词之间的统计关系，因此它们能够生成高度可信和连贯的文本。

在它们的核心，LLMs 是下一词预测器，其工作是根据迄今为止看到的序列预测下一个词。给定当前序列，LLM 为词汇表中的所有单词分配概率。然后我们从那个概率分布中抽取一个词，并将其附加到当前序列中。同样的过程一次又一次地重复，文本是一个接一个生成的。

那么，LLM 如何预测下一个词呢？让我们深入了解细节：

嵌入：人类理解自然语言，而机器理解数字，所以我们需要将自然语言序列/单词转换为数字。

这是通过使用嵌入来完成的。LLMs 的第一个任务是将单词映射到连续向量空间中的点，使得具有相似含义的单词也彼此靠近。这个过程称为嵌入，单词的表示称为向量嵌入。

为什么不直接处理单词而不是数字呢？

让我们以地理位置为例；地球上的每个地方都可以通过其纬度和经度坐标来表示。查看这些坐标有助于我们理解两个地方之间的空间关系，哪些地方彼此远离，哪些地方靠近。

然而，语言更加复杂和微妙，两个点不足以理解它，所以我们需要更多的浮点数来表示它们，同时捕捉它们与其他单词的关系。用来表示一个单词的数字数量称为向量的维度。2013 年谷歌发布的 Word2vec 模型有 300 个维度；GPT-GPT-2 和 GPT-3 分别有 768、1600 和 12,288 个维度。维度越多，表示就越精细，使用这些向量所需的计算复杂性就越大。

上下文：现在我们有了单词的有用数字表示，我们仍然必须处理诸如同音异义词之类的事情，即相同的单词可以具有完全不同的含义。单词的含义取决于上下文。让我们看这两个句子：

我在银行附近钓鱼。
我在银行存了钱。

在这些句子中，“银行”这个词的含义是不同的，即“河岸”与“金融机构”，并且我们作为读者可以根据它们出现的上下文清楚地理解。这导致了需要通过注意力机制（稍后更多内容）生成的上下文化嵌入。

Transformer 块：

Transformer 块是像 GPT-4 这样的大型语言模型（LLMs）的基本构建块。它由几个子组件组成：

多头注意力步骤：使用“四处看看”的单词并交换彼此的笔记。这导致更上下文化的嵌入。将这一步视为模型通过关注序列的不同部分来理解迄今为止看到的序列的地方。例如：

假设我们有一句话：

约翰和玛丽去了一家咖啡馆，他给 _ 提供了咖啡。

在这一点上，注意力机制将决定：

“他”指的是约翰
哪些词应该被忽略/禁止（在这种情况下是约翰，因为约翰不能给自己提供东西）。
哪些词在预测下一个词时应该更有发言权（在这种情况下是玛丽）。

注意力机制是在称为注意力头的并行块中实现的。每个头学习单词之间不同类型的关系。例如：

一个头可能负责名词代词匹配，
另一个可能负责在名词短语组件之间绘制等价关系，如唐纳德和鸭子。

前馈网络步骤：前馈网络是下一个词预测发生的地方，这是基于前一步骤中注意力头处理的信息。FFN 检查每个单词的孤立情况，然后尝试预测下一个单词。它不将序列视为一个整体，但可以通过注意力机制访问单词捕获的上下文信息。FFN 从其拥有的连接数量中获得力量。在 GPT-3 中，FFN 拥有 12 亿个权重参数，使其能够将大量文本数据中的信息编码成模式，并使用这些模式来预测下一个单词。

例如：假设我们有一个提示：巴黎是法国的首都，德国的首都是_

在这一点上，注意力层将引导模型关注“巴黎”、“法国”、“德国”，而 FFN 将负责识别模式并以高概率预测“柏林”。

分层架构：现在我们理解了变换器块由注意力层和前馈网络组成，而且有一个陷阱。我们不是只有一个这样的块，而是有多个这样的块堆叠在一起，以便一个块的输出成为下一个块的输入。每个块都比前一个块产生更复杂的单词表示。最后一个块最终负责输出下一个单词。GPT-3 有 96 层变换器块。

确定每层对最终任务的贡献的性质是一个活跃的研究领域。然而，根据最近的研究，前几层专注于理解句子的语法。后续层致力于发展对段落的高层次理解。

训练是如何进行的？

像 GPT4 这样的模型需要经过多步骤训练。典型步骤包括：

预训练：模型在来自互联网的巨大原始语料库上进行训练。在这一步，模型主要学习语言建模，即下一个词的预测。这个过程需要在数千个 GPU 上进行数月的训练。

监督微调（SFT）：在这一步，模型在人工编写的高质量数据上进行训练，以生成助手式响应。这一步通常资源消耗较少。可以将其视为我们的 LLM 从下一个词预测器毕业到更具对话性的系统。

奖励建模：在 SFT 微调后，模型可以产生连贯的文本，但可能不总是符合我们的偏好，例如有帮助、准确和安全。为了解决这个问题，开发了一个奖励模型。人类评估员根据给定输入的质量、相关性和准确性评估各种模型输出。这些评估被用来训练一个预测不同输出的评级或“奖励”的模型。

强化学习：这一步使用奖励模型增强模型输出。模型学会生成文本，以最大化奖励模型预测的预期奖励。通过接收奖励模型的反馈，模型调整其参数以提高其性能。

LLMs 真的理解它们所阅读的内容吗？

LLMs 在各种日常任务中证明是有用的，例如翻译语言、编写不同类型的创意内容以及以信息性的方式回答问题。但这是否意味着它们“理解”它们所阅读/生成的内容？社区对此有不同的观点。

一些在 AI 领域工作的关键人物声称，LLMs 让我们更接近通用人工智能。“当我们训练一个大型神经网络来准确预测互联网上许多不同文本中的下一个词时，它正在学习一个世界模型，”OpenAI 的首席科学家 Ilya Sutskever 在一次采访中说。“在表面上，我们可能只是学习文本中的统计相关性，但事实证明，为了学习文本中的统计相关性，神经网络学习的是产生文本的过程的某种表示。这个文本是世界的投影。”

然而，Yahn Lecunn 认为真正的智能需要对世界的具身理解以及使用这种理解进行推理和计划的能力。LLMs 缺乏这些能力。

在最近的一次演讲中，他讨论了 LLMs 是自回归的，这意味着它们根据前面的词预测序列中的下一个词。这与人类的思维方式不同，我们会在说话或写作前计划我们的想法。他进一步表示，LLMs 处理一个标记所需的计算量是恒定的，无论问题的复杂性如何。这与人们在处理困难问题时花费更多时间形成对比。

尽管对 LLMs 是否真正智能存在怀疑，但它们一直以它们的突现能力让我们感到惊讶。突现能力是那些在较小模型中不存在但在较大模型中存在的特性。扩大 LLMs 规模通常会导致各种下游 NLP 任务的性能提高。然而，有些任务对于小型模型（100M 到 13B）来说并没有显示出改进，但当模型达到特定规模时，性能会大幅跃升。在这一点上，LLMs 在多步骤算术、参加大学水平考试以及识别单词的意图含义等任务上表现出熟练。

突现特性的研究是 NLP 中的一个重要话题，因为它引发了以下问题：

是否有其他特性等待被解锁？
由于扩展是昂贵的，是否有更好的方法来解锁突现特性？

结论

像 GPT4.0 这样的 LLMs 是无与伦比的生产力助推器。它们将留下来。随着大量投资投入到 AI 中，世界上顶尖的头脑专注于使 LLMs 更加高效和可行，它们只会变得更好。因此，必须对它们持开放态度，并找出应用，尽可能地将 LLMs 融入到一个人的工作流程中。

像 Github Copilot、Codeium 这样的编码助手已经使开发者的生产力提高了数倍。同样，人们在他们的领域中为 LLMs 找到了创造性的用例。

像任何其他技术进步一样，包括 GPT 4.0 在内的 LLMs 也有其缺陷/担忧：

环境危害：训练大型语言模型是资源密集型的，甚至转化为环境影响。
偏见：为了在大量数据上进行预训练，研究人员经常抓取他们能找到的所有内容，接受互联网上最好的和最坏的内容。结果，LLMs 很容易生成性别歧视、种族歧视或同性恋歧视的内容。
闭源与开源模型：由于 LLMs 难以训练且资源密集，分享模型权重和重用预训练模型至关重要。像 Facebook（Llama 系列）、MosaicML（MPT-7B）、MistralAI（Mixtral 系列）、Databricks（Dolly）、Google（Gemma）等公司是发布开源 LLMs 的先锋。
版权问题：这是 AI 世界中的一种流行立场，OpenAI 和其他领先企业已经使用在线收集的材料来训练驱动聊天机器人和图像生成器的模型，引发了一波侵犯版权的诉讼浪潮。2023 年，OPENAI 告诉英国议会，如果不使用受版权保护的材料，就“不可能”训练领先的 AI 模型。然而，这个在大量公共领域文本的 AI 数据集上“道德创建”的大型语言模型表明情况并非如此。

15.2.JPEG