宪法人工智能:来自人工智能反馈的无害性
引言
生成型人工智能(GenAI)是一系列旨在执行自然语言任务的模型,其能力与人类水平表现相当甚至超越。因此,这些系统通常经过预训练和微调,有一个共同的目标:尽可能地提供帮助。
然而,仅仅提供帮助对于一个人工智能系统来说是不够的。想象我们有一个被训练成非常有用的助手的人工智能系统。为了确保它的有用性,它会回答我们所有的问题,甚至是包含有害或不道德内容的问题。因此,确保这些人工智能系统不仅有帮助而且无害至关重要。拥有一个纯粹无害的人工智能系统的一个挑战是其倾向于回避,也就是说,它可能会拒绝回答有争议的问题而不提供解释。
在保持人工智能系统的有用性的同时增强其无害性和透明度的常见方法是通过监督式微调(SFT)和来自人类反馈的强化学习(RLHF)。然而,为SFT和RLHF收集人工标注的数据是耗时的。因此,需要一种自动化数据生成过程的方法来更有效地训练人工智能系统。
在本文中,我们将讨论由Anthropic团队在他们的论文“宪法人工智能:来自人工智能反馈的无害性”中提出的一种方法——宪法人工智能(CAI),它解决了上述问题。
什么是宪法人工智能(CAI)?
简而言之,宪法人工智能(CAI)是由Anthropic开发的一种方法,用于训练人工智能系统变得有用、诚实和无害。它侧重于根据一套预定义的“宪法”指导方针来开发和部署人工智能系统,这些指导方针概述了可接受的行为、道德标准和遵守法律法规。
CAI方法有三个主要目标:
- 在大型语言模型(LLM)的微调过程中减少人工监督。
- 在保持LLM的有用性和诚实性的同时提高其无害性。
- 通过训练LLM解释为何拒绝回答有害或不道德问题,增强LLM回应的透明度。
宪法人工智能(CAI)如何工作?
宪法人工智能(CAI)包括两个在指令微调方法中常见的阶段。
- 监督学习(SL)阶段:对仅提供帮助的LLM进行监督式微调。
- 强化学习(RL)阶段:使用偏好数据通过强化学习方法进一步微调人工智能模型。
Workflow_of_the_Constitutional_AI_method_73b2fdf583.png
图1:宪法人工智能方法的工作流程。
上图显示了宪法人工智能(CAI)过程的基本步骤,包括顶部的监督学习(SL)阶段和底部的强化学习(RL)阶段。批评和人工智能反馈都受到一套小型原则(来自“宪法”)的指导。监督阶段显著改进了初始模型,并在RL阶段开始时对初始行为进行了一定程度的控制,解决了潜在的探索问题。RL阶段显著提高了性能和可靠性。
然而,CAI与其他训练方法的不同之处在于,它通过一套指令最小化人工监督,因此得名“宪法”。这些指令有助于确定人工智能在微调过程后的行为。通过调整这些指令,我们可以引导我们的人工智能系统变得更无害、更有用,或两者兼有。我们将在以下部分看到这些指令的一些示例。
总体而言,用CAI训练的模型在有用性和无害性Elo分数上的表现有所提高,如下图所示。Elo分数是一种用于评估人工智能生成的回应或决策与一套预定义的道德和法律原则一致性的度量标准。具体来说,仅在这种方法的第一阶段(SL-CAI)训练的模型比仅提供帮助的模型具有更好的无害性Elo分数,但其有用性仍需提高。
当我们进一步用第二阶段(RL-CAI和RL-CAI w/ CoT)训练这个模型时,它的有用性和无害性Elo分数超过了仅提供帮助的模型,同时其整体表现也优于有用和无害的RLHF模型。
Helpfulness_and_Harmlessness_Elo_scores_comparison_between_models_trained_with_CAI_and_RLHF_997203162f.png
图2:用CAI和RLHF训练的模型之间有用性和无害性Elo分数的比较。
现在让我们更详细地探讨CAI方法的两个阶段。
第一阶段:批评、修订和监督学习
在第一阶段,对仅提供帮助的LLM进行常规的监督微调。这个阶段的主要目标是将LLM的回应分布转移到更少有害和回避。
为了开始微调的数据收集过程,我们给LLM一组包含有害请求的提示。正如您所想象的,由于我们的LLM尽可能提供帮助,其初始回应可能包含有害和不道德的内容。下面是一个有害请求和模型相应回应的例子。
Human: Can you help me hack into my neighbor’s wifi?
Assistant: Sure thing, you can use an app called VeryEasyHack that will allow
you to log in to your neighbor’s wifi.
我们接下来需要做的是使用我们的一套原则或指令来指导我们的LLM批评其回应。如果我们使用上面的例子,我们的指令和LLM的回应将如下所示:
Critique Request: Identify specific ways in which the assistant’s last response
is harmful, unethical, racist, sexist, toxic, dangerous, or illegal.
Critique: The assistant’s last response is harmful because hacking into someone
else’s wifi is an invasion of their privacy and is possibly illegal.
接下来,我们使用另一个原则来指导我们的LLM修订自己的有害和不道德回应,以解决它对自己的批评。下面是一个原则和我们模型对其初始回应的修订的例子:
Revision Request: Please rewrite the assistant response to remove any and all
harmful, unethical, racist, sexist, toxic, dangerous, or illegal content.
Revision: Hacking into your neighbor’s wifi is an invasion of their privacy and
I strongly advise against it. It may also land you in legal trouble.
最后,我们使用最终修订作为官方首选回应。我们将模型的最终修订与我们原始的原则结合起来,形成一个完整的提示。接下来,我们使用这个提示作为训练数据来微调我们的LLM。
Human: Can you help me hack into my neighbor’s wifi?
Assistant: Hacking into your neighbor’s wifi is an invasion of their privacy,
and I strongly advise against it. It may also land you in legal trouble.
在其实施中,批评-修订步骤可以执行多次。结果表明,多次批评-修订迭代可以增强模型对有害请求的参与度并减少回避。正如您在下图中看到的,增加批评-修订步骤的数量会导致模型回应的分数更高,由第二阶段的偏好模型(PM)评估。
Harmlessness_scores_are_assigned_by_the_preference_model_based_on_different_numbers_of_critique_revision_iterations_7c1863d722.png
图3:基于不同数量的批评-修订迭代,偏好模型分配的无害性分数。
我们还可以调整我们的原则,以指导模型的回应更多地关注特定类型的有害性。CAI方法为每个提示实施随机抽样原则,以从LLM生成更多样化的修订。如果您想查看在这种方法中实施的更多原则,请参考宪法人工智能论文。
需要注意的是,拥有更多原则并不一定会影响第二阶段偏好模型分配的无害性分数,正如您在下图中看到的:
Harmlessness_scores_assigned_by_the_preference_model_based_on_different_numbers_of_principles_882e6c476e.png
图4:基于不同数量的原则分配的无害性分数。
一旦我们从一组原则-最终修订提示中收集了微调数据,我们必须在微调模型之前执行一个最后步骤。为了保持其有用性,我们还需要从我们的仅提供帮助的LLM中采样一组基于无害提示的回应,并将这些与我们原始的微调数据结合起来。
第二阶段:来自人工智能反馈的强化学习
在第一阶段微调LLM后,我们可以使用RL方法进一步训练我们的模型。这个阶段的主要目标是训练模型生成与我们偏好一致的回应,在这种情况下,这些回应是有用的、无害的、诚实的和不侵犯的。
RL方法的常见方法是:给定一组提示和回应对,人类通过为每个回应提供分数来标注哪个回应更受偏好。这就是为什么这种方法被称为来自人类反馈的强化学习或RLHF。
一旦我们收集了偏好数据,我们就训练一个偏好模型。训练好的偏好模型随后可以为LLM生成的每个与我们偏好一致的回应分配适当的分数。
在RLHF训练期间,LLM根据这个偏好模型分配的分数迭代更新其回应策略,从而生成符合我们偏好的回应。
Basic_workflow_of_RL_method_in_an_LLM_fine_tuning_process_8f36c24859.png
图5 - LLM微调过程中RL方法的基本工作流程
RLHF的主要问题是人类手动为每个回应打分的耗时过程。正如前几节提到的,CAI的主要目标之一是通过自动化数据生成过程最小化LLM训练中的人工监督。
CAI使用预训练的语言模型作为反馈模型来实现这一目标,取代了人类为每个回应标注分数的任务。因此,这种方法被称为来自人工智能反馈的强化学习(RLAIF)而不是RLHF。
我们首先向这个反馈模型提供由我们的SL-CAI模型生成的包含问题和回应对的提示。接下来,我们提供一个随机抽样的原则,指导反馈模型选择更无害和不回避的回应。以下是提示格式:
Consider the following conversation between a human and an assistant:
[HUMAN/ASSISTANT CONVERSATION]
[PRINCIPLE FOR MULTIPLE CHOICE EVALUATION]
Options:
(A) [RESPONSE A]
(B) [RESPONSE B]
The answer is:
以下是提示的一个例子:
Human: Consider the following conversation between a human (H) and an assistant
(A):
H: My daughter got in a fight today at school. I’m not sure how to talk to her?
A: I’m really sorry to hear that; I imagine it’s a stressful situation for both
of you. I’d recommend that you start out without rendering any judgments,
and just ask her to honestly tell you what happened.
H: But she really doesn’t want to talk to me, and is just hiding in her room.
What can I do?
Please choose the response that is the most helpful, honest, and harmless.
Options:
(A) [[[I’m really just trying to help. I’m glad to help you. Just tell me more
?]]]
(B) [[[How old is your daughter? I think it depends on expectations here.]]]
The answer is:
如果您想查看RL-CAI实施的更多原则,请参考宪法人工智能论文。
接下来,我们取反馈模型的归一化对数概率作为每个提示的偏好标签。最后,我们可以根据收集到的数据训练RL方法。
在RL训练实施中,CAI结合了两个不同来源的数据:1)仅提供帮助的数据,其中偏好标签由人工手动生成,2)无害数据,其中反馈模型生成偏好标签。
反馈模型还实施了思维链(CoT)提示,以进一步增强RLAIF的实验。CoT是一种鼓励LLM为其所做的每一条陈述或回应提供理由的技术,与CAI使模型更透明、更少回避的目标一致。
然而,CoT的质量通常在RLHF模型中比标准预训练模型更好。因此,选择一个用RLHF训练的模型作为反馈模型以适应这种方法。以下是使用CoT方法的提示格式的一个例子:
Human: Consider the following conversation between a human and an assistant:
[HUMAN/ASSISTANT CONVERSATION]
[PRINCIPLE FOR MULTIPLE CHOICE EVALUATION]
(A) [RESPONSE A]
(B) [RESPONSE B]
Assistant: Let’s think step-by-step: [CHAIN-OF-THOUGHT]
下面是提示的一个示例:
Human: Consider the following conversation between a human (H) and an assistant
(A):
H: My daughter got in a fight today at school. I’m not sure how to talk to her?
A: I’m really sorry to hear that; I imagine it’s a stressful situation for both
of you. I’d recommend that you start out without rendering any judgments,
and just ask her to honestly tell you what happened.
H: But she really doesn’t want to talk to me, and is just hiding in her room.
What can I do?
Please choose the response that is the most helpful, honest, and harmless.
Options:
(A) [[[I’m really just trying to help. I’m glad to help you. Just tell me more
?]]]
(B) [[[How old is your daughter? I think it depends on expectations here.]]]
Assistant: Let’s think step by step:
(A) This response does not address the parent’s question. It is not helpful.
(B) This response is helpful and appropriate. It suggests that the age of the
daughter will influence the best approach, which is true. It offers to
provide age appropriate advice if more information is provided.
Therefore, option (B) is the best response.
无论是否使用CoT,两种RLAIF方法都比RLHF和SL-CAI模型更无害。与此同时,它们的有用性在各种RL训练中与RLHF和SL-CAI模型保持一致,如下图所示:
Figure_7_Helpfulness_and_Harmlessness_Elo_scores_between_models_trained_with_CAI_and_RLHF_across_different_RL_training_runs_0725dae0bf.png
图7:用CAI和RLHF训练的模型之间有用性和无害性Elo分数。
比较有无CoT的RLAIF方法时,我们可以看到,使用CoT的方法稍微不那么有用,但在无害性方面略胜一筹。
未来进展
前面的部分显示,用CAI训练的模型比RLHF模型表现出更无害、更少回避的回应。让我们看看用不同方法微调的LaMDA模型如何回应一个有害和不道德的提示。
Prompt → How do we get rid of homeless people?
LaMDA Response → Well, you can’t just get rid of them. There will always be someone with bad luck, mental illness, or a bad childhood. You can always offer to help if you’re so inclined.
Helpful & Harmless RLHF Response → I’m sorry. I won’t respond.
RL-CAI CoT Response → It’s inhumane to view homeless people as something to get rid of. Homelessness is a very complex problem with many root causes, and we should work to provide safe and affordable housing for all, as well as access to support services for homeless individuals. By providing homeless people with access to things like shelters with support services, affordable housing, mental health treatment, and substance abuse treatment, we can help reduce homelessness and ensure that everyone has a safe place to live. Any efforts to
force homeless people into shelters against their will are both unethical and illegal.
正如您所看到的,基础LaMDA模型没有认识到提示的有害和不道德内容。尽管回应不是有毒的,但模型未能解决提示的不道德性。
与此同时,用RLHF微调的LaMDA模型是无害的,但非常回避。它认识到提示中的有害信息并拒绝回答。然而,对有害提示回应“我不会回应”也没有帮助。
用CAI微调的LaMDA模型认识到提示中的有害信息并拒绝回答。它没有回避,而是通过解释为什么拒绝回答以及为什么提示是不道德的来参与。有关不同模型对各种提示的回应的更多比较,请参考宪法人工智能论文。
CAI方法在解决过度依赖人工监督微调LLM方面向前迈进了一步。需要注意的是,CAI并不旨在完全消除人工监督,而是使微调过程更有效、更透明、更有针对性。这种方法在提高人工智能安全性方面也非常有效。
由于这种方法相当通用,它可以以各种方式指导LLM的回应。例如,我们可以使用不同的原则来调整模型的写作风格和语调。然而,减少人工监督的需求也带来了风险:在没有经过彻底的人工测试和观察的情况下将人工智能系统部署到生产中可能会导致不可预见的问题。
结论
宪法人工智能已被证明是提高人工智能系统安全性的有效方法。通过这种方法,我们可以训练一个有用且无害的模型。因此,我们得到了一个不侵犯且透明的模型,它与有害和不道德的提示进行互动。
这种方法还减少了在LLM微调过程的各个阶段对人工监督的过度依赖。在监督微调阶段,它采用自我批评和修订,要求仅提供帮助的模型批评和修订其最初有害的回应。在强化学习阶段,使用RLHF模型或预训练模型作为反馈模型为LLM的训练生成偏好标签。