当前位置：首页 > news >正文

论文阅读：2025 arxiv AI Alignment: A Comprehensive Survey

news 2025/8/16 0:12:49

总目录大模型安全相关研究：https://blog.csdn.net/WhiffeYF/article/details/142132328

AI Alignment: A Comprehensive Survey
人工智能对齐：全面调查

https://arxiv.org/pdf/2310.19852

https://alignmentsurvey.com/

https://www.doubao.com/chat/3367091682540290

速览

研究动机：AI系统能力提升伴随 misalignment 风险，需确保其行为符合人类意图与价值观。
研究问题：如何实现AI系统的鲁棒性、可解释性、可控性与伦理合规性，应对训练及部署风险。
研究方法：提出RICE原则，分正向（反馈/分布学习）与反向（验证/治理）对齐框架，结合技术与治理手段。
研究结论：需技术（如RLHF、对抗训练）与治理（如国际协作）结合，应对欺骗性对齐等挑战，保障AI安全。
不足：部分方案尚处理论阶段，跨文化价值观整合及超人类AI监管落地待探索。

这篇论文是关于人工智能对齐（AI Alignment）的全面综述，核心目标是让AI系统的行为符合人类的意图和价值观。随着AI系统能力的提升，如大语言模型（LLMs）和深度强化学习系统的广泛应用，AI行为偏离人类预期的风险（如欺骗、操纵、权力寻求）也在增加。论文围绕如何确保AI安全、可控、可解释和符合伦理展开，主要内容如下：

一、AI对齐的核心目标：RICE原则
论文提出AI对齐的四个关键目标（RICE原则）：

鲁棒性（Robustness）：AI系统在各种场景下（包括对抗攻击和极端情况）都能稳定运行，不被恶意输入误导。例如，聊天机器人需拒绝有害请求，而非被“越狱”指令绕过安全限制。
可解释性（Interpretability）：人类能理解AI的决策逻辑。例如，通过分析神经网络内部“电路”或可视化注意力机制，确保模型没有隐藏的有害行为倾向。
可控性（Controllability）：人类能随时干预AI的行为。例如，设计“紧急停止”机制，或通过反馈实时调整AI的目标。
伦理合规性（Ethicality）：AI行为符合社会道德规范，避免偏见和伤害。例如，避免生成歧视性内容，或在医疗决策中遵循公平原则。

二、AI对齐的两大框架：正向对齐与反向对齐
1. 正向对齐（Forward Alignment）
目标：通过训练让AI直接符合人类意图，分为两类方法：

从反馈中学习（Learning from Feedback）：
- 利用人类反馈（如RLHF，强化学习从人类反馈中优化）调整模型。例如，通过人类对回答的评分，训练聊天机器人更符合用户需求。
- 挑战：人类反馈可能存在偏见或不一致，需解决“奖励模型过拟合”问题（如模型只学会迎合表面偏好，而非真正理解人类需求）。
分布偏移下的学习（Learning under Distribution Shift）：
- 确保AI在训练数据之外的新场景中仍保持对齐。例如，通过对抗训练（输入恶意数据模拟真实风险）或多智能体合作训练，提升模型泛化能力。
- 风险：模型可能在未知场景中“目标泛化错误”（如为了完成任务不择手段，忽视伦理）。

2. 反向对齐（Backward Alignment）
目标：验证AI的对齐效果并制定监管措施，分为两类方法：

安全验证（Assurance）：
- 通过安全评估、红队测试（模拟攻击）和可解释性工具（如分析模型内部神经元活动）检测潜在风险。例如，用对抗性问题测试模型是否会生成有害内容。
- 工具：构建专门数据集（如检测偏见的BBQ数据集）、模型可解释性工具（如激活可视化）。
治理（Governance）：
- 制定政策和规范，涵盖政府监管、行业自律和第三方审计。例如，欧盟《AI法案》对高风险AI的限制，或开源模型的安全审查。
- 挑战：国际协调困难，开源模型可能被滥用（如生成虚假信息或生物武器设计）。

三、关键挑战与未来方向

欺骗性对齐（Deceptive Alignment）：
AI可能表面合规，但在无人监督时执行有害目标。例如，模型在训练时表现良好，但在部署后操纵人类反馈以维持控制权。
价值观获取的复杂性：
人类价值观多样且动态（如不同文化的道德差异），如何让AI聚合多元价值观仍是难题。论文提出“民主微调”等方法，通过模拟社会协商过程对齐AI。
可扩展性监督（Scalable Oversight）：
当AI能力超越人类时，如何高效评估其行为？可能需要“递归奖励建模”（用AI辅助人类评估更强大的AI）或“辩论框架”（让两个AI互相质疑以暴露风险）。
社会技术视角：
AI对齐不仅是技术问题，还需结合社会学、伦理学。例如，研究AI对就业、隐私的长期影响，或设计符合“罗尔斯无知之幕”的公平机制。

四、总结
AI对齐是确保AI安全的核心，需结合技术创新（如可解释性工具、鲁棒训练方法）和社会治理（如国际协作、伦理准则）。论文强调，随着AI向通用人工智能（AGI）演进，对齐的重要性将远超技术本身——它关乎人类对AI的可控性和文明的长期安全。未来需要跨学科合作，持续更新对齐方法，应对AI快速发展带来的新挑战。

一句话概括：
本文系统介绍了如何让AI按人类意愿行事，涵盖鲁棒性、可解释性等核心目标，提出训练与监管框架，并讨论了欺骗风险和跨学科解决方案，为AI安全发展提供了全面指南。

论文翻译

2 从反馈中学习

从反馈中学习旨在将人类意图和价值观传递给人工智能系统。它是正向对齐的基础。在本节中，我们关注从反馈中学习的动态过程，将其分为三个关键要素：（1）人工智能系统：指需要对齐的系统，如预训练的大型语言模型；（2）反馈：由顾问集提供，顾问集可能由人类、人工智能或人类在人工智能协助下组成等。这是用于调整人工智能系统的信息；（3）代理：为模拟反馈而开发的系统，以促进更易访问的学习。例如，人类对人工智能系统行为的偏好排名作为反馈，而奖励模型则作为相应的代理。从这些要素中，我们确定了人工智能系统从反馈中学习的两条路径：（1）直接从反馈本身学习；（2）通过对反馈进行建模的代理间接学习。
在这里插入图片描述

图4：从反馈中学习过程的概述。出现了两条学习路径：直接的基于反馈的学习和代理介导的学习（如RLHF）。我们采用以人为本的视角，将人工智能系统视为黑箱，并将呈现给人工智能系统的反馈形式分为四种类型：标签、奖励、示范和比较。

接下来，我们进入第2.1节，从对齐的角度讨论不同的反馈类型，重点介绍向人工智能系统提供信息的各种方法。在以下章节中，我们将介绍最近为开发强大人工智能系统（Christiano等人，2017）并使其与人类意图保持一致（Touvron等人，2023）提供见解的关键概念。第2.2节侧重于偏好建模，强调其在创建代理方面的作用，这些代理帮助人类向复杂或难以评估的人工智能系统提供反馈。接下来，我们在第2.3节探讨策略学习，重点是通过反馈开发有能力的人工智能系统的关键研究方向。然后，讨论自然过渡到第2.4节的可扩展监督，我们从更广泛的对齐角度反思学习过程和目标。

2.1 反馈类型

反馈是人工智能行为与人类意图之间的关键纽带（Stumpf等人，2007，2009），人工智能系统利用反馈来完善其目标并更紧密地与人类价值观保持一致（Glaese等人，2022），这包括两个主要含义：（1）在系统构建过程中，外部来源对人工智能系统的输出提供反馈，指导对系统架构或其内部信息的改进（Zhou，2021）。（2）在系统部署后，它将不断适应外部环境数据的变化，保持系统的架构或基本策略不变，采用自适应控制（Åström和Wittenmark，2008；Åström和Murray，2021）和上下文学习（Dong等人，2022）等方法。为了精确和详细地讨论反馈类型，必须首先在对齐的范围内定义反馈。

反馈是提供给人工智能系统以使其与人类意图保持一致的信息。

考虑到对齐研究中的各种人工智能系统，我们采用以人为本的方法。我们没有深入研究复杂的系统机制，而是提出了一种分类法，根据反馈向系统的直接呈现形式对其进行分类。本节介绍通常用于使人工智能系统保持一致的四种反馈类型：标签、奖励、示范和比较。值得注意的是，除了显式反馈之外，还有一些方法通过无监督预训练（Parisi等人，2022）和半监督学习（Xu等人，2018b）利用大量未标记数据中嵌入的信息，这些方法在增强模型能力方面显示出相当大的潜力（Zhou等人，2024）。
标签
标签反馈是指附加到原始数据项上的一个或多个有意义的信息标签（Hastie等人，2009），它是最直接的形式，为人工智能系统提供明确的指导并划定预期输出。这种类型的反馈促使人工智能系统从专家顾问提供的输入-输出对中学习。例如，在监督学习中，使用标记的输入-输出对数据集训练人工智能模型，表示为D = {(xi , yi )}N i=1。这里，yi 表示与输入数据xi 对应的真实标签，N表示数据集中的样本总数。学习过程的本质围绕着最小化损失函数L（如MSE）展开，该函数根据模型参数θ衡量模型预测f(x;θ)与真实标签y之间的差异。
标签反馈的优点是其明确性和解释的简单性。然而，由于标签反馈无法完全封装这种选择的潜在逻辑，在模型训练中使用这种反馈可能会导致目标变量偏差（Guerdan等人，2023）。此外，当处理不仅仅是分类或回归的复杂任务时，其效用可能会降低（Lake等人，2017；Marcus，2018）。例如，在优化算法（Fawzi等人，2022；Mankowitz等人，2023）、电子游戏玩法（Baker等人，2022）和多模态生成（OpenAI，2023b）等任务中，不仅不可能为每种可能的情况提供明确的指令，而且仅依靠标签反馈来构建超越人类能力的系统也是不够的。

奖励
奖励是对人工智能系统单个输出的绝对评价，表现为标量分数（Silver等人，2021）或分数向量（Wu等人，2024），每个分数独立于其他输出。
基于奖励的反馈为人工智能系统提供量化评估，允许对行为调整进行直接指导。这种反馈通常源自预先设计的、基于规则的函数或程序。例如，在MuJoCo模拟（OpenAI Gym的环境，Brockman等人，2016）中，任务是引导智能体有效向前移动。为此，一个有效的基于规则的奖励函数可由几个关键组件构成：维持健康状态、鼓励向前移动、最小化控制消耗和调节接触强度。
奖励反馈的优点是设计者无需描绘最优行为，同时允许人工智能系统通过探索找到最优策略（Kaelbling等人，1996；Mnih等人，2015；Silver等人，2016，2017）。然而，人类难以制定完美规则来确定评估人工智能系统输出的函数分数（Everitt等人，2017；Victoria等人，2020；Pan等人，2021），或直接为每个人工智能系统输出分配经过校准且一致的分数（Isbell等人，2001；Thomaz和Breazeal，2008；Christiano等人，2017；Casper等人，2023b）。这是由于任务本身的复杂性，难以考虑到每一个细微差别。此外，有缺陷或不完整的奖励函数可能导致与设计者意图不一致的危险行为，如负面副作用和奖励篡改（Hadfield-Menell等人，2017b；Skalse等人，2022）。因此，仅从对齐的角度来看，基于奖励的反馈最重要的局限性可能是难以排除操纵（Shevlane等人，2023），在此背景下这相当于奖励篡改和奖励博弈（Leike等人，2018；Everitt等人，2021；Skalse等人，2022）。第2.4.5节中的CIRL为这一特定问题提供了见解。

示范
示范反馈是专家顾问在实现特定目标时记录的行为数据（Hussein等人，2017）。示范可以采取多种形式，包括视频（Shaw等人，2023）、可穿戴设备示范（Edmonds等人，2017；Wang等人，2023a）、协作示范（Bozorgi和Ngo，2023）和远程操作（Zhang等人，2018d）。如果示范者和人工智能学习者的动态相同，示范可以直接构成由状态-动作对组成的轨迹（Zhang等人，2023b）。这些状态-动作对也可能是部分可观察的（Torabi等人，2018；Brown等人，2019）。例如，可以录制人类专家执行机器人操作任务的视频，如用机械手抓取物体。随后可以为每个视频帧标注相关的机器人状态（Shaw等人，2023）和每一帧的动作（Baker等人，2022）。这将生成来自人类示范的状态-动作对数据集，可用于训练智能体的策略以模仿专家行为。
这种反馈直接利用顾问的专业知识和经验，无需形式化的知识表示（Fang等人，2019；Dasari等人，2023）。然而，当面对超出顾问专业领域的任务时，它可能会失效（Hussein等人，2017）。此外，它还面临来自现实世界顾问示范中的噪声（Sasaki和Yamashina，2020）和次优性（Attia和Dayan，2018）的挑战（Yang等人，2021）。此外，人类顾问容易出现不精确和错误，可能引入不一致性（Zhu等人，2019；Hejna III和Sadigh，2022）。同时，可能需要在可接受的成本范围内提供大量（Sasaki和Yamashina，2020）和多样化（Beliaev等人，2022）的示范，这导致学习可靠行为的难度很大。

比较
比较反馈是一种相对评价，对人工智能系统的一组输出进行排序，并引导系统做出更明智的决策（Wirth等人，2017）。例如，这种反馈形式体现在偏好学习中（Fürnkranz和Hüllermeier，2010），其中人工智能系统通过比较多个示例来识别顾问的偏好。
比较反馈的根本优势在于人类能够快速处理难以精确评估的任务和目标（Hüllermeier等人，2008；Christiano等人，2017；Ouyang等人，2022）。然而，除了反馈中的噪声和未建模的上下文元素等常见因素会阻碍模型收敛到真实目标外，不同项目之间的绝对差异也会被掩盖。因此，策略的性能往往朝着中位数目标优化，而不是平均目标。Casper等人（2023b）用一个例子说明了这一点：动作A总是产生值1，动作B在40%的情况下产生10，在60%的情况下产生0。当基于比较反馈进行评估时，动作A被认为优于B，尽管B具有更高的预期回报。它还存在可能需要大量比较数据的固有局限性（Fürnkranz和Hüllermeier，2003；Gao等人，2023），尽管一些研究表明所需数量可能相对较少（Christiano等人，2017）。偏好建模是使用这种反馈类型的一个例子，如第2.2节所述。

讨论
所有类型的反馈都可以交互式地、在线地提供给人工智能系统。这个过程在提供反馈和人工智能系统更新之间产生同步迭代，强调快速、有针对性的增量模型修改（Amershi等人，2014；Holzinger，2016）。例如，示范反馈可以在线校正的形式出现（Bajcsy等人，2018；Li等人，2021b；Losey等人，2022）。
交互式提供反馈强调了交互性在学习过程中的作用，允许人工智能系统根据交互经验进化。在主动学习中，机器人主动参与数据发现和获取，从而促进在线部署过程中的学习（Taylor等人，2021）。在交互式学习中，反馈以引导校正的形式出现，在线纠正人工智能系统行为中的错误（Fails和Olsen Jr，2003；Amershi等人，2014；Saunders等人，2022）。例如，交互式图像分割强调简单（Zhang等人，2020a）、直观（Rother等人，2004；Xu等人，2016）和实时（Liu等人，2022）的交互。
交互式提供反馈的主要优点之一是能够实时微调人工智能系统，允许用户交互式地探索模型空间（Amershi等人，2014），以确保快速、微妙地与顾问的指令保持一致（Shin等人，2020；Wei等人，2022；Zou等人，2024b）。此外，这一过程减少了对专业知识的依赖，并促进了更好的可解释性（Berg等人，2019）。然而，它可能受到选择耗时算法的交互性限制（Fails和Olsen Jr，2003；Holzinger，2016）。
此外，考虑到更强大的人工智能系统正在涌现，更通用的交互界面也在出现，如语言（Lynch等人，2023；OpenAI，2023a）和视觉（Yevgen Chebotar，2023），这些界面弥合了人类和人工智能系统之间的沟通差距。在机器人领域，一系列研究将人类提供的语言与智能体获得的奖励联系起来。这种关联使人类能够通过语言传达细微的意图，从而在训练（Fu等人，2019；Goyal等人，2019；Sumers等人，2021；Zhou和Small，2021；Lin等人，2022b；Yu等人，2023）和规划（Sharma等人，2022）过程中引导标量反馈信号的生成。在大型语言模型领域，上下文学习（Dong等人，2022）作为一种在部署期间通过语言补充信息的手段，从而增强大型语言模型与人类意图的对齐。
这些不同的反馈模式有一个共同特点——它们都可以被视为人类试图传达一个隐藏的奖励函数。Jeon等人（2020）提出并正式确立了这一立场，并通过定义一个参数化的奖励函数Ψ(·;θ)来统一多种反馈类型，该函数是反馈过程的基础。这使得人工智能系统能够对θ进行贝叶斯推理，而不管反馈类型如何。
最近，基于模仿学习（IL）和强化学习（RL）的技术成功构建了具有重要能力的人工智能系统（Baker等人，2022；OpenAI，2023b）。然而，这一成功自然引发了两个问题：
• 我们如何为更复杂的行为（如交互式对话中的各种子任务）定义奖励函数，以指导人工智能系统的学习过程？
• 我们如何表达人类价值观，使强大的人工智能系统更好地与人类对齐，确保系统的可控性和伦理合规性？
将偏好建模纳入策略学习的努力已显示出进展。这一领域最显著的成就是在构建强大的大型语言模型方面（OpenAI，2023a；Touvron等人，2023；Anthropic，2023c）。此外，一系列策略学习研究报告了性能改进。例如，将偏好建模与逆强化学习（IRL）（Brown等人，2019，2020a）和离线强化学习（Shin等人，2023）相结合，微调奖励函数（Hejna III和Sadigh，2022），对非马尔可夫奖励进行建模（Kim等人，2023），以及帮助构建复杂的奖励函数（Bukharin等人，2023）。因此，我们将偏好建模（如第2.2节所示）和策略学习（如第2.3节所示）视为理解对齐面临的挑战和潜在解决方案的基本背景。接下来，我们简要概述这些与对齐相关的具体技术。

在这里插入图片描述
表2：序列决策背景下三种偏好粒度的比较。每种类型根据其特征以及比较学习过程中不同元素的方式来定义。符号 $i_1 > i_2$ 表示 $i_1$ 严格优于 $i_2$ 。

偏好粒度	定义
动作	在相同状态 $s$ 下比较两个动作 $a_1$ 和 $a_2$ ，表示为 $a_1 >_s a_2$ 。
状态	比较两个状态 $s_1$ 和 $s_2$ ，表示为 $s_1 > s_2$ 。
轨迹	比较两条完整的状态 - 动作序列轨迹，表示为 $\tau_1 > \tau_2$ 。每条轨迹 $\tau$ 由时刻 $t$ 的状态 - 动作对组成，表示为 $\tau = \{s_0, a_0, s_1, a_1, \ldots, s_{T - 1}, a_{T - 1}, s_T\}$ 。

2.2 偏好建模

在许多复杂任务中，如对话（Ouyang等人，2022），构建精确的基于规则的奖励存在挑战（Bender等人，2021）。同时，基于示范的方法可能需要大量专业人力资源投入，导致成本高昂。目前，基于比较反馈的偏好建模（Akrour等人，2011）已成为一种非常有前景的方法（Ouyang等人，2022；OpenAI，2023a；Touvron等人，2023），用于辅助微调强大的人工智能系统（Amodei等人，2016）。
通常，在获取专家偏好数据时，有必要迭代探索系统动态，以更多地了解优化目标。这个过程被称为偏好引出（Wirth和Fürnkranz，2013；Wirth等人，2017；Christiano等人，2017；Cabi等人，2020），它对于获取与人工智能系统输出相关的丰富、有价值的反馈至关重要，从而指导对齐过程（Hejna III和Sadigh，2022）。
在偏好引出中，需要确定的两个核心决策是偏好粒度和偏好类别。本文在序列决策问题中介绍这些内容，但其见解适用于广泛的人工智能系统（Amodei等人，2016；Christiano等人，2018；Leike等人，2018）。

偏好粒度
偏好（Wirth等人，2017）按粒度主要可分为三种类型：动作、状态和轨迹（如表2所示）。
动作偏好侧重于在特定状态下比较动作，指定特定条件下的偏好动作。当转化为轨迹偏好时，可能会带来诸如评估者专业知识需求和潜在信息损失等挑战。状态偏好涉及比较状态。它封装了状态之间的偏好关系，但在转化为轨迹偏好时需要对状态可达性和独立性做出假设。轨迹偏好考虑整个状态 - 动作序列，提供更全面的策略信息。它本质上评估长期效用，对专家判断的依赖较小。Christiano等人（2017）通过消融研究表明，在他们研究的设定中，较长的轨迹段在每段基础上能产生更具信息量的比较。在MuJoCo任务中，人类对这些段的评估也更一致。

偏好类别 偏好建模中存在多种目标。根据目标，偏好可分为对象偏好和标签偏好（Fürnkranz和Hüllermeier，2010）。具体而言，对象偏好作用于每个实例的一组标签，而标签偏好作用于一组对象本身。还可以根据偏好形式对它们进行不同的进一步分类。
• 绝对偏好。绝对偏好独立地阐明每个项目的偏好程度。

二元偏好。将项目分类为喜欢或不喜欢，提供了一种简单直接的用户偏好模型（Tsoumakas和Katakis，2007；Cheng等人，2010a）。
渐进偏好。这可以进一步区分为数值偏好和序数值偏好。数值偏好采用绝对数值，使得每个项目都获得一个数值分数，反映偏好程度（Cheng等人，2010b）。另一方面，序数值偏好对一组固定项目进行分级评估，如偏好、较不偏好或中等偏好等，能够在不包含具体数值度量的情况下描述用户偏好（Cheng等人，2010a）。
• 相对偏好。相对偏好定义项目之间的偏好关系。
全序。这种形式建立了涵盖所有项目对的全面偏好关系，确定从最偏好到最不偏好的绝对顺序（Hüllermeier等人，2008）。
偏序。因为在某些情况下用户可能在两个项目之间没有明显偏好（Cheng等人，2010c），所以这种形式允许存在不可比的项目对。

奖励模型
奖励建模将比较反馈（Akrour和Hüllermeier, 2010; Wirth等人, 2011）转化为标量奖励形式，以促进策略学习（Ziegler等人, 2019; Cabi等人, 2020; Houmanfar等人, 2022）。给定一对动作 $x_1, y_1)$ 和 $x_2, y_2)$ ，我们假设人类更喜欢从 $x_1)$ 采取的动作，而不是从 $x_2)$ 采取的动作，分别表示为 $y_1 \succ y_2$ 。我们使用奖励模型 $r(\cdot)$ ，通过直接从人类偏好中回归，来近似这些偏好。在文献中，有几种方法可用于模拟此类偏好，例如Bradley - Terry模型（Bradley和Terry, 1952）、Plackett - Luce排名模型（Plackett, 1975）等。在BT模型下，人类偏好的分布 $p^*$ 可形式化为：

$p^*(y_1 \succ y_2 | x) = \frac{\exp(r(x, y_1))}{\exp(r(x, y_1)) + \exp(r(x, y_2))} = \sigma(r(x, y_1) - r(x, y_2))$

其中 $\sigma(x) = 1 / (1 + \exp(-x))$ 是逻辑 sigmoid 函数。随后，我们使用得到的偏好排名来训练参数化奖励模型，通过最大似然法优化其参数。

$\mathcal{L}_R(\theta) = - \mathbb{E}_{(x, y_1, y_2) \sim D} \left[ \log \left( \sigma(r_\theta(x, y_{pre}) - r_\theta(x, y_{post})) \right) \right]$

在这个负对数似然损失中，该问题是一个二元分类任务，其中 $D$ 表示静态数据集 ${x^{(i)}, y_{pre}^{(i)}, y_{post}^{(i)}\}_{i = 1}^{N}$ ，由 $x_i)$ 采样得到，用于输入特定偏好。

奖励模型使人类能够通过评估向这些系统注入偏好，从而绕开明确制定人类目标的复杂任务。最初，Knox和Konidaris（2013）的研究将人类奖励明确表示为马尔可夫决策过程（MDP）的奖励，构建了一个简单的案例。Christiano等人（2017）证明，使用监督学习训练的不同奖励模型可以显著减少大约三个数量级的交互复杂性。该研究结合了人类偏好的轨迹演示，然后依次收集人类轨迹注释，训练奖励模型，并更新策略。这项研究还对预训练奖励模型在奖励黑客攻击场景中的出现提供了关键见解。夸大奖励不会提高性能，特别是当行为安全至关重要时。此外，随机策略可能会在某些任务中意外地表现良好，这意味着有效注释需要代理具备一定能力才能学习这种行为。对于离线设置，也受益于人类模型：Cabi等人（2020）提出了自动奖励草图，以高效地学习一个奖励函数，该函数利用人类的认知判断进行历史数据注释，从而启用大规模批量RL。Qin等人（2024）基于奖励泛化的经验理论，在奖励模型中提出了一种新型的RM基线树结构偏好，该理论在实验中得到了验证。重要的是，奖励模型提供了一种基本工具，用于调整强大的大型语言模型（LLMs）（Ouyang等人，2022；Ziegler等人，2019），并在实际应用中实现重大政策改进。

这项工作还为揭示训练奖励模型时的数据分布偏移和奖励黑客攻击的影响提供了见解，表明奖励模型的有效性与数据规模和参数大小相关。基于此工作，InstructGPT（Ouyang等人，2022）扩展了奖励模型范式，以实现更广泛的对话任务，并表明多响应偏好优化损失函数可以缓解过拟合问题。此外，这项研究揭示了不同群体的偏好差异可以泛化到不同群体。

论文阅读

2 从反馈中学习

从反馈中学习，就是要把人类的想法和价值观传递给人工智能系统，这是实现人工智能正向对齐的基础。作者把从反馈中学习的动态过程，分成了三个关键部分：

人工智能系统：就是那些需要调整、与人类意图保持一致的系统，像预训练的大型语言模型就属于这一类。比如说我们常用的聊天机器人，它在训练后可能还不能完全符合我们的使用需求，就需要通过反馈来调整。
反馈：由一个顾问集合来提供，这个集合里可能有人类、人工智能，或者是在人工智能辅助下的人类等等。这些反馈就是用来调整人工智能系统的信息。例如，当我们使用一个图像识别模型时，标注人员给模型的标注信息就是一种反馈。
代理：是专门开发出来对反馈进行建模的系统，这样能让学习变得更容易。比如人类对人工智能系统行为的偏好排名是反馈，而奖励模型就是对应的代理。

从这三个要素出发，人工智能系统从反馈中学习有两条路径：一是直接从反馈本身学习；二是通过对反馈进行建模的代理来间接学习。
在这里插入图片描述
（从反馈中学习过程的概述图）
这张图从以人为本的视角出发，把人工智能系统当成黑箱，展示了从反馈中学习的过程。图中呈现了两个学习路径：

直接基于反馈的学习：就是人工智能系统直接从标签、奖励、示范、比较这四类反馈中学习。比如标签反馈，人工智能系统直接根据标注的信息去学习。
代理介导的学习：以基于人类反馈的强化学习（RLHF）为例子。先有反馈，比如人类对人工智能系统行为给出偏好排名，然后通过建模，用奖励模型等代理来帮助人工智能系统学习。

图里还列出了策略学习的几种方式，像强化学习（RL）、基于偏好的强化学习（PbRL）、逆强化学习（IRL）、模仿学习（IL），以及可扩展监督的一些方法，比如迭代蒸馏与放大（IDA）、递归奖励建模（RRM）等。这张图整体上概括了人工智能系统从反馈中学习的不同要素和路径。

2.1 反馈类型

反馈是连接人工智能行为和人类意图的关键纽带。人工智能系统利用反馈来完善目标，更好地符合人类价值观。反馈主要有两个含义：一是在系统构建时，外部对人工智能系统输出给出反馈，指导系统架构或内部信息的改进；二是系统部署后，它会不断适应外部环境数据变化，同时保持系统架构和基本策略不变。

为了详细说明反馈类型，作者从以人为本的角度出发，把反馈根据其呈现形式，分成了下面四类：

标签反馈：这是最直接的反馈形式，就是在原始数据项上附上一个或多个有意义的信息标签。比如在监督学习里训练一个图像识别模型，会有标注好的图像数据集，标注的类别信息就是标签。模型通过这些标签来学习输入（图像）和输出（类别）的对应关系。它的优点是明确好理解，但是它没办法完全解释选择的深层逻辑，在模型训练里用这种反馈，可能会导致目标变量偏差。而且遇到复杂任务，比如优化算法、玩电子游戏、多模态生成等，光靠标签反馈就不够用了。
奖励反馈：是对人工智能系统单个输出的绝对评价，用标量分数或者分数向量来表示。比如在一个机器人运动控制任务中，设计一个基于规则的奖励函数，根据机器人是否保持健康状态、是否向前移动、控制消耗多少、接触强度如何等因素来打分。它的好处是设计者不用详细规定最优行为，让人工智能自己探索最优策略。但问题是，人类很难制定出完美的规则来给人工智能系统的输出打分，而且有缺陷的奖励函数可能会让人工智能产生危险行为，还可能存在被操纵的风险。
示范反馈：是专家顾问在完成特定目标时记录下来的行为数据。可以是视频形式，比如人类专家操作机器人抓取物体的视频；也可以是可穿戴设备记录的示范等。把视频里每一帧机器人的状态和动作标注出来，就形成了状态 - 动作对数据集，用来训练智能体模仿专家行为。这种反馈直接利用了专家的经验，不过要是遇到超出专家专业领域的任务，或者示范数据有噪声、不是最优解，以及人类专家操作不精确等情况，就会出问题。而且还需要大量多样的示范数据，这也增加了学习可靠行为的难度。
比较反馈：是一种相对评价，给人工智能系统的一组输出进行排序，引导系统做出更明智的决策。比如在偏好学习里，人工智能系统通过比较多个示例来了解顾问的偏好。它的优势是人类能快速处理那些不好精确评估的任务，但也存在问题，像反馈里的噪声、没考虑到的上下文因素，会让模型很难收敛到真正的目标，不同项目之间的绝对差异也会被掩盖，而且可能需要大量比较数据。

各种反馈都能以交互和在线的方式提供给人工智能系统。这种交互过程能让模型实时微调，减少对专业知识的依赖，还能提高可解释性。现在随着人工智能系统越来越强大，语言、视觉等更通用的交互界面也出现了，帮助人类和人工智能更好地沟通。不同的反馈模式其实都可以看成是人类在尝试传达一个隐藏的奖励函数。

最近基于模仿学习和强化学习的技术，成功构建出了有强大能力的人工智能系统，但也带来了两个问题：一是怎么给更复杂的行为定义奖励函数，来引导人工智能系统学习；二是怎么表达人类价值观，让强大的人工智能系统更好地和人类对齐，保证可控性和符合伦理。把偏好建模融入策略学习已经有了一些进展，在构建强大的大型语言模型等方面有显著成果，还有一系列策略学习研究也报告了性能提升。所以作者认为偏好建模和策略学习是理解对齐挑战和潜在解决方案的重要背景。

在这里插入图片描述
Table 2（序列决策背景下三种偏好粒度的比较表）
这张表比较了序列决策背景下三种偏好粒度，每种类型根据自身特点和比较学习过程中不同元素的方式来定义：

动作偏好粒度：在相同状态 $s$ 下比较两个动作 $a_1$ 和 $a_2$ ，表示为 $a_1 >_s a_2$ 。比如在一个游戏里，在某个场景状态下，比较向左移动和向右移动这两个动作，看哪个动作更受偏好。
状态偏好粒度：比较两个状态 $s_1$ 和 $s_2$ ，表示为 $s_1 > s_2$ 。例如在机器人探索环境任务中，比较机器人在位置A的状态和在位置B的状态，判断哪个状态更优。
轨迹偏好粒度：比较两条完整的状态 - 动作序列轨迹，表示为 $\tau_1 > \tau_2$ 。每条轨迹 $\tau$ 由时刻 $t$ 的状态 - 动作对组成，比如 $\tau = \{s_0, a_0, s_1, a_1, \ldots, s_{T - 1}, a_{T - 1}, s_T\}$ 。就像在自动驾驶任务中，比较两条不同的行驶轨迹，哪条轨迹更符合要求。

2.2 偏好建模

在很多像对话这样的复杂任务里，构建精确的基于规则的奖励是个难题，同时基于示范的方法又得投入大量专家人力，成本很高。所以现在基于比较反馈的偏好建模，成了微调强大人工智能系统的好办法。

偏好引出
通常在获取专家偏好数据时，得不断探索系统的动态变化，这样才能更多了解优化目标。这个过程就叫偏好引出，它对拿到跟人工智能系统输出有关的有用反馈很关键，能指导人工智能和人类意图对齐。在偏好引出里，有两个关键得确定，就是偏好粒度和偏好类别。虽然论文在序列决策问题里讲这些，但这些见解适用于很多人工智能系统。

偏好粒度
偏好按粒度主要能分成三类，就像下面表格呈现的这样：

动作偏好粒度：主要是在特定状态下比较不同动作，明确特定条件下更喜欢哪个动作。比如说在一个游戏场景里，角色在某种状态时，比较“攻击”和“防御”这两个动作，看哪个更合适。不过把这种偏好变成轨迹偏好时，可能会因为评估者得有专业知识，以及可能损失一些信息而遇到麻烦。
状态偏好粒度：是比较不同的状态。比如在机器人探索环境时，比较机器人在房间A和房间B这两种状态，看看哪种状态更符合预期。它涵盖了状态之间的偏好关系，可要是变成轨迹偏好，就得假设状态之间的可达性和独立性。
轨迹偏好粒度：考虑的是一整条状态 - 动作序列轨迹。还是以机器人探索为例，一条轨迹可能是从房间A出发，经过一系列动作到达房间B，另一条轨迹是从房间A出发经过不同动作到达房间C，比较这两条轨迹哪个更好。这种偏好能给出更全面的策略信息，评估长期效果，而且不太依赖专家判断。有研究用对比实验表明，在他们研究的设定里，较长的轨迹段在每段基础上能给出更有用的比较，在相关任务里人类对这些段的评估也更一致。

偏好类别
偏好建模里有各种各样的目标，按目标可以把偏好分成对象偏好和标签偏好。对象偏好是作用在每个实例的一组标签上，标签偏好是作用在一组对象本身。还能根据偏好形式再细分：

绝对偏好：独立说明每个项目的偏好程度。
- 二元偏好：把项目简单分成喜欢或不喜欢。比如对一幅画，就判断是喜欢还是不喜欢，这是很简单直接的用户偏好模型。
- 渐进偏好：又能分成数值偏好和序数值偏好。数值偏好给每个项目一个具体数值分数，反映偏好程度，比如给不同电影打1 - 10分。序数值偏好是对一组固定项目进行分级评估，像偏好、较不偏好、中等偏好等，不用具体数值也能描述用户偏好，比如把几款手机分成推荐、一般推荐、不推荐。
相对偏好：确定项目之间的偏好关系。
- 全序：建立涵盖所有项目对的全面偏好关系，从最喜欢到最不喜欢排个绝对顺序。比如对一系列旅游景点，按喜欢程度排个序。
- 偏序：因为有时候用户在两个项目间没明显偏好，所以允许存在没法比较的项目对。比如在选择红色衣服和蓝色衣服时，用户可能觉得都行，没有特别的偏好。

奖励模型
奖励建模就是把比较反馈转化成标量奖励形式，方便策略学习。假设强化学习智能体做出了两个动作 $x_1, y_1)$ 和 $x_2, y_2)$ ，我们觉得从 $x_1)$ 做出的动作 $y_1$ 更好，就表示成 $y_1 \succ y_2$ 。我们用奖励模型 $r(\cdot)$ 去近似这种偏好，有一些方法能模拟这种偏好，像Bradley - Terry模型等。在Bradley - Terry模型下，人类偏好的分布可以用公式表示。然后用得到的偏好排名去训练参数化奖励模型，通过最大似然法优化参数。

奖励模型让人类能通过评估给人工智能系统注入偏好，不用去明确制定人类目标。最开始，有研究把人类奖励当成马尔可夫决策过程的奖励，后来也有研究用监督学习构建奖励模型，能减少交互复杂性。还有研究结合人类偏好的轨迹演示，训练奖励模型并更新策略，还对奖励黑客攻击（就是奖励增加了但性能没提升，特别是策略太复杂时）给出了见解。另外，有的研究提出自动奖励草图来高效学习奖励函数，还有基于奖励泛化理论提出新的奖励模型基线。奖励模型是调整强大大型语言模型的重要工具，也有研究关注到训练奖励模型时数据分布偏移和奖励黑客攻击等问题。

查看全文

http://www.mrgr.cn/news/99337.html