当前位置：首页 > news >正文

论文阅读：2023 ICLR Safe RLHF: Safe Reinforcement Learning from Human Feedback

news 2026/2/5 14:06:11

总目录大模型安全相关研究：https://blog.csdn.net/WhiffeYF/article/details/142132328

Safe RLHF: Safe Reinforcement Learning from Human Feedback

https://arxiv.org/pdf/2310.12773

https://github.com/PKU-Alignment/safe-rlhf

速览

研究动机：大语言模型发展中，平衡性能与安全至关重要，现有方法在平衡有用和无害性上存在挑战。
研究问题：如何设计算法平衡大语言模型有用性和无害性，使其兼具帮助性、安全性与回应意愿？
研究方法：提出Safe RLHF算法，解耦人类偏好，构建奖励和成本模型，利用拉格朗日法在微调时平衡两个目标。
研究结论：实验表明Safe RLHF能有效提升大语言模型的帮助性和无害性，优于静态平衡算法。
不足：无法获取预训练数据，SFT数据质量和规模不足，缺乏前后检查策略且成本高。

这篇论文叫《SAFE RLHF: SAFE REINFORCEMENT LEARNING FROM HUMAN FEEDBACK》，主要是说随着大语言模型（LLMs）发展，要平衡模型性能和安全性，提出了Safe RLHF算法来解决相关问题。下面从背景、方法、实验等方面，用通俗的话来讲讲具体内容。

研究背景：大语言模型在很多方面表现出色，但它生成的内容不能有害，像歧视、错误信息等都不行。强化学习从人类反馈（RLHF）是让大语言模型符合人类偏好的好方法，不过追求有用性和无害性这两个目标在实际中会相互矛盾。比如模型拒绝回答问题，虽然安全但没什么用。所以，研究的目标就是要开发出既有用、又安全还愿意回答问题的大语言模型。
研究方法：提出Safe RLHF算法，核心是在数据标注时把人类对有用性和无害性的偏好分开，设立两个优化目标。在数据标注阶段，采用两阶段标注策略，标注员根据14个预定义的伤害类别给问答对标注安全性，再分别对回答的有用性和无害性进行排序。然后，训练两个独立的偏好模型，即奖励模型和成本模型。奖励模型根据有用性数据集训练，为强化学习阶段提供有用性的奖励信号；成本模型根据无害性数据集训练，能体现人类对大语言模型回答安全性的看法。在强化学习阶段，用奖励模型评估有用性，成本模型评估无害性，通过拉格朗日方法动态调整两者的平衡。
实验：用Safe RLHF算法对Alpaca - 7B模型进行了三轮微调实验。实验结果表明，Safe RLHF能同时提高大语言模型的有用性和无害性。和传统的单维标注和训练相比，Safe RLHF标注时标注员之间的一致性更高，和研究人员的一致性也更高，而且在训练阶段能主观调整平衡有用性和无害性。和采用静态平衡的奖励塑造方法相比，Safe RLHF能更好地平衡有用性和无害性这两个目标。另外，对比实验还证明了成本模型设计的重要性，它能同时拟合人类偏好和安全标签，对实现Safe RLHF的成功很关键。
研究局限和未来工作：研究存在一些局限，比如无法获取预训练数据，没有大量高质量的监督微调数据，虽然通过模型微调实现了安全对齐，但还需要加入预检查和后检查策略，而且研究成本高。未来打算扩展框架，纳入更多偏好类别，将模型应用到多轮对话场景，还考虑用Llama - 2作为基础预训练模型来提升性能。
研究贡献：这篇论文提出的Safe RLHF算法是首次将安全强化学习和RLHF框架结合，在大语言模型微调时有效平衡了有用性和无害性这两个常常冲突的目标，对基于大语言模型的人工智能系统安全性有重要意义。

查看全文

http://www.mrgr.cn/news/98967.html