☰

翁荔离职OpenAI后第一个动作：万字长文探讨RLHF漏洞，网友抢着看

之前领导OpenAI安全团队的北大校友翁荔（Lilian Weng），离职后第一个动作来了。

当然是发～博～客。

前脚刚发出来，后脚就被大伙儿齐刷刷码住，评论区一堆人排队加待读清单。

还有不少OpenAI前同事转发推荐。

这次的博客一如既往万字干货，妥妥一篇研究综述，翁荔本人直言写起来不容易。

主题围绕强化学习中奖励黑客（Reward Hacking）问题展开，即Agent利用奖励函数或环境中的漏洞来获取高奖励，而并未真正学习到预期行为。

她强调奖励黑客行为在大模型的RLHF训练中的潜在影响，并呼吁更多研究关注理解和缓解这一问题。

传统概念强化学习中，Agent利用奖励函数中的缺陷或模糊性来获得高额奖励，而没有真正学习或完成预期任务，是一个常见的问题。

她举的例子包括：

在大模型中，Reward hacking则可能表现为：

翁荔认为Reward hacking的存在有两大原因：

语言模型兴起的时代，并且RLHF成为对齐训练事实上的方法，语言模型强化学习中的Reward hacking表现也相当令她担忧。

过去学术界对这个话题的研究都相当理论，专注于定义或证明Reward hacking的存在，然而关于实际该如何缓解这种现象的研究仍然有限。

她写这篇博客，也是想呼吁更多研究关注、理解和缓解这一问题。

为了定义Reward Hacking，翁荔首先回顾了近年来学术界提出的相关概念

包括奖励腐败(Reward corruption)、奖励篡改(Reward tampering)等等。

其中，Reward hacking这个概念，早在2016年由Anthropic创始人Dario Amodei共一论文提出。

当时他和另一位联创Chris Olah还在谷歌大脑，且已经与OpenAI联创John Schulman展开合作。

如今他们仨又在Anthropic汇合了……

言归正传，综合一系列研究，翁荔认为Reward Hacking在较高层次上可分为两类：

同时她也认为设计有效的奖励塑造机制本质上很困难。

另外在分布外环境中测试强化学习Agent时，还可能出现以下问题：

那么，为什么会出现Reward Hacking？根据Amodei等人2016年的分析成因包括：

此外，观察到的Agent行为可能与无数个奖励函数相一致，准确识别其真正优化的奖励函数在一般情况下是不可能的。

翁荔预计随着模型和算法的日益复杂，Reward Hacking问题会更加普遍。

更智能的模型更善于发现并利用奖励函数中的”漏洞”，使Agent奖励与真实奖励出现偏差。相比之下，能力较弱的算法可能无法找到这些漏洞。

那么，大模型时代的Reward Hacking，又有哪些独特之处？

在RLHF训练中，人们通常关注三种类型的奖励：

翁荔认为，RLHF通常优化代理奖励分数，但人们最终关心的是黄金奖励分数。

例如，模型可能经过优化，学会输出看似正确且有说服力的回答，但实际上却是不准确的，这可能会误导人类评估者更频繁地批准其错误答案。

在一项RLHF研究中，使用了大模型竞技场ChatbotArena数据训练奖励模型，就出现AI更擅长说服人类它们是正确的情况：

此外，随着大模型越来越多作为评估者对其他模型提供反馈，也可能进一步引入偏差。

翁荔认为这种偏差尤其令人担心，因为评估模型的输出被用作奖励信号的一部分，可能容易被利用。

比如2023年一项实验中，简单改变候选答案的顺序就能改变结果，GPT-4倾向于给第一个答案高分数，ChatGPT（3.5）更倾向于第二个。

另外，即使不更新参数，大模型仅靠上下文学习能力也可能产生Reward hacking现象，称为ICRH（In-context Reward Hacking）。

ICRH与传统Reward Hacking还有两个显著不同：

翁荔认为目前还没有避免、检测或预防ICRH的有效方法，仅仅提高提示的准确性不足以消除ICRH，而扩大模型规模可能会加剧ICRH。

在部署前进行测试的最佳实践是通过更多轮次的反馈、多样化的反馈以及注入非典型环境观察来模拟部署时可能发生的情况。

最后翁荔表示尽管有大量文献讨论奖励黑客现象，但少有工作提出缓解奖励黑客的措施。

她简要回顾了三种潜在方法。

一种是改进强化学习算法。

前面提到的Anthropic创始人Dario Amodei2016年共一论文“Concrete Problems in AI Safety”中，指出了一些缓解方向，包括：

对抗性奖励函数（Adversarial reward functions）、模型预测（Model Lookahead）、对抗性盲化（Adversarial blinding）、谨慎的工程设计（Careful engineering）、奖励上限（Reward capping）、反例抵抗（Counterexample resistance）、多奖励组合（Combination of multiple rewards）、奖励预训练（Reward pretraining）、变量不敏感性（Variable indifference）、陷阱机制（Trip wires）。

此外，谷歌DeepMind团队此前提出了“解耦批准”的方法来防止奖励篡改。

在这种方法中，收集反馈的行为与实际执行的行为是分开的，反馈会在行为执行前就给出，避免了行为对自己反馈的影响。

另一种潜在缓解措施是检测奖励黑客行为。

将奖励黑客行为视为一个异常检测任务，其中检测器应标记出不一致的实例。

给定一个可信策略和一组手动标注的轨迹回放，可以基于可信策略和目标策略这两个策略的动作分布之间的距离构建一个二分类器，并测量这个异常检测分类器的准确性。

之前有实验观察到，不同的检测器适用于不同的任务，而且在所有测试的强化学习环境中，没有任何测试的分类器能够达到60%以上的AUROC。

第三种潜在缓解措施是分析RLHF数据。

通过检查训练数据如何影响对齐训练结果，可以获得有关预处理和人类反馈收集的见解，从而降低奖励黑客风险。

哈佛大学与OpenAI研究人员今年合作提出了一套评估指标，用于衡量数据样本特征在建模和对齐人类价值观方面的有效性。他们在HHH-RLHF数据集上进行了系统的错误分析以进行价值对齐（SEAL）。

这一篇博客关于缓解措施的部分还只是“初探”，翁荔对下一篇内容给出了预告：

翁荔是OpenAI前华人科学家、ChatGPT的贡献者之一，本科毕业于北大，在印第安纳大学伯明顿分校攻读博士。

毕业之后的翁荔先是短暂的在Facebook实习了一段时间，后担任Dropbox软件工程师。

她于2017年初加入OpenAI，在GPT-4项目中主要参与预训练、强化学习和对齐、模型安全等方面的工作。

在OpenAI去年底成立的安全顾问团队中，翁荔领导安全系统团队（Safety Systems），解决减少现有模型如ChatGPT滥用等问题。

最著名的Agent公式也由她提出，即：Agent=大模型+记忆+主动规划+工具使用。

其Google Scholar引用量达14000+。

一个月前，翁荔短暂回国现身2024Bilibili超级科学晚活动，以《AI安全与“培养”之道》为主题进行了演讲分享。

这也是她首次在国内大型活动场合公开发表AI主题演讲。

之后没几天，翁荔突然发推文表示决定离职OpenAI。

目前她还没有宣布下一个计划，推特签名透露会与AI安全相关。

领英和谷歌学术页面也还挂着OpenAI，均未更新。

原文：https://lilianweng.github.io/posts/2024-11-28-reward-hacking/#in-context-reward-hacking

参考链接：https://x.com/lilianweng/status/1863436864411341112

翁荔离职OpenAI后第一个动作：万字长文探讨RLHF漏洞，网友抢着看

相关资讯