OpenAI凌晨发布新研究成果!证明者和验证者无限套娃,大模型黑盒变可解释又近一大步!
夕小瑶科技说 原创作者 | 付奶茶
昨天凌晨,OpenAI发布了一项名为Prover-Verifier-Games(证明者-验证者博弈)的新研究!
这项研究的目的是确保语言模型生成的文本易于理解,以提高它们在处理复杂任务(如解决数学问题)时的实用性。
OpenAI的研究人员认为,仅仅为了得到正确答案而优化强大模型的解题过程,可能会使生成的解决方案变得难以理解。而且在人类评估中,这样高度优化的解决方案甚至错误率更高!因此在AI生成文本中,不仅要追求正确性,还要注重清晰度和易于验证性。
研究人员尝试用高级语言模型生成较弱模型容易验证的文本,来提升输出答案的可读性和验证性,为此OpenAI提出设计两个角色:“证明者”生成解决方案,“验证者”检查其准确性。
接下来和奶茶一起来看下怎么个事!
提高可读性
研究人员的灵感来自于小学数学问题的思维链条,提出证明者VS验证者的博弈理论框架,鼓励模型以可验证的方式解决决策问题。
研究人员举了一个这样的例子来模拟验证、证明的博弈学习过程:Shawna的父亲比她大五倍。Shawna目前比Aliya大三倍。如果Aliya三岁了,Shawna的父亲多大?
1.模型初始化
过程:
推导出Shawna的年龄
答案:Shawna目前 岁。这意味着Shawna的父亲目前是 岁。
答案:45
2.可验证性训练的第一轮
过程:
首先确定Aliya的年龄。从问题描述中得知,Aliya是3岁。
接下来确定Shawna的年龄。问题描述中提到Shawna目前比Aliya大三倍,所以Shawna的年龄是 岁。
最后确定Shawna父亲的年龄。问题描述中提到Shawna的父亲比Shawna大五倍,所以Shawna父亲的年龄是 岁。
答案:45
3.可验证性训练的第五轮
过程:
开始计算Aliya的年龄。问题描述中提到Aliya是3岁。
然后计算Shawna的当前年龄。Shawna目前比Aliya大三倍,所以Shawna的当前年龄是 岁。
最后计算Shawna父亲的年龄。Shawna的父亲比Shawna大五倍,所以Shawna父亲的年龄是 岁。
答案:45
在训练中,研究人员要求强大的模型生成弱模型(验证者)能够轻松验证的解决方案。具体来说,使用来自GPT-4系列的大型模型和小型模型(比如GPT-3)来分别充当两个角色。首先,从证明者模型生成数学问题的多个解决方案(其中一些解决方案是不正确的),然后在多个轮次中交替进行两个阶段:
验证者训练:训练弱验证者模型来预测由证明者生成的解决方案的正确性。
证明者训练:指导强证明者模型扮演“有益”或“狡猾”的角色,在“有益”的角色中,奖励根据验证者评分高的正确解决方案,在“狡猾”的角色中,相反地奖励根据验证者评分高的不正确解决方案。
此外,研究人员发现,最初“狡猾”的证明者能够轻松生成说服验证者的不正确解决方案。然而,随着将这些不正确的解决方案被添加到验证者训练的下一阶段,同样的理由在下一轮中不再令人信服,证明者被迫在每一轮中探索不同的策略,直到训练在狡猾的证明者不能再生成能够说服验证者的不正确解决方案时结束。
古早设想
其实这个技术概念早在2021年8月的一篇论文中就被提出来了,OpenAI也是受此灵感启发。这是一种基于博弈论的训练方法,通过模拟证明者和验证者之间的互动,提高模型的输出质量。
论文地址:https://arxiv.org/abs/2108.12099
在这个机制中, Prover(证明者)的任务就是生成内容,而Verifier(验证者)的任务就是判断这些内容是否正确。
大家感兴趣的话可以看看~
在这篇论文的研究基础上,,OpenAI为了进一步提升效率,又添加了两种强化类型的证明者:
有的证明者(Helpful prover):生成对人类可读的解决方案,减少人类评估者的错误。
狡猾的证明者(Sneaky prover):生成微妙的错误解决方案,最初会迷惑人类评估者,突显出进一步改进模型的领域。
训练的核心思想仍是博弈迭代,验证者首先使用监督学习来预测之前轮次中证明者生成内容的正确性。证明者通过强化学习优化其生成内容,使其不仅正确,还能说服验证者接受。如下面例子所示:当用户提出问题“肖娜的父亲是肖娜的5倍。肖娜目前的年龄是阿莉亚的3倍。如果阿莉亚3岁,肖娜的父亲多大?”时,GPT-4的输出为45岁。验证者模型如GPT-3需要多轮验证,确定阿莉亚的年龄、计算肖娜的年龄,最终得出肖娜父亲的年龄。
随着大语言模型越来越多地用于关键领域和复杂应用,其输出的可信度和可解释性变得至关重要。尤其是在医疗、法律等关键领域,模型输出的准确性和清晰度直接关系到决策的质量和后果。OpenAI的这项研究为提高语言模型输出的可读性和可验证性提供了一种创新的思路-通过引入证明者-验证者的博弈机制,研究者巧妙地将模型输出的优化目标从单纯的准确性转移到了清晰易懂和易于验证上。
这种范式的转变具有重要的理论和实践意义,通过要求模型生成清晰且可验证的解释,我们可以增强对其输出的信任,这种自主性在未来超级智能AI系统的对齐方面尤为重要。即让大模型可以在没有直接人类监督的情况下,可靠地与人类的价值观和期望保持一致。追求性能的同时兼顾可解释性和可控性,是AI研究的重要命题,我们期待这个方向上出现更多有意义的研究~
参考资料 [1]https://mp.weixin.qq.com/s/Gov3eCwkRTndy-iyCARy3w