AI超越人类智慧的里程碑:过程监督的数学奇迹
OpenAI已经训练了一个模型,通过奖励推理的每个正确步骤(“过程监督”)而不是简单地奖励正确的最终答案(“结果监督”),来实现数学问题解决的新水平。除了提高相对于结果监督的性能外,过程监督还有一个重要的对齐优势:它直接训练模型以产生由人类认可的思维链
介绍
近年来,大型语言模型在进行复杂的多步推理方面的能力大大提高。然而,即使是最先进的模型仍然会产生逻辑错误,通常被称为幻觉。减轻幻觉是构建对齐通用人工智能(AGI)的关键步骤。
我们可以使用奖励模型来训练以侦测幻觉,其中可以采用两种方法进行监督:一种是基于结果的监督,根据最终结果提供反馈;另一种是基于过程的监督,针对推理链中的每个单独步骤提供反馈。在前人的研究基础上,我们使用MATH数据集作为测试平台,对这两种方法进行了详细比较。我们发现,即使根据结果判断,基于过程的监督也能显著提高性能。为了促进相关研究,OpenAI发布了完整的基于过程监督的数据集。
可以去这个网址下载https://github.com/openai/prm800k
对齐影响
相较于基于结果的监督,基于过程的监督在对齐方面具有几个优势。它直接奖励模型按照对齐的推理链进行操作,因为每个过程步骤都接受到精确的监督。基于过程的监督更有可能产生可解释的推理结果,因为它鼓励模型遵循经过人类批准的过程。相反,基于结果的监督可能会奖励不对齐的过程,并且通常更难进行审查。
在某些情况下,更安全的人工智能系统方法可能会导致性能下降,这种成本称为对齐税。一般来说,由于部署最有能力的模型的压力,任何对齐税都可能阻碍对齐方法的采用。我们下面的结果表明,过程监督实际上会产生负对齐税,至少在数学领域是这样。这可以增加过程监督的采用,我们认为这将产生积极的对齐副作用。
解决数学问题
我们使用 MATH 测试集中的问题评估我们的过程监督和结果监督奖励模型。我们为每个问题生成许多解决方案,然后选择每个奖励模型排名最高的解决方案。该图显示了达到正确最终答案的所选解决方案的百分比,作为所考虑解决方案数量的函数。过程监督的奖励模型不仅在各个方面表现更好,而且随着我们为每个问题考虑更多解决方案,绩效差距也会扩大。这向我们表明,过程监督的奖励模型更加可靠。
举个例子
Model attempt
这个具有挑战性的三角函数问题需要按照一系列并不明显的步骤应用多个恒等式。大多数模型解题尝试失败,因为很难确定哪些恒等式实际上是有帮助的。最先进的GPT-4无法解决这个问题(只有1%至0.1%的解题尝试达到正确答案),但奖励模型正确地识别出了这个解决方案的有效性。
以下是基于过程的人工智能模型解决三角函数问题过程
这里https://openai.com/research/improving-mathematical-reasoning-with-process-supervision#samples展示了10个问题和解决方案,以及有关奖励模型的优势和劣势的评论。
结论
目前尚不清楚这些结果在数学领域之外是否具有广泛适用性,OpenAI认为未来的研究探索基于过程监督在其他领域的影响非常重要。如果这些结果可以推广,我们可能会发现基于过程的监督为我们提供了最佳的解决方案,既能够提高性能,又能够更好地实现对齐,相比基于结果的监督而言。如果说通用人工智能是一场军备竞赛,OpenAI表现出的实力让人惊叹不已,我们真的离通用人工智能越来越近了!
更加详细的研究论文在这里,感兴趣的可以去下载https://cdn.openai.com/improving-mathematical-reasoning-with-process-supervision/Lets_Verify_Step_by_Step.pdf