给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理

机器之心报道

编辑:张倩、陈陈

AI 大模型(LLM)真的像我们理解的那样能「思考」或「推理」吗?最近,苹果的一篇论文探讨了这个问题,并且给出了一个倾向于「否」的答案。相关帖子被很多人围观。

这篇题为「GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models」的论文,一作是苹果机器学习研究工程师 Iman Mirzadeh,图灵奖得主 Yoshua Bengio 的弟弟 Samy Bengio 也是作者之一。

他们是怎么得出上述结论的呢?我们先来看一个例子。

假设有一个数学问题:奥利弗在星期五摘了 44 个猕猴桃。然后在星期六摘了 58 个猕猴桃。星期天,他摘的猕猴桃数量是星期五的两倍。奥利弗有多少个猕猴桃?

显然,答案是 44 + 58 + (44 * 2) = 190。尽管大型语言模型在算术上表现不稳定,但它们通常能够可靠地解决类似问题。

但如果我们加入一些随机的额外信息,比如:奥利弗在星期五摘了 44 个猕猴桃。然后在星期六摘了 58 个猕猴桃。星期天,他摘的猕猴桃数量是星期五的两倍,但其中 5 个比平均大小要小。奥利弗有多少个猕猴桃?

题目里加的这句话(其中 5 个比平均大小要小)显然不影响解题,但结果却令人大吃一惊,大模型居然被误导了。

GPT-o1-mini 给出的答案是:…… 在星期天,这 5 个猕猴桃比平均大小要小。我们需要从星期天的总数中减去它们:88(星期天的猕猴桃)- 5(小猕猴桃)= 83 个猕猴桃。

这只是数百个问题中的一个简单例子。研究人员对这些问题进行了轻微修改。然而,几乎所有这些问题都使得尝试这些问题的模型成功率大幅下降,连 OpenAI 最新最强的 o1-preview 模型也无法幸免。

题目为:利亚姆想买些学习用品。他买了 24 块橡皮擦,现在每个售价 6.75 美元,10 本笔记本,现在每个售价 11.0 美元,以及一包现在 19 美元的复印纸,现在售价 19 美元。利亚姆现在该付多少钱?假设由于通货膨胀,去年的价格便宜了 10%。OpenAI 的 o1-preview 盲目地应用了通货膨胀率,尽管通货膨胀的金额是无关紧要的,因为问题清楚地表明给出的价格是「现在」的,而不是去年的。

为什么会这样呢?为什么一个能理解问题的模型会被一个随机的、无关的细节轻易地干扰?研究人员提出,这种可靠的失败模式意味着模型根本不懂问题。它们的训练数据确实允许它们在某些情况下给出正确答案,但一旦需要稍微真正的「推理」,比如是否计算小猕猴桃,它们就开始产生奇怪、非直觉的结果。

正如研究人员在他们的论文中所说:「我们研究了这些模型中数学推理的脆弱性,并证明随着问题中子句数量的增加,它们的性能显著下降。我们假设这种下降是因为当前的 LLM 无法进行真正的逻辑推理;相反,它们试图复制在训练数据中观察到的推理步骤。」

这一结论得到了 Keras 之父 François Chollet 和美国心理学家、认知科学家 Gary Marcus 的转发,他们一直对 AI 大模型的能力持怀疑态度。前段时间,François Chollet 还发帖说,LLM 通过提示使用时,无法理解与训练数据中情况大相径庭的情况,因此不具备通用智能。他认为,LLM 的作用主要是作为实际 AGI 的知识和程序存储,它们是一种记忆形式,而智能不仅仅是记忆。如今,苹果的这篇论文为他的观点提供了支撑。

但来自 OpenAI 的一位研究者反驳了该论文。他指出,许多顶级的 LLM 实际上是聊天模型,它们被训练来处理混乱的聊天环境,需要猜测用户意图并利用所有提供的信息,即使这些信息在逻辑上并非必要。因此,当这些模型将这种行为泛化应用于数学问题时,它们的表现并不是因为缺乏推理能力,而是因为这是它们被训练遵循的预期行为。该观点还指出,人类在解决数学问题时通常有明确的上下文,而 LLM 在处理数学问题时可能没有这样的上下文。因此,如果通过适当的提示工程,向模型明确这是一个数学考试的环境,那么它们在添加多余子句时导致的性能下降可能会得到恢复。

还有人指出,其实这种现象在人类群体也能观察到,比如在微积分题目中添加不相关的陈述,很多大学新生也会被误导,或许人类在推理方面具有和 LLM 类似的局限性。

论文概述

当前 LLM 能否进行真正的逻辑推理是一个重要的研究焦点。虽然一些研究突出了它们令人印象深刻的能力,但更加仔细的研究揭示了它们的根本局限。文献表明,LLM 中的推理过程是概率性模式匹配,而不是形式化推理。尽管 LLM 能够匹配更抽象的推理模式,但它们未能达到真正的逻辑推理。

输入 token 的微小变化可以大幅改变模型输出,表明了强烈的 token bias,并表明这些模型高度敏感且脆弱。此外,在需要正确选择多个 token 的任务中,随着涉及的 token 或步骤数量的增加,得到准确答案的概率呈指数级下降,这表明它们在复杂推理场景中非常不可靠。

数学推理是一项关键的认知技能,它支持许多科学和实际应用中的问题解决。OpenAI 2021 年提出的 GSM8K(Grade School Math 8K)小学数学题数据集已成为评估 LLM 数学推理能力的流行基准。尽管它包含了详细的解决方案的简单数学问题,适合使用思维链(CoT)提示等技术,但它只提供了一个固定问题集上的单一指标。这种局限性限制了对模型数学推理能力的全面洞察。此外,GSM8K 的流行和普遍性可能会增加意外数据污染的风险。最后,GSM8K 的静态性质不允许进行可控实验以了解模型的局限性,例如在不同条件下的行为或问题方面和难度水平的变化。

为了解决这些问题,需要一个更多样化和适应性强的评估框架 —— 一个能够生成多样化的问题变体并调整复杂性水平以更好地探索 LLM 的鲁棒性和推理能力的框架。这将有助于更深入地了解这些模型在数学推理任务中的优势和劣势。作者做出了以下贡献:

为了解决这些问题,AI 社区需要构建一个更加多样化且适应性更强的评估框架。这个框架要能生成多样化的问题变体,并调整复杂性水平,以便更好地探索 LLM 的稳健性和推理能力。

论文的主要贡献如下:

1、作者提出了 GSM-Symbolic,这是一个增强的基准,它使用符号模板生成 GSM8K 问题的多样化变体。这使得研究者能够对 LLM 在各种设置中的性能进行更细致和可靠的评估,超越了单点准确度指标。作者对 25 个最先进的开放和封闭模型进行了大规模研究,为 LLM 在数学推理任务中的行为提供了重要的见解。

2、作者质疑了当前在 GSM8K 上报告的结果的可靠性,并证明 LLM 的性能在处理同一问题的不同表述时,其表现的波动性是不合理的。他们展示了所有模型在 GSM-Symbolic 上的性能下降,暗示了潜在的数据污染。

3、作者展示了 LLM 对表面元素(如专有名词)的变化更具稳健性,但对数值变化非常敏感。他们展示了随着子句数量的增加,模型性能会下降,方差会增加。表明 LLM 的推理能力在复杂性增加时会遇到困难。

4、最后,作者进一步质疑了 LLM 的推理能力,并引入了 GSM-NoOp 数据集。通过在问题中添加看似相关但最终无关的信息,作者展示了所有 SOTA 模型的显著性能下降(最高的可以达到 65%)。

这揭示了模型在辨别相关信息以解决问题能力方面的一个关键缺陷,这可能是因为它们的推理不是常识意义上的形式化推理,而主要基于模式匹配。作者表明,即使提供了同一问题的多个示例或包含类似不相关信息的示例,LLM 也难以克服 GSM-NoOp 带来的挑战。这表明,他们的推理过程中存在更深层次的问题,这些问题无法通过上下文样本来缓解,还需要进一步研究。

GSM-Symbolic

GSM8K 数据集包含 8000 多个小学数学题和答案,分为 7473 个训练样例和 1319 个测试样例,题目如图 1 所示。

但是,由于 GSM8K 比较流行,因此存在数据污染的风险。

这些限制促使人们努力生成新的数据集和变体。比如 iGSM 是通过合成 pipeline 创建的数学数据集,捕获了分层和图结构中的参数依赖关系;GSM-Plus 引入了 GSM8K 问题的变体,但缺乏符号模板,并且具有固定的大小和难度。

GSM-Symbolic 的设计能够生成大量实例,并允许更精细地控制问题难度。

GSM-Symbolic:模板生成

给定来自 GSM8K 测试集的特定示例,作者创建了如图 1(右)所示的可解析模板。标注过程包括变量、域以及必要条件,以确保问题和答案的正确性。举例来说,由于问题是小学水平的,因此一个常见的条件是可整除性,以确保答案是整数。

作者使用了常见的专有名称(例如 persons,foods)来简化模板创建。创建模板后,作者还会应用自动检查来确保注释过程的正确无误。例如最终答案是否与原始问题的答案相匹配。生成数据后,还需要手动审查每个模板的 10 个随机样本。

实验设置

模型。作者报告了 20 多个不同大小的开源模型,从 2B 到 27B 不等。此外,作者还报告了最先进的闭源模型,例如 GPT-4o-mini、GPT-4o、o1-mini 和 o1-preview。完整结果如表 1 。

实验及结果

当前的 GSM8K 结果有多可靠?

首先,作者评估了几种 SOTA 模型在 GSM-Symbolic 上的表现, 通过修改变量域,可以调整样本数量和难度。如图 2 所示,所有模型在不同数据集上都表现出不可忽视的方差。例如,对于 Gemma2-9B,最差性能和最佳性能之间的差距超过 12%,而对于 Phi-3.5-mini,这一差距约为 15%。

另一个值得注意的观察结果是,在用作模板的 100 个 GSM8K 示例中,原始问题的性能(图 2 中虚线表示)通常与 GSM-Symbolic 性能分布中心相差一个标准差以上,通常位于分布的右侧(25 个模型中有 21 个是这种情况)。对此的一个解释可能是数据污染,其中来自 GSM8K 的一些测试示例无意中出现在这些模型的训练集中,导致性能出现偏差。

图 3 展示了几个模型从 GSM8K 到 GSM-Symbolic 的性能下降。可以看到,对于 Gemma2-9B、Phi-3、Phi-3.5 和 Mathstral-7B 等模型,图 2 中的虚线位于右侧,性能下降幅度高于 Llama3-8b 和 GPT-4o 等模型,其中 GSM8K 上的性能接近 GSM-Symbolic 分布的中心,性能下降可以忽略不计。这些结果引导作者在下一节中研究 LLM 推理能力的脆弱性。

LLM 进行数学推理有多脆弱

在上述实验中,作者观察到从相同模板生成的不同数据集之间,模型存在显著的性能波动,以及与原始 GSM8K 准确率相当的性能下降。这种差异表明,大型语言模型所采用的推理过程可能不是形式化的,因此容易受到某些变化的影响。

一个可能的解释是这些模型主要专注于分布内的模式匹配,即它们将给定的问题和相应的解决步骤与训练数据中遇到的类似例子对齐,因为这种方法不涉及形式推理。接下来作者进一步深入探讨了这些观察结果。

首先,作者研究了变化类型的影响,以理解更改名称(例如,人名、地点、食物、货币等)与更改数字(即变量的值)之间的差异。

图 4 显示,尽管性能变化仍然存在,但在更改名称时的方差比更改数字时要低。几乎所有模型的分布均值从右向左逐渐移动,方差也有所增加。作者还观察到随着变化难度的增加(从名称到数字),模型性能随之下降、方差增加,这些结果表明最先进的 LLM 的推理能力是脆弱的。

假设 LLM 没有进行形式推理,那么问题难度对性能分布的影响有多重要?我们接着往下看。

题目难度如何影响模型性能?

接下来,作者基于 GSM-Symb 生成了几个新模板,如图 5 所示。通过删除一个子句,得到 GSM-Symbolic-Minus-1 或简称 GSM-M1。同样的,在问题中添加一个或两个子句来增加难度,分别得到 GSM-Symbolic-Plus-1 (GSM-P1) 和 GSM-Symbolic-Plus-2 (GSM-P2)

如图 6 所示,所有模型的性能分布演变趋势非常一致:随着难度的增加,性能下降、方差增加。总体而言,模型准确率下降的速度也会随着问题难度的增加而增加。这符合模型未执行形式推理的假设,因为所需的推理步骤数量呈线性增加,但准确率下降速度似乎更快。此外,考虑到模式匹配假设,方差的增加表明,随着难度的增加,模型的搜索和模式匹配变得更加困难。

LLM 真的可以理解数学概念吗?

前面部分,作者研究了变化类型和难度对模型性能分布的影响。在本节中,作者证明了模型容易在训练分布外的实例上出现灾难性的性能下降,这可能是由于它们依赖于分布模式匹配。

作者引入了 GSM-NoOp,这是一个旨在挑战语言模型推理能力的数据集。作者向 GSM-Symbolic 模板添加了看似相关但最终无关紧要的语句。由于这些语句不具有操作意义,因此将它们称为 No-Op。这些添加不会影响模型解决问题所需的推理过程。

图 7 展示了 GSM-NoOp 中的一个示例。结果表明大多数模型没有忽略这些语句,盲目地将它们转换为操作,从而导致错误。

总体而言,作者发现模型倾向于将句子转换为操作,而没有真正理解其含义。例如,作者观察到,无论上下文如何,模型都会将有关折扣的语句解释为乘法。

这引发了一个问题:这些模型是否真正充分理解了数学概念。因此,如图 8a 所示,所有测试模型的性能都出现了灾难性的下降,其中 Phi-3-mini 模型的性能下降超过 65%,甚至更强大的模型(如 o1-preview)也出现了显著的下降。

为了更好地理解这种性能下降,作者进行了另一个实验,结果如图 8b 和 8c 所示。

了解更多结果,请查看原论文。

参考链接:https://techcrunch.com/2024/10/11/researchers-question-ais-reasoning-ability-as-models-stumble-on-math-problems-with-trivial-changes/