ChatGPT 数学能力差的根源究竟何在?

如果您曾经尝试将 ChatGPT 用作计算器,您几乎肯定留意到了它的计算障碍:这个聊天机器人数学很差。在这方面,它在人工智能中并非独一无二。

Anthropic 的 克劳德解决不了 基本的文字问题。双子座搞不懂 二次方程。而 Meta 的 羊驼做简单的 加法都很费劲。

那么,这些机器人怎么能写出独白,却被小学水平的算术绊倒呢?

标记化与之有关。把单词“fantastic”拆分为音节“fan”、“tas”和“tic”,标记化有助于人工智能对信息进行密集编码。但由于标记器——执行标记化的人工智能模型——并不真正知道数字是什么,它们常常最终破坏了 数字之间的关系。例如,标记器可能把数字“380”视作一个标记,却将“381”表示成一对数字(“38”和“1”)。

但标记化并非人工智能数学薄弱的唯一原因。

人工智能系统属于统计机器。通过大量示例的训练,它们学习这些示例中的模式来进行预测(例如,在电子邮件中,短语“to whom”通常位于短语“it may concern”之前)。例如,给定乘法问题 57897×12832,ChatGPT——由于见过大量乘法问题——可能会推断,以“7”结尾的数字和以“2”结尾的数字相乘,其乘积末尾数字将是“4”。但它会在中间部分遇到困难。ChatGPT 给我的答案是 742,021,104;正确答案是 742,934,304。

云田·邓(Yuntian Deng)是滑铁卢大学专门研究人工智能的助理教授,在今年早些时候的一项研究中对 ChatGPT 的乘法能力进行了彻底测试。他和共同作者发现,默认模型GPT-4o在处理每个都包含超过四位数的两个数字相乘时(例如 3,459 x 5,284)会遇到困难。

“GPT-4o 在多位数乘法上表现欠佳,在四位数乘四位数及以上的问题中准确率低于 30%,”邓告诉 TechCrunch。“对于语言模型来说,多位数乘法具有挑战性,因为任何中间步骤中的错误都可能累积,导致最终结果不正确。”

那么,ChatGPT 会永远都缺乏数学技能吗?或者是否有理由相信这个机器人有朝一日或许会像人类(或者就这方面来说,像 TI-84 计算器)一样精通数字?

邓满怀希望。在这项研究中,他和他的同事还测试了o1,OpenAI 的“推理”模型,该模型最近被应用于 ChatGPT。o1 在回答问题之前会逐步思考问题,其表现比 GPT-4o 好得多,在解决九位数乘以九位数的乘法问题时,正确率大约为一半。

“该模型解决问题的方式可能与我们手动解决的方式不同,”邓说。“这使我们对模型的内部方法以及它与人类推理的差异产生好奇。”

邓认为,这一进展表明,至少某些类型的数学问题——乘法问题便是其中之一——最终将被类似 ChatGPT 的系统“完全解决”。“这是一项有着明确算法且定义清晰的任务,”邓说。“我们已经看到从 GPT-4 到 GPT-1 有了显著的改进,所以很明显推理能力正在提高。”

只是别太快扔掉你的计算器。