震惊!苹果研究:人工智能解不了小学数学题
几位苹果公司的研究人员已证实此前对于人工智能的看法
就是说它的推理存在严重的逻辑错误,特别是在基础小学数学这方面。
根据六位苹果研究人员最近发表的一篇论文《GSM-Symbolic:理解大型语言模型数学推理的局限性》,当方法改变时,先进的大型语言模型(LLMs)据称所采用的数学“推理”可能会极其不准确和脆弱。
研究人员从 GSM8K 的 8000 道小学水平数学应用题的标准化集合入手,这是测试 LLMs 的常见基准。然后,他们在不改变问题逻辑的情况下对措辞稍作修改,并将其称为 GSM-Symbolic 测试。
第一组的性能下降幅度在 0.3%至 9.2%之间。
无需科学家就能明白这些数字有多么令人担忧,因为它们清楚地表明,大型语言模型无法正确解决问题,而是采用简单的“模式匹配”来“将陈述转换为操作,却并未真正理解其含义”。而且,如果您稍微更改这些问题中的信息,这将会严重干扰大型语言模型识别这些模式的能力。
当前这些大型语言模型背后的主要驱动力在于,其实际操作方式类似于人类,但像这一项以及 其他 研究却证明并非如此——它们的功能存在关键局限性。它本应运用高级推理,但其背后却没有逻辑或世界的模型,严重削弱了它的实际潜力。
而且当一个人工智能由于词语本质上太过令人困惑,且不遵循完全相同的模式,从而无法进行简单的数学运算时,这还有什么意义?难道计算机不是为了以人类通常无法达到的速度来进行数学运算而创建的吗?在这一点上,您还不如关闭人工智能聊天机器人,拿出您的计算器。
让人相当失望的是,在最近的人工智能聊天机器人中发现的这些当前的大型语言模型都依据同样有缺陷的编程来运行。它们完全依赖于囤积并处理的大量数据,从而给人以逻辑推理的错觉,但却从未接近实现人工智能能力的下一个真正步骤——通过运用代数和计算机编程中所用的抽象知识来进行符号操作。
在那之前,我们到底在拿人工智能做什么?如果它甚至无法做到每个推广自己版本的公司所吹嘘的那样,那么它对自然资源造成灾难性消耗的目的到底是什么?有这么多论文,尤其是这一篇,证实了这一痛苦的事实,让整个努力真的感觉像是在浪费时间。