AI推理能力尚不足

(图/freepik)

在近年来,人工智慧(AI)迅速发展,尤其是大型语言模型(LLMs)如OpenAI的GPT系列、Google的Gemma 2、Meta的Llama等,展示了在语言处理、推理能力以及解决问题方面的巨大潜力。但最近有一个研究报告揭露了这些语言模型在逻辑推理上的重大缺陷,进一步点出目前AI技术的局限性与挑战。

这份报告指出,虽然LLMs在某些测试中表现出色,但其实这些所谓的推理能力更像是「高级模式匹配」而非真正的逻辑推理。研究团队特别针对一个广为使用的数学推理测试进行了详细分析,指出由于该测试已成为许多模型的训练数据来源,这些模型或许早已掌握了答案,从而表现得比其实际能力更好。

为了解决这一问题,研究人员开发了一个新的基准测试。这一测试保留了数学推理问题的本质,但更换变数(如人名、数字、问题复杂度)以及添加与问题无关的资讯,来检验模型是否真的具备推理能力。结果显示,当这些变数发生变化时,所有模型的表现都显著下降,特别是当引入不相关的细节时,模型的推理能力变得更加脆弱。

举例来说,若一个问题包含一些无关的细节,模型往往会错误地将这些无关的细节纳入计算,导致最终结果出错。这反映出LLMs倾向于根据模式来解决问题,而非真正理解问题的本质。这也显示出AI在推理过程中,容易被不相关的资讯误导,无法区分哪些细节是解决问题所需的,哪些是无关的。

过去几年,LLMs被认为是解决复杂问题、提供答案的理想工具。但这些研究结果提醒我们,当前的AI技术距离真正的「通用人工智慧」尚有一段距离。实际上,许多AI模型仍然依赖「训练数据中的模式匹配」,而不是如人类般能够灵活应对各种变化、进行推理的能力。

要真正实现具备推理能力的AI,模型需要从单纯的模式匹配转向真正的逻辑推理。这意味着未来AI不仅仅是依靠数据进行学习,更需要理解问题的本质,能够灵活应对不同的情境变化。

这一研究对于目前市场上的AI技术应用也具有警示作用。许多企业和机构在导入AI技术时,可能会过于依赖这些语言模型的能力,而忽视其潜在的缺陷。例如,金融、医疗、法律等需要高精度推理的领域,若过度依赖当前的AI技术,可能会导致误判或错误决策。因此企业在应用这些技术时,应该保持谨慎,并且应该将AI的结果与人类的专业判断相结合,以确保决策的准确性。

目前的LLMs虽然在语言处理上展示了非凡的能力,但在逻辑推理方面仍存在重大缺陷。这提醒我们,在AI的快速发展浪潮中,仍需保持理性与谨慎。

(作者为台北商业大学前校长)