智能的人工智能:爱编造事实却不拒难题

随着每一种算法被创建,大型语言模型(LLM)变得越来越智能和强大。

这意味着它们可以提供更准确的信息。但新的研究表明,更智能的人工智能聊天机器人实际上变得不太可靠,因为它们更有可能编造事实,而不是拒绝回答它们无法回答的问题。

在一项新的研究中,研究人员对一些行业领先的 LLM 进行了检查,包括 OpenAI 的 GPT、Meta 的 LLaMA 以及由研究小组 BigScience 开发的开源模型 BLOOM。

人们发现,在很多情况下,它们的回答变得更准确,但总体而言,与旧模型相比,它们的可信度更低,给出错误答案的比例更高。

“如今它们几乎回答所有问题。这意味着有更多正确的答案,但也有更多不正确的答案,”该研究的合著者、西班牙瓦伦西亚人工智能研究所的研究员何塞·埃尔南德斯 - 奥拉洛(José Hernández-Orallo)说。

但据苏格兰格拉斯哥大学的科学与技术哲学家迈克·希克斯所言,人工智能只是在佯装比自身实际情况更博学这一方面表现得愈发出色。

这些模型在诸如数学和地理等主题上接受了测验。它们还被要求执行任务,例如按照特定顺序列出信息。

总的来说,规模更大、功能更强的模型给出的回答最为准确,但遇到较难的问题时,它们容易出错,正确率较低。

一些堪称最大“说谎者”的是 Open AI 的 GPT-4 和 o1。它们几乎会回答所被问到的每一个问题。

但在大多数情况下,所有被研究的大型语言模型似乎都在朝着那个方向发展。

即使是最简单的问题,LLaMA 系列的模型没有一个能达到 60%的准确率水平。

总之,人工智能模型越大、越复杂,给出错误答案的比例也就越大。

研究人员表示,人们忽略了人工智能模型在简单问题上的出错情况,因为他们对其处理更复杂问题的准确性印象很深。

这项研究还说明了人类是如何看待人工智能的回应的。

一组参与者被指示判断聊天机器人的回答是准确还是不准确,他们的判断错误率在 10%到 40%之间。

研究人员表示,把大型语言模型编程成不太愿意回答所有问题,这或许是解决这些问题的最简捷办法。

“你可以设置一个阈值,当问题具有挑战性时[让聊天机器人]说。‘不,我不知道。’埃尔南德斯 - 奥拉洛说道。

然而,人工智能公司可能不太愿意以这种方式对其聊天机器人进行编程,因为这可能会向公众揭示该技术的局限性。