GPT-4的图灵测试结果出炉!

大数据文摘受权转载自夕小瑶科技说

作者:智商掉了一地、ZenMoore

图灵测试,作为衡量机器思维能力的方式,自 1950 年由图灵设计以来一直备受争议。这个模仿游戏的设定包括人类和人工智能(AI)参与者,AI 试图通过纯文本界面让询问者相信他们是人类。

自那时以来,图灵测试的引发了激烈争议,人们讨论它究竟是在衡量什么,以及哪种系统有可能通过这一测试。尽管如今大型语言模型(LLM)似乎很适合进行图灵测试,但它是否能够通过测试却没有得到明确的答案。

在本文中,作者通过在线公开图灵测试将 GPT-4 和其他智能体与人类进行了比较,来对这个问题进行实证研究,实验表明:

在 41% 的游戏中,表现最佳的 GPT-4 提示通过了测试,超过了 ELIZA 和 GPT-3.5 基准,但未达到和人类参与者相当的水准。

参与者的决策主要基于语言风格和社会情感特征,这支持了智能体不足以通过图灵测试的观点。

参与者的人口统计学特征,包括教育和对 LLM 的熟悉程度,并不能被用来预测检测率,这表明即使是深入了解系统并经常与其互动的人也可能容易受到欺骗。

尽管图灵测试存在一些局限性,但我们仍然可以将其视为评估自然语言交互和欺骗的相关标准。此外,鉴于具备冒充人类能力的 AI 模型可能对社会产生广泛影响,作者还分析了不同策略以及判断模型是否与人类相似的标准的有效性。

论文题目:Does GPT-4 Pass the Turing Test?

论文链接:https://arxiv.org/abs/2310.20216

图灵测试是否有意义

图灵认为游戏的开放性质(审问者可以询问任何事情,从浪漫爱情到数学)构成了一项广泛且有挑战性的智力测试。大型语言模型(LLM)能生成流畅的自然文本,在各种基于语言的任务上与人类几乎持平,似乎非常适合图灵游戏。

▲图1 图灵测试实验的聊天界面,人类审问者(绿色)与 GPT-4 之间的示例对话

但在激烈讨论下,图灵测试似乎并不能确定机器是否真正具有智能性,它最多只能提供一种概率性的支持或反对证据,因为仍存在着许多限制。但尽管如此,图灵测试仍然具有重要意义。

首先,它帮助我们评估机器是否能够欺骗人类,让人误以为它们是真正的人。这个能力对社会有广泛的影响,包括自动化客户服务、虚假信息传播、AI 模型的欺骗,以及对与真正人类互动的信任问题。

其次,图灵测试为研究人类相似性提供了一个框架。不仅仅是评估机器,还探讨了人类参与者的文化、伦理和心理假设。通过分析参与者的策略和理由,我们可以更好地理解人们认为哪些特质构成了人类,以及哪些特质难以模仿。

作者采用了图灵测试的两人实现方式,其中一个审问者向单个参与者提问,来决定他们是人类还是 AI。这与图灵的原始三人公式有所不同,但避免了需要每场测评有多个人类在线参与的需要。

作者创建了 25 个 LLM 参与者进行实验。这些参与者通过 OpenAI API 来回复用户的问题。每个参与者由模型(GPT-3.5 或 GPT-4)、温度参数(0.2、0.5 或 1.0)和提示区分。提示告诉参与者在互动中应该怎么做,包括回复的方式。

▲图2 示例提示,Juliet,用于为 LLM 提供上下文背景和如何回复用户提示的指令

界面

聊天界面被设计成类似于传统的消息应用程序。如图 3 所示,审问者的消息显示在对话框的右侧绿色区域。在对话框的底部,包括审问者的最终判定、置信度和判定原因,以及参与者的真实身份。

▲图3 四个游戏对话的示例

流程

在研究中,人类玩家进入等待室,被随机分配到两种不同类型的游戏,一种是与真正的人类玩,另一种是与 AI 玩。为了避免等待时间太长,AI 游戏的等待时间设置成与前面五场人类比赛的平均等待时间相同。如果在规定时间内找不到人类比赛的话,玩家就会被匹配到与 AI 对战。

在人类比赛中,两名玩家被分为审问者和参与者的角色:

参与者:是要说服审问者他们是真正的人类。

审问者:与 AI 模型比赛的玩家总是担任审问者的角色。

AI 模型的选择通过一种探索或开发策略来确定,然后对于每个模型,从分布中抽取样本:

其中 是模型的数量, 和 分别是模型游戏历史中获胜和损失的数量,由审问者对每个判定的置信度加权。

实验结果成功率

成功率(SR)定义:审问者决定参与者是人类的比赛的比例(即参与者成功)。

▲表1 审问者判定参与者的成功率(SR)和比赛数量(n)

如图 4 所示,人类参与者表现最好,SR 为 63%,表现最佳的 GPT-4 提示(Sierra)为 41%。而且,不同提示的性能存在较大的差异。

▲图4 一组参与者的图灵测试成功率(SR)

如图 5 所示,在与 AI 的游戏中,审问者的置信度相当准确,但在与真实人类参与者的游戏中,置信度与准确性之间没有明显关联。需要注意的是,由于本文的采样算法倾向于选择表现更好的模型,因此具有较少测评数据的模型可能会产生较低的 SR ,所以这些结果可能不太靠谱。

▲图5 审问者的置信度与准确性以及参与者类型之间的关系

假设模型在审问者的第一场测评中会享有优势,因为审问者还没有机会熟悉游戏。如图 6 所示,性能最佳的参与者在第一场测评中的表现与他们的整体 SR 类似。

▲图6 审问者第一场比赛的成功率(SR)

审问者的人口统计特征

作者研究了审问者的能力,看他们是否能受到一些已知人机互动统计因素的影响(如年龄、性别、教育水平以及与聊天机器人的互动频率,以及对 LLM 的了解程度)。然而,如图 7 的研究结果表明,这些因素似乎对审问者在辨别他们是在与真人还是 AI 对话方面的准确性没有明显影响,同时,没有发现任务经验会提高参与者的表现。

▲图7 审问者的统计特征

策略

作者对 300 场测评中审问者采用的策略进行了分类。如图 8 显示,最常见的策略类型是闲聊,询问参与者当天在做什么以及他们生活中的其他个人细节。其他常见策略包括知识推理和上下文意识。

▲图8 审问者用来审问参与者的前 20 种策略类型

此外,为了分析不同策略的有效性,作者探索了采用策略的平均准确性,同时还探索了询问审问者的策略是否随时间而改变。如图 9 所示,审问者在最早的比赛中倾向于使用社会情感策略和上下文意识问题(关于天气和时间),而更有经验的审问者倾向于考察参与者的知识和观点。

▲图9 审问者采用的策略的平均准确性

原因

参与者提供了决策的原因,分为 6 类:语言风格、社交与情感、知识与内容、上下文感知、元(模型控制范围之外的游戏方面)和无信息(模糊或无关的原因)。

如图 10 所示,最常见的原因是语言方面(如模型过于不正式、过度使用听起来不自然的附加语、使用重复的句子结构)和社交情感因素(如模型缺乏个性或产生不自然的回复,而人类不会)。

▲图10 审问者认定 AI 参与者实际上是 AI 的前 20 个原因

1. GPT-4 是否通过了图灵测试?

图灵曾在 70 年前说过:

通过上述研究发现,某些 GPT-4 参与者比图灵预计地晚 20 年顺利通过图灵测试(审问者有时无法准确辨认它们是 AI)。但我们还需要考虑是否 30% 的误识率足够好,或者是否该有更严格的标准才能真正通过图灵测试。更高的误识率可能表明审问者在模型和人类之间的区别上存在困难。然而,这也可能出现随机猜测的情况(审问者无法提供可靠的鉴别)。

然而,要求 AI 参与者在模仿游戏中几乎像人类一样成功(审问者很难分辨他们是 AI),就意味着 AI 需要表现得几乎和人类一样好,从而骗过审问者。这可能对 AI 不太公平,因为必须欺骗,而人类可以坦率地回答问题就行。

最终,要评估图灵测试的成功,需要确定 AI 的表现是否明显优于人类基线。在此研究中,所有 AI 参与者都没有满足这个标准,因此没有找到 GPT-4 通过图灵测试的证据。即使某些模型在某些情况下表现出色,这个研究的设计和分析限制了得出结论的强度,而支持某个系统通过图灵测试的强有力证据需要更多的研究和控制实验。

2. GPT-4 能通过图灵测试吗?

如图 4 所示,根据所给的提示不同,AI 的表现有很大变化。我们有理由相信可能有更好的提示,使得 AI 在这测试中表现更好,也许能够完全达到通过图灵测试的标准。

此外,有些审问者认为参与者是 AI 的理由(如说话太不正式、句子结构太重复,或者回避一些敏感话题)相对容易解决,但设计出有效的提示具有挑战性。根据经验,尝试解决一个问题通常会引入新的方法,让系统表现得不像人类。

最好的提示只能达到大约 40% 的成功率,这个数字与之前的研究结果相似,这可能代表了目前大型语言模型的性能水平。

3. 审问者的人口统计特征

虽然研究收集了一些审问者的人口统计数据,但这些因素似乎对审问者在区分 LLM 和人类方面的准确性没有显著影响。这可能表明,与 LLM 互动的经验并不能帮助审问者更好地识别 LLM 和人类之间的区别。

此外,结果也可能受到选择偏见的影响,因为通过作者的社交媒体帖子招募的样本可能过多地代表了20-30岁、男性、研究生学历且对LLM感兴趣的人。

4. 策略

审问者尝试了多种策略来辨别 AI 模型,突显了图灵测试作为一种互动评估的灵活性。

最有效的策略之一是使用非英语语言进行对话。其他有效策略包括利用模型缺乏与实时世界连接的特性,比如询问时间或当前事件。

一些审问者还采用了更直接的方法,直接询问参与者是否是 AI。这种策略相当有效,模型通常会过于努力来说服审问者他们是人类,而不是以一种更随意的方式回答,这可能提醒审问者去怀疑参与者可能是 AI。

原因

审问者正确判断 AI 的原因最常与语言风格有关。尽管模型接受了大量的人类文本训练,但在适应上下文的风格中仍然存在挑战。

第二常见的原因是社交情感,特别是模型的回复是通用或不自然的评论。LLM 学会了生成那些在某种程度上看起来非常可能正确或无争议的句子,并对它们进行微调,以避免引发争议或争论。这通常会产生适应性广泛的回复,但缺乏个人特征。

审问者还关注了社交和情感因素(如幽默感或在游戏中不配合)。如图 11 所示,人类在辨别参与者是否是人类的理由上,不论是人类还是 AI 参与者之间,都有相似分布,表明模型在许多情况下都能够模仿这些特质。

▲图11 审问者判断参与者是人类的前 20 种理由,根据真实参与者类型细分

上述分布提出了两种可能性:

分布的相似性表明 AI 模型已经具有足够的能力,使得它们可以更好地模仿社交情感线索和流畅的语言风格,让审问者更容易将其视为人类。这意味着模型已经变得足够聪明,在模仿人类在这方面变得更加容易。

这些线索在一般情况下对于区分 AI 并不重要,所以对于那些尚未掌握这些线索的模型来说,该测试并非很好地判定 AI。也就是说,这些特定的线索可能在模仿人类的情境中并不总是表现得特别突出。

在这项研究中,作者深入探讨了人类和 AI 之间的复杂互动。尽管图灵测试并不是完美的智能度量标准,但它为我们提供了深刻理解智能体社交互动的框架。实验结果表明,基于规则的 AI 系统(如 ELIZA),在某些情况下的表现竟也出乎意料的成功。与此同时,人类参与者被正确判断为人类的概率仅为 63%。

此外,AI 系统仍然面临着语言风格和社交情感因素等挑战,这些挑战可能比传统人工智能判定概念更加重要,因为会直接涉及到 AI 模型在模仿人类社交互动中的能力。

此外,AI 系统仍然面临一系列挑战,特别是在处理语言风格和社交情感等因素时,这些挑战可能比传统的智能性概念更为重要,因为它们直接关系到 AI 模型在模仿人类社交互动方面的能力。

这也凸显了一个潜在的风险,即在人们未能意识到的情况下,AI 欺骗可能会发生。如果 AI 模型能够成功地模仿人类的语言和情感,它们有可能会被误认为真正的人类,这可能会导致误导信息、虚假信息的传播,甚至引发社会和伦理问题。

最后,我们必须承认这项实验还存在许多局限性,例如参与者的样本不够具有代表性、缺乏激励机制。因此,虽然本文提供了一些见解,但仍需要更多充分的研究,以更好地理解智能体和社交互动的本质。不仅仅是图灵测试,我们需要寻求更多多样化的智能性度量标准,以更全面地了解和评估 AI 系统的能力。这也许能帮助我们更好地了解未来 AI 技术,确保其在各个领域的应用都能够有益于人类社会。

租!GPU云资源

新上线一批A100/A800

运营商机房,服务有保障

扫码了解详情☝