ChatGPT 高级语音模式究竟有何独特魅力?

早在五月,OpenAI 宣布为 ChatGPT 推出高级语音模式。该公司将这一新功能描述为当时已有的语音模式的强化版。您在想要改变话题时可以打断机器人,ChatGPT 会理解您的语速和语调,并以自身的情感做出相应回应。

如果这听起来有点像 2013 年电影《她》中的人工智能语音助手,那并非偶然。事实上,OpenAI 展示该产品时使用的声音与为那个虚构的机器思维配音的女演员斯嘉丽·约翰逊的声音有点太相似了。约翰逊提起了诉讼,于是该公司后来完全删除了这个声音。不过没关系,还有另外九种声音供您尝试。

虽然 OpenAI 早在七月就开始与一小群测试人员对高级语音模式进行测试,但该功能现在正在向所有付费用户推出。如果您有符合条件的账户,您今天应该能够在您的终端进行尝试。

目前,只有付费的 ChatGPT 订阅用户可以访问高级语音模式。这意味着您需要拥有 ChatGPT Plus 或 ChatGPT Teams 会员资格,才能看到该功能。免费用户仍然可以使用免费语音模式,在应用程序中显示为一副耳机。

高级模式以一个波形图标呈现,只有 Plus 和 Team 订阅用户才能看到。

若要访问该功能,您需打开新的聊天然后点击此图标。首次使用高级语音模式时,您得从九个选项里挑一种语音。我已经把 OpenAI 对每种语音的描述包含进来了:

我最后选了 Arbor,它让我多次想起 Headspace 里的那个人。从这儿开始,高级语音模式的工作方式跟标准语音模式特别相似。

在使用新模式的这一小段时间里,我没察觉到跟之前的语音模式相比有太多进步。新的语音当然是新的,而且我觉得比过去的语音要更“自然”点儿,但我觉得对话没感觉更逼真。能够打断您的数字伙伴这一点确实在一定程度上造成了这种错觉,不过它很敏感:当 ChatGPT 正说着话时,我拿起了我的 iPhone,它马上就停了。这也是我在 OpenAI 的原始演示里注意到的一点,我觉得 OpenAI 得努力提升机器人理解用户想要打断的能力,还有区分随机外部声音的能力。

(OpenAI 建议您使用耳机以避免不必要的干扰,并且,如果您使用的是 iPhone,启用语音隔离模式。我在没有耳机的情况下使用了语音隔离模式,所以您看着办。)

虽然 OpenAI 似乎已经削弱了 ChatGPT 异想天开和轻浮的特质,但如果您要求,您仍然可以让该机器人笑——如果您要求它笑的话。我猜这种笑挺让人印象深刻的,但感觉不自然,就好像它是从另一个录音中“抽取”来笑的。然而,要求它发出任何其他类似的声音,比如哭或尖叫,它都会拒绝。

我试图让我的语音模式听一首歌并识别它,但它说它做不到。该机器人特别要求我只分享歌词,我照做了,然后它根据这些歌词的氛围而不是实际歌词本身推荐了一首歌。因此,它这猜测错得离谱,但它似乎还不适合这种类型的任务,所以我就放过它了。

我不得不让两种语音模式相互较量。第一次尝试时,它们在一次完全尴尬的交流中不断互相打断,直到其中一个出了故障,最后重复了之前跟我说的关于分享歌词来识别歌曲的信息。另一个接着说了类似的话:“当然,跟我分享歌词,我会帮你弄清楚。”另一个回复道:“当然:分享歌词,我会尽力识别这首歌。”就这样来来回回持续了五分钟,之后我结束了对话。

一旦我为聊天机器人设置了清晰的聊天,它们就会永远来回交流,几乎没有说任何有趣的内容。它们带着聊天机器人常见的热情和模糊性谈论增强现实、烹饪和早晨的日常。然而,奇怪的是,当其中一个机器人说完如果它会做饭,它想做千层面之后;它问另一个聊天机器人喜欢做什么菜或者想尝试做什么菜。另一个机器人回答:“用户喜欢早上喝咖啡和看新闻。”

这是我在过去的一次测试中告诉 ChatGPT 的,当时它问我早上的日常。这证明OpenAI 的记忆功能在起作用,但这执行情况,嗯,很奇怪。为什么它会这样回答关于最喜欢的食谱的问题?是我让机器人短路了吗?它是否发现自己在和自己聊天,并决定警告另一个机器人发生了什么?我真的不喜欢这里面的含义。

当您使用先进语音模式时,OpenAI 会保存您的录音,其中包括您在对话中的录音。当您删除聊天时,OpenAI 表示将在 30 天内删除您的音频录音,除非该公司因安全或法律原因决定保留。如果您之前共享过音频录音,并且此音频剪辑与您的账户分离,OpenAI 也会在您删除聊天后保留该录音。

为确保您不让 OpenAI 用您的语音录音和聊天记录来训练其模型,请转到 ChatGPT 设置,选择数据控制,然后禁用为所有人改进模型和为所有人改进语音。