我用 ChatGPT 高级语音开启时间旅行之旅

OpenAI 的 GPT-4o 高级语音功能 是本年度最强大且具有潜在重要性的人工智能工具之一。它能让您与人工智能语音展开类似人类的自然交流,甚至在其说得过多时打断它。

目前只有少数ChatGPT Plus订阅用户能够使用,这种与技术交互的新方式预计在今年秋季能够广泛使用。该公司还计划明年推出一种视觉模式,允许您通过相机看世界。

高级语音与当前的ChatGPT 语音乃至新推出的Gemini Live的不同之处在于它是语音对语音。这意味着它能够原生地理解您说的话、您说话的方式以及您话语背后的情感语调。

它还能模仿口音并讲述精彩的故事,所以我让高级语音带我进行一次时间旅行冒险。它从前往古埃及的旅行开始,并以一位商人的声音讲述。它不仅声音表现出色,而且还是个有趣的讲故事能手。

使用高级语音与其他任何人工智能技术并无太大差异,其起始于一个提示。

与通过文本与 ChatGPT 交流或利用 Midjourney 生成图像不同,高级语音是由您的声音来提示的。

在最基础的层面上,这仅仅是告诉它您期望它做的事,但它还能够捕捉到您声音中的语调变化

所以,如果您让它解释生命的意义,而您听起来有点泪眼汪汪或心烦意乱,它的回应方式将会反映出您的声音状态。

在这次冒险中,我直截了当地开始,就只是问高级语音:“现在,我们要经历一个故事。想象一下,你是个时间旅行者。你会回到历史上的哪个时期?”

它提议去 19 世纪芝加哥举办的世界博览会。我让它扮演时间旅行者的角色,还要像在博览会上的人那样说话。在芝加哥短暂停留后,我问道:“我们去别的地方吧。按下按钮,带我去一个新的地方。”我们去了古埃及。

高级语音说道:“想象一下这种情景:宏伟的金字塔正在建造,尼罗河如同一个繁荣文明的命脉般流淌。在这个时期和这个地方,你最感到好奇的是什么?”

这就是我向它询问有关语言的地方,包括尽可能准确地依据我们所知说出这些词。

然后我们去了一个市场,最后到了罗马,还有我们的埃及商人和一位罗马公民之间的对话,一个说埃及语,另一个讲拉丁语。我甚至让高级语音在冒险的一小部分采用尤达的声音,它尝试得不错。

高级语音是个出色的讲故事者,能够改变情绪层次,反映出不同场景的强度,甚至运用不同的口音和声音。

我对它存在的问题在于 OpenAI 所施加的限制。

它‘原本可以’生成音效来增强场景,但却已被禁止这样做。

这个问题是可以理解的,那就是安全问题。

要求模型执行那些更具不可预测性的任务,可能会致使输出违背 OpenAI 的安全准则,并且还有可能将高级语音推向不安全发布的范畴。

只是知晓那些功能有点难以企及,这着实令人感到沮丧。

即便没有这些功能,高级语音依然是我与 AI 所进行的最佳交互,它允许实时对话,自然流畅,我能够随意打断,并且还有人能够像人类一样依照我的语气和速度做出回应。