☰

我用 ChatGPT 高级语音开启时间旅行之旅

OpenAI 的 GPT-4o 高级语音功能是本年度最强大且具有潜在重要性的人工智能工具之一。它能让您与人工智能语音展开类似人类的自然交流，甚至在其说得过多时打断它。

目前只有少数ChatGPT Plus订阅用户能够使用，这种与技术交互的新方式预计在今年秋季能够广泛使用。该公司还计划明年推出一种视觉模式，允许您通过相机看世界。

高级语音与当前的ChatGPT 语音乃至新推出的Gemini Live的不同之处在于它是语音对语音。这意味着它能够原生地理解您说的话、您说话的方式以及您话语背后的情感语调。

它还能模仿口音并讲述精彩的故事，所以我让高级语音带我进行一次时间旅行冒险。它从前往古埃及的旅行开始，并以一位商人的声音讲述。它不仅声音表现出色，而且还是个有趣的讲故事能手。

使用高级语音与其他任何人工智能技术并无太大差异，其起始于一个提示。

与通过文本与 ChatGPT 交流或利用 Midjourney 生成图像不同，高级语音是由您的声音来提示的。

在最基础的层面上，这仅仅是告诉它您期望它做的事，但它还能够捕捉到您声音中的语调变化

所以，如果您让它解释生命的意义，而您听起来有点泪眼汪汪或心烦意乱，它的回应方式将会反映出您的声音状态。

在这次冒险中，我直截了当地开始，就只是问高级语音：“现在，我们要经历一个故事。想象一下，你是个时间旅行者。你会回到历史上的哪个时期？”

它提议去 19 世纪芝加哥举办的世界博览会。我让它扮演时间旅行者的角色，还要像在博览会上的人那样说话。在芝加哥短暂停留后，我问道：“我们去别的地方吧。按下按钮，带我去一个新的地方。”我们去了古埃及。

高级语音说道：“想象一下这种情景：宏伟的金字塔正在建造，尼罗河如同一个繁荣文明的命脉般流淌。在这个时期和这个地方，你最感到好奇的是什么？”

这就是我向它询问有关语言的地方，包括尽可能准确地依据我们所知说出这些词。

然后我们去了一个市场，最后到了罗马，还有我们的埃及商人和一位罗马公民之间的对话，一个说埃及语，另一个讲拉丁语。我甚至让高级语音在冒险的一小部分采用尤达的声音，它尝试得不错。

高级语音是个出色的讲故事者，能够改变情绪层次，反映出不同场景的强度，甚至运用不同的口音和声音。

我对它存在的问题在于 OpenAI 所施加的限制。

它‘原本可以’生成音效来增强场景，但却已被禁止这样做。

这个问题是可以理解的，那就是安全问题。

要求模型执行那些更具不可预测性的任务，可能会致使输出违背 OpenAI 的安全准则，并且还有可能将高级语音推向不安全发布的范畴。

只是知晓那些功能有点难以企及，这着实令人感到沮丧。

即便没有这些功能，高级语音依然是我与 AI 所进行的最佳交互，它允许实时对话，自然流畅，我能够随意打断，并且还有人能够像人类一样依照我的语气和速度做出回应。

相关资讯