☰

OpenAI 的新“o1”模型真能带来重大进步？

周四，OpenAI 发布了“o1”，这是一款新的人工智能模型，它能够把难题拆解为组成部分，然后逐步处理，从而解决难题。

该模型分 o1-Preview 和 o1-mini 两个版本发布，所有 ChatGPT Plus 用户均可使用，后续还将进行更广泛的发布。

o1 的发布是 OpenAI 的名为"草莓"的人工智能推理项目（最初称为 Q*）的首次发布，该公司认为这是该领域的重大进步。“我们认为这实际上是关键的突破，”OpenAI 研究主管鲍勃·麦格鲁（Bob McGrew）本周告诉 The Verge。“从根本上说，这对于模型而言是一种新方式，以便能够解决为了朝着类人智能水平发展而需要解决的真正难题。”

在亲自试用了新的 o1 模型并对文档进行分析之后，我虽然已经印象深刻，但还是存在一些相当大的问题。以下是我从这次发布中得出的关键要点，包括它是否确实是 OpenAI 期待已久的重大进步：

OpenAI 的 o1 模型在处理您的查询时会写出它的思维过程，展示在给出答案之前如何“思考”问题。我让可用的最强大的 o1-preview 模型创作一首 14 行的诗，每行的首字母拼出我的名字，并在每个句子的首字母拼出一个国家的名字。该模型“思考”了 59 秒钟，轻松处理了一些内容，但为寻找以我名字中的“X”开头的国家而努力。最终，它意识到那部分无法令人满意地回答，但其余的诗写得不错。“一颗独特的星星在秋天闪耀地旅行，”它开头用了 Alex 中的“A”，并在这一行拼出了奥地利。我给 Anthropic 的 Claude 同样的提示，它失败了。

o1 模型处理这些多步骤、复杂任务的能力表明 OpenAI 再次推动了人工智能的技术水准，但这种进步的程度仍需要一些时间来确定。尽管 o1 在编码、数学和科学方面超过了现有的基准，但在其他情形下，其“思维链”可能让人感觉像是个小把戏。在最好的情况下，o1 是通往可能更重大事物的一步。

这些新模型可能会在公众对人工智能的看法上造成分歧。把人工智能用于写作、编辑和营销任务的人或许会感到失望。但把它用于编码、数学和科学研究的人则会感到兴奋。在 OpenAI 的测试中，使用 o1 来写作的人实际上对它的喜爱程度要低于 GPT-4o。但那些将其用于数学计算、数据分析和计算机编程的人则明显更喜欢它。

“因此，鉴于他们的主观经验，撰写有关这项技术的‘文字工作者’可能对它的评价更负面，而在最佳用例中使用它的‘数学工作者’则看到了它的全部能力。这可能会致使对该技术的负面看法超出其应有的程度，这是 OpenAI 朝着1500 亿美元估值迈进时值得关注的事情。

要想最大限度地利用推理模型，您可能得给它们分配工作，而不是与它们聊天。Spellbook（一款人工智能法律助手）的首席执行官斯科特·史蒂文森（Scott Stevenson）表示，该机器人擅长接收一长串指令，并利用这些指令修改法律文件。“当人们对 o1 感到失望时，我认为这是因为他们仍将其视为聊天，”史蒂文森说。“它的工作能力将会非常出色。”

如果这在您看来像是朝着人工智能代理迈进的一步，对我来说也是如此。随着 OpenAI 对这项技术进行授权，公司不可避免地会尝试用它来构建人工智能代理。不过，尽管有这样的热议，所谓的“代理型人工智能”似乎还很遥远。

尽管有传言称，在包括首席科学家伊利亚·苏茨克维（Ilya Sutskever）在内的高层人员离职的情况下，该公司迷失了方向，但 OpenAI 表明它仍能推动人工智能的前沿发展。其次，OpenAI 把此次发布置于其他项目之前（比如：Sora 在哪儿？GPT-4o 语音呢？），这可能表明它找到了一些重点，并正在大力推进它所相信的方法。

山姆·奥特曼（Sam Altman）在 X 上对一位感到沮丧的用户的回应中也暗示了这一点。“先对天空中神奇的智能心怀几周的感激之情，怎么样？然后你很快就会有更多的玩具。”他写道。对于同时在做很多事情的 OpenAI 来说，一些重点是受欢迎的。而且这肯定比另一种解释要好，即 Sora 和 GPT-4o 语音可能正在失败。

OpenAI 的新“o1”模型真能带来重大进步？

相关资讯