OpenAI 的新“o1”模型真能带来重大进步?

周四,OpenAI 发布了“o1”,这是一款新的人工智能模型,它能够把难题拆解为组成部分,然后逐步处理,从而解决难题。

该模型分 o1-Preview 和 o1-mini 两个版本发布,所有 ChatGPT Plus 用户均可使用,后续还将进行更广泛的发布。

o1 的发布是 OpenAI 的名为"草莓"的人工智能推理项目(最初称为 Q*)的首次发布,该公司认为这是该领域的重大进步。“我们认为这实际上是关键的突破,”OpenAI 研究主管鲍勃·麦格鲁(Bob McGrew)本周告诉 The Verge。“从根本上说,这对于模型而言是一种新方式,以便能够解决为了朝着类人智能水平发展而需要解决的真正难题。”

在亲自试用了新的 o1 模型并对文档进行分析之后,我虽然已经印象深刻,但还是存在一些相当大的问题。以下是我从这次发布中得出的关键要点,包括它是否确实是 OpenAI 期待已久的重大进步:

OpenAI 的 o1 模型在处理您的查询时会写出它的思维过程,展示在给出答案之前如何“思考”问题。我让可用的最强大的 o1-preview 模型创作一首 14 行的诗,每行的首字母拼出我的名字,并在每个句子的首字母拼出一个国家的名字。该模型“思考”了 59 秒钟,轻松处理了一些内容,但为寻找以我名字中的“X”开头的国家而努力。最终,它意识到那部分无法令人满意地回答,但其余的诗写得不错。“一颗独特的星星在秋天闪耀地旅行,”它开头用了 Alex 中的“A”,并在这一行拼出了奥地利。我给 Anthropic 的 Claude 同样的提示,它失败了。

o1 模型处理这些多步骤、复杂任务的能力表明 OpenAI 再次推动了人工智能的技术水准,但这种进步的程度仍需要一些时间来确定。尽管 o1 在编码、数学和科学方面超过了现有的基准,但在其他情形下,其“思维链”可能让人感觉像是个小把戏。在最好的情况下,o1 是通往可能更重大事物的一步。

这些新模型可能会在公众对人工智能的看法上造成分歧。把人工智能用于写作、编辑和营销任务的人或许会感到失望。但把它用于编码、数学和科学研究的人则会感到兴奋。在 OpenAI 的测试中,使用 o1 来写作的人实际上对它的喜爱程度要低于 GPT-4o。但那些将其用于数学计算、数据分析和计算机编程的人则明显更喜欢它。

“因此,鉴于他们的主观经验,撰写有关这项技术的‘文字工作者’可能对它的评价更负面,而在最佳用例中使用它的‘数学工作者’则看到了它的全部能力。这可能会致使对该技术的负面看法超出其应有的程度,这是 OpenAI 朝着1500 亿美元估值迈进时值得关注的事情。

要想最大限度地利用推理模型,您可能得给它们分配工作,而不是与它们聊天。Spellbook(一款人工智能法律助手)的首席执行官斯科特·史蒂文森(Scott Stevenson)表示,该机器人擅长接收一长串指令,并利用这些指令修改法律文件。“当人们对 o1 感到失望时,我认为这是因为他们仍将其视为聊天,”史蒂文森说。“它的工作能力将会非常出色。”

如果这在您看来像是朝着人工智能代理迈进的一步,对我来说也是如此。随着 OpenAI 对这项技术进行授权,公司不可避免地会尝试用它来构建人工智能代理。不过,尽管有这样的热议,所谓的“代理型人工智能”似乎还很遥远。

尽管有传言称,在包括首席科学家伊利亚·苏茨克维(Ilya Sutskever)在内的高层人员离职的情况下,该公司迷失了方向,但 OpenAI 表明它仍能推动人工智能的前沿发展。其次,OpenAI 把此次发布置于其他项目之前(比如:Sora 在哪儿?GPT-4o 语音呢?),这可能表明它找到了一些重点,并正在大力推进它所相信的方法。

山姆·奥特曼(Sam Altman)在 X 上对一位感到沮丧的用户的回应中也暗示了这一点。“先对天空中神奇的智能心怀几周的感激之情,怎么样?然后你很快就会有更多的玩具。”他写道。对于同时在做很多事情的 OpenAI 来说,一些重点是受欢迎的。而且这肯定比另一种解释要好,即 Sora 和 GPT-4o 语音可能正在失败。