OpenAI新ChatGPT o1模型竟在测试中作弊?

流行文化中充满了不循规蹈矩的可爱无赖。汉·索罗、杰克·斯派洛之类的人物在情况艰难时并不害怕打破规则——但有一个人工智能模型已经变得像柯克那样完全不守规则了

也许是受到了《星际迷航》中船长于小林丸号事件里违规表现的启发——这是科幻宇宙中的一个必输场景,旨在测试星际舰队学院学生在面对不可能的情况时的性格。詹姆斯·T·柯克(James T Kirk)因‘作弊’出了名地通过了测试,成为第一个通过的人。

OpenAI 的 o1 模型在一项关键技术离线之后,意识到它正在进行的测试存在缺陷,所以它改变了测试规则,而不是放弃。

o1 的系统卡可在 此处查看,OpenAI 称,该模型的推理技能有助于它既有用又安全。“违规”行为是在预发布测试中被检测到的,并且已采取了缓解措施。它已在 ChatGPT 中可用,不过每周有 30 条消息的严格限制。

“我们的发现表明,o1 的高级推理能通过让模型更能抵御生成有害内容来提高安全性,因为它能够依据上下文来推理我们的安全规则,并更有效地加以应用。”引言解释说

据 OpenAI 研究员马克斯·施瓦泽所说,该模型能够弄明白为何无法连接到其正在使用的同一封闭系统中的容器,并且基本上违反了测试规则,无论如何也要访问它。

这自然而然地引发了一些问题,并且 OpenAI 发布了一篇关于“使用大型语言模型学习推理”的博客文章,这或许并非它所期望的能鼓舞信心的指导。

然而,该博客确实展示了该模型在人类考试和机器学习基准的“绝大多数”任务中表现比 GPT-4o 好,特别是在数学任务方面。

这至少在理论上能够使它在推理中应用更多的数字背景,并且 OpenAI 已经承诺未来会持续推出 o1 的新版本。

“我们预计这些新的推理能力将提高我们让模型符合人类价值观和原则的能力,”结论写道。

“我们相信 o1——及其后续产品——将为人工智能在科学、编码、数学和相关领域解锁许多新的应用场景。我们希望用户和 API 开发者发现它如何改善他们的日常工作。”