OpenAI 最新 GPT-4o 模型竟具“中等”风险

OpenAI 已经发布了它的GPT-4o 系统卡,这是一份研究文件,其中概述了这家初创公司在推出其最新模型之前所采取的安全措施和进行的风险评估。

GPT-4o 在今年 5 月被公开推出。在首次亮相之前,OpenAI 使用了一个外部的红队小组,即试图在系统中寻找弱点的安全专家,来发现模型中的关键风险(这是一种相当标准的做法)。他们检查了诸如 GPT-4o 可能创建某人未经授权的语音克隆、色情和暴力内容,或者大量复制受版权保护的音频之类的风险。现在,结果正在公布。

根据 OpenAI 自己的框架,研究人员发现 GPT-4o 具有“中等”风险。总体风险水平由四个总体类别中的最高风险评级得出:网络安全、生物威胁、说服力和模型自主性。除了说服力之外,所有这些都被认为是低风险,研究人员发现 GPT-4o 的一些写作样本在影响读者意见这方面可能比人类撰写的文本更优秀——尽管该模型的样本总体上并非更具说服力。

OpenAI 的发言人 Lindsay McCallum Rémy 告诉《The Verge》,该系统卡包含由内部团队所创建的准备情况评估,还有在 OpenAI 网站上列出的外部测试人员,即模型评估和威胁研究(METR)以及阿波罗研究,这两者均为人工智能系统构建评估。

这并非 OpenAI 首次发布系统卡;GPT-4、具有视觉功能的 GPT-4和DALL-E 3也进行了类似的测试,相关研究也已发布。但 OpenAI 此次在关键时刻发布这张系统卡。该公司一直受到来自各方针对其安全标准的持续批评,从其自身员工到州参议员。就在 GPT-4o 系统卡发布前几分钟,《The Verge》独家报道了参议员伊丽莎白·沃伦(马萨诸塞州民主党人)和众议员洛里·特拉汉(马萨诸塞州民主党人)的一封公开信,信中要求 OpenAI 就如何处理举报人及安全审查给出答案。那封信罗列了许多已被公开指出的安全问题,包括首席执行官山姆·奥特曼(Sam Altman)在 2023 年因董事会的担忧被短暂驱逐出公司以及一位安全主管的离职,该主管称“安全文化和流程已让位于光鲜的产品。”

再者,该公司在美国总统大选前夕发布了一个能力很强的多模态模型。存在着明显的潜在风险在于,该模型可能会意外传播错误信息或遭到恶意行为者的劫持——即使 OpenAI 希望着重指出该公司正在测试真实场景以防止滥用。

一直以来,要求 OpenAI 提高透明度的呼声不断,不仅是关于模型的训练数据(它是在 YouTube 上训练的吗?),还涉及到其安全测试。在加利福尼亚州,OpenAI 和许多其他领先的人工智能实验室都设在此处,州参议员斯科特·维纳(Scott Wiener)正在努力推动一项用于规范大型语言模型的法案,包括若其人工智能被用于有害方式,将追究公司法律责任的限制条款。如果该法案获得通过,OpenAI 的前沿模型在向公众提供使用之前,必须遵循州政府规定的风险评估要求。但从 GPT-4o 系统卡中得出的最重要的一点是,尽管有外部的红队和测试人员团队,但很多这方面的工作仍依赖于 OpenAI 进行自我评估。