OpenAI 的 Whisper 模型在高危情境竟现“幻觉”

据一份新的报告显示,研究人员发现,OpenAI 的音频驱动转录工具 Whisper 会编造从未说过的内容,可能会产生危险的后果。

据APNews的报道,该人工智能模型正在编造文本(通常被称为“幻觉”),大型语言模型发现自身训练材料中不存在的模式,从而产生出无意义的输出。美国研究人员发现,Whisper 的错误可能包括种族评论、暴力和虚构的医疗治疗。

Whisper 与 ChatGPT 的某些版本相集成,并且是微软和甲骨文云计算平台的内置服务/功能。微软宣称,该工具并非用于高风险的场景/情况,不过医疗保健提供者正开始采用该工具来转录患者与医生的咨询。

Whisper 的制造商宣称其具有“近乎人类水平的稳健性和准确性”,并且据称已被 40 个医疗系统中的 3 万多名美国临床医生所采用。然而,研究人员警告不要采用它,因为在不同的研究中发现了问题。

在一项关于公开会议的研究中,密歇根大学的一名研究人员发现,在检查的每 10 个音频转录里,有 8 个出现了 Whisper 的幻觉。同时,一名机器学习工程师在超过 100 小时的转录中发现约一半存在幻觉,第三位开发人员在他利用 Whisper 创建的 26000 个转录中,几乎在每一个里都发现了幻觉。

在过去的一个月里,Whisper 从开源人工智能平台 HuggingFace 被下载了超过 420 万次,该工具是这个网站上最受欢迎的语音识别模型。研究人员通过对卡内基梅隆大学主办的存储库 TalkBank 的材料进行分析,确定 Whisper 产生的 40%的幻觉有可能是有害的,因为说话者被“误解或歪曲”。

在美联社的此类片段示例中,一位发言者描述了“另外两个女孩和一位女士”的情况,而 Whisper 编造出了关于种族的评论,指出“另外两个女孩和一位女士,嗯,她们是黑人”。在另一个例子中,该工具创造出了一种虚构的药物,叫做“超活化抗生素”。

普林斯顿大学教授阿隆德拉·尼尔森告诉美联社,像这类已发现的错误可能会产生“非常严重的后果”,尤其是在医疗保健环境中,因为“没有人希望被误诊”。

有人呼吁 OpenAI 解决这个问题,前员工威廉·桑德斯告诉美联社,“如果你把这个技术/产品推出来,而人们对其功能过于自信,并将其整合到所有其他系统中,这是有问题的。”

虽然许多用户预计人工智能工具会犯错或拼写错误,但研究人员发现,其他程序出错的概率跟 Whisper 一样高。

谷歌的人工智能概述 在今年早些时候遭到了批评,当时它建议使用无毒胶水防止奶酪从披萨上掉下来,并引用了 Reddit 上的一条讽刺评论作为来源。

苹果首席执行官蒂姆·库克 在一次采访中承认 ,人工智能产生幻觉的情况可能会成为未来产品的一个问题,包括 苹果智能套件 。库克告诉《华盛顿邮报》,他对于这些工具是否可能产生幻觉的信心并非十足。

“我认为我们已经做了我们所知的一切,包括深入思考我们所使用的技术在相关领域的完备程度,”库克说。

尽管如此,公司仍在推进人工智能工具和程序的开发,类似于 Whisper 所出现的幻觉仍然是一个普遍存在的问题。至于 OpenAI 针对幻觉的回应,它建议不要在“决策环境中使用 Whisper,在这种环境中,准确性方面的缺陷可能会致使结果出现明显的缺陷”。