☰

OpenAI 的 Whisper 模型在高危情境竟现“幻觉”

据一份新的报告显示，研究人员发现，OpenAI 的音频驱动转录工具 Whisper 会编造从未说过的内容，可能会产生危险的后果。

据APNews的报道，该人工智能模型正在编造文本（通常被称为“幻觉”），大型语言模型发现自身训练材料中不存在的模式，从而产生出无意义的输出。美国研究人员发现，Whisper 的错误可能包括种族评论、暴力和虚构的医疗治疗。

Whisper 与 ChatGPT 的某些版本相集成，并且是微软和甲骨文云计算平台的内置服务/功能。微软宣称，该工具并非用于高风险的场景/情况，不过医疗保健提供者正开始采用该工具来转录患者与医生的咨询。

Whisper 的制造商宣称其具有“近乎人类水平的稳健性和准确性”，并且据称已被 40 个医疗系统中的 3 万多名美国临床医生所采用。然而，研究人员警告不要采用它，因为在不同的研究中发现了问题。

在一项关于公开会议的研究中，密歇根大学的一名研究人员发现，在检查的每 10 个音频转录里，有 8 个出现了 Whisper 的幻觉。同时，一名机器学习工程师在超过 100 小时的转录中发现约一半存在幻觉，第三位开发人员在他利用 Whisper 创建的 26000 个转录中，几乎在每一个里都发现了幻觉。

在过去的一个月里，Whisper 从开源人工智能平台 HuggingFace 被下载了超过 420 万次，该工具是这个网站上最受欢迎的语音识别模型。研究人员通过对卡内基梅隆大学主办的存储库 TalkBank 的材料进行分析，确定 Whisper 产生的 40%的幻觉有可能是有害的，因为说话者被“误解或歪曲”。

在美联社的此类片段示例中，一位发言者描述了“另外两个女孩和一位女士”的情况，而 Whisper 编造出了关于种族的评论，指出“另外两个女孩和一位女士，嗯，她们是黑人”。在另一个例子中，该工具创造出了一种虚构的药物，叫做“超活化抗生素”。

普林斯顿大学教授阿隆德拉·尼尔森告诉美联社，像这类已发现的错误可能会产生“非常严重的后果”，尤其是在医疗保健环境中，因为“没有人希望被误诊”。

有人呼吁 OpenAI 解决这个问题，前员工威廉·桑德斯告诉美联社，“如果你把这个技术/产品推出来，而人们对其功能过于自信，并将其整合到所有其他系统中，这是有问题的。”

虽然许多用户预计人工智能工具会犯错或拼写错误，但研究人员发现，其他程序出错的概率跟 Whisper 一样高。

谷歌的人工智能概述在今年早些时候遭到了批评，当时它建议使用无毒胶水防止奶酪从披萨上掉下来，并引用了 Reddit 上的一条讽刺评论作为来源。

苹果首席执行官蒂姆·库克在一次采访中承认，人工智能产生幻觉的情况可能会成为未来产品的一个问题，包括苹果智能套件。库克告诉《华盛顿邮报》，他对于这些工具是否可能产生幻觉的信心并非十足。

“我认为我们已经做了我们所知的一切，包括深入思考我们所使用的技术在相关领域的完备程度，”库克说。

尽管如此，公司仍在推进人工智能工具和程序的开发，类似于 Whisper 所出现的幻觉仍然是一个普遍存在的问题。至于 OpenAI 针对幻觉的回应，它建议不要在“决策环境中使用 Whisper，在这种环境中，准确性方面的缺陷可能会致使结果出现明显的缺陷”。

OpenAI 的 Whisper 模型在高危情境竟现“幻觉”

相关资讯