人工智能如何破解“鸡尾酒会问题”?

在嘈杂环境中难以跟上对话的人可能很快就能得到人工智能的帮助,此前,一项技术突破宣称已解决了“鸡尾酒会问题”。

这种现象描述了人们是如何能够过滤掉背景噪音的,比如聚会中的闲聊,从而专注于某一特定声音或说话者。长期以来,科学家们一直为人类大脑如何做到这一点而感到困惑,这致使Tech Crunch将其称作“语音技术达到与人类相当的理解水平的最大障碍之一”。

该网站称,语音技术是一个持续增长的市场,预计到明年将达到 268 亿美元(204 亿英镑)。然而,它们在设计上并没有应对现实生活中的“混乱”或“刺耳的声音”,特别是那些会“模糊”它们所接收信号的背景和环境噪音。Tech Crunch 表示,解决此问题的唯一办法是找到一种办法,使语音技术像人类听觉系统一样出色。

据 i 新闻 网站报道,不只是科学家一直在努力对抗背景噪音——越来越多的人存在鸡尾酒会问题。它补充道,尤其是 1997 年至 2012 年出生的人,也就是所谓的 Z 世代,在嘈杂环境中难以听清对话。一项调查发现,这一群体中有 11.5%的人“总是”出现这种情况,而 25 至 34 岁的人中只有 8%,55 岁以上的人中只有 7.4%。

研究人员认为,年轻受访者更多地使用耳机是造成这种差异的“关键原因”。

英国广播公司(BBC)表示,除了在社交场合造成困难外,鸡尾酒会问题还具有法律影响。如果听众无法完全确定谁在说话以及说了什么,技术无法滤除背景噪音,这可能会影响法律案件中的音频证据。

美国 Wave Sciences 公司的电气工程师基思·麦克尔文,他是该公司的创始人兼首席技术官告诉该广播公司,这是“声学中经典的难题之一”。

麦克尔维恩最初是在为美国政府工作,调查一起可能的战争罪行时产生兴趣的。“一些证据包括一堆声音同时说话的录音——就在那时,我了解到了‘鸡尾酒会问题’是什么,”他说。

问题在于声音在房间中反弹,使得分离出特定的噪音“从数学角度而言极难解决”。他想到了使用人工智能根据声音在房间中的起源“精确定位并筛选出”背景声音和环境噪音的主意。

Wave Sciences 的研究人员花了 10 年的测试时间“终于”创建了一个人工智能系统,该系统能够分析声音在到达耳朵或麦克风之前在房间内的反弹情况。其结果类似于相机聚焦于一个物体并将其余图像模糊处理。

这项技术在美国的一个法庭案件中接受了测试,把一段音频记录变成了“关键证据”,现在正被军方使用。英国广播公司补充道,未来其用途或许会包括智能音箱和助听器设备。