人工智能巧解法庭“鸡尾酒会问题”有妙方

这是长期存在的“鸡尾酒会问题”——站在满是人的房间里,手里拿着饮料,试图听清你的同伴在说什么。

事实上,人类非常擅长在过滤掉其他干扰声音的同时与一个人进行交流。

然而,也许令人惊讶的是,直到最近,技术还无法复制这种技能。

而这在法庭案件中运用音频证据时至关重要。背景中的声音可能会让人难以确定是谁在说话以及说了什么,这可能会使录音毫无用处。

Wave Sciences 的创始人兼首席技术官——电气工程师基思·麦克尔文(Keith McElveen)在为美国政府处理一起战争罪行案件时对这个问题产生了兴趣。

“我们当时试图弄明白是谁下令屠杀平民。一些证据包含一堆声音同时发声的录音——就在那时我知晓了什么是‘鸡尾酒会问题’,”他说。

“我已经成功地把像汽车声、空调声或风扇声这类噪音从讲话中去除掉了,但当我开始试图从讲话中去除讲话时,结果不仅是一个非常困难的问题,而且是声学中经典的难题之一。

“声音在房间里来回反弹,从数学角度来讲,很难解决。”

他说,答案是运用人工智能,依据声音最初在房间里的出处,尝试找出并筛除所有干扰声音。

这不仅指可能正在说话的其他人

房间中声音的反射方式也会造成大量干扰,目标说话者的声音会被直接和间接地听到

在一个完美的消声室——完全没有回声的那种——每个说话者配备一个麦克风就足以拾取其所说的内容

但在真实的房间里,这个问题则需要为每个反射声都配备一个麦克风

麦克尔文先生于 2009 年创立了 Wave Sciences 公司,旨在开发一种能够分离重叠声音的技术

最初,该公司在所谓的阵列波束成形技术中使用了大量麦克风

然而,潜在商业伙伴反馈称,该系统在许多情况下需要的麦克风太多,成本过高,无法取得良好效果

麦克尔文先生说:“常见的说法是,如果我们能想出一个解决这些问题的方案,他们会非常感兴趣。”

而且,他补充说:“我们知道一定有解决方案,因为你用两只耳朵就能做到。”

经过 10 年的内部资助研究,该公司总算解决了这个问题,并于 2019 年 9 月提交了专利申请。

他们想出的是一种人工智能,其能够分析声音在到达麦克风或耳朵之前于房间内的反弹方式。

“我们在声音到达每个麦克风时进行捕捉,回溯以查明其来源,然后,实质上,我们抑制任何不可能来自该人所在位置的声音,”麦克尔文先生说。

在某些方面,这种效果类似于相机聚焦于一个主题,同时模糊前景和背景。

“当您只能借助非常嘈杂的录音来学习时,结果听起来不是非常清晰,但仍然令人惊叹。”

该技术首次在现实世界中的一起美国谋杀案中用于法医领域,它能够提供的证据被证明是定罪的关键。

两名杀手因杀害一名男子被捕后,联邦调查局想要证明他们是受一个正在处理子女监护权纠纷的家庭雇佣的。联邦调查局安排诱骗该家庭相信他们因参与而被勒索——然后坐等观察反应。

虽然联邦调查局获取短信和电话相对较为容易,但在两家餐厅的面对面会面则是另一回事。但法院授权使用 Wave Sciences 的这一算法,这意味着音频从不可受理变成了关键证据。

自那以后,包括英国在内的其他政府实验室对其开展了一系列测试。该公司当下正在向美国军方推销此项技术,美国军方已使用它来分析声纳信号。

麦克尔文先生说,它还可以应用于人质谈判和自杀场景,以确保可以听到对话的双方——而不仅仅是拿着扩音器的谈判者。

去年年末,该公司推出了一款运用其学习算法的软件应用程序,供政府实验室用于音频取证及声学分析。

最终,其目标在于推出针对音频录制套件、汽车语音接口、智能音箱、增强和虚拟现实、声纳以及助听器设备的定制产品版本。

所以,比如说,如果您跟您的汽车或者智能音箱交流,即便您周围噪声很多,该设备依然能够听清您说的话。

据法医科学学院的法医教育家特丽·阿门塔(Terri Armenta)所言,人工智能在其他法医领域也已得到应用。

“机器学习[ML]模型通过分析语音模式来确定说话者的身份,这一过程在需要对语音证据进行认证的刑事调查中尤为有用,”她说道。

“另外,人工智能工具能够检测音频记录中的操纵或改动,保证在法庭上出示的证据的完整性。”

而且,人工智能也已涉足音频分析的其他方面。

博世有一种叫做 SoundSee 的技术,它运用音频信号处理算法来分析,比如,电机的声音,从而在故障发生前进行预测。

“传统的音频信号处理能力缺乏像我们人类那样理解声音的能力,”博世美国公司的研究和技术总监萨马尔吉特·达斯博士说。

“音频人工智能能够比以往任何时候都更深入地理解和语义解释我们周围事物的声音——例如,环境声音或机器发出的声音提示。”

最近对 Wave Sciences 算法的测试表明,即使只有两个麦克风,该技术的表现也能与人类耳朵一样好——当添加更多麦克风时,表现甚至更好。

而且它们还揭示了一些别的东西。

“在我们所有的测试中,得出的数学结果显示与人类听力有显著的相似性。”

“我们怀疑人类大脑可能在运用相同的数学——在解决鸡尾酒会问题时,我们或许偶然发现了大脑中真正发生的情况。”