七嘴八舌分不清谁讲话?Google靠AI分辨谁开口

▲Google 训练 AI 依据画面声音判断说话的人。(图/翻摄 Google)

记者黄肇祥综合报导

人类可以在吵杂的人群中,依据声音传来的方向辨别说话的人,但电脑可就没有这么厉害了,不过 Google 今天公开一项技术,让 AI 在混杂的影片中,分辨现在开口说话的对象,并且将每一个人的声音拆开成为独立音档,这项技术除了有望改善 YouTube 的字幕功能外,也能提升多人视讯对话品质

Google 借由一段表演秀演片展示研究成果,AI 会将声音元素视觉画面结合起来进行判断,简单来说,当影片中左边的人在进行对话时,他的嘴巴应该要产生对应的开阖动作,AI 借由捕捉肢体细节来判断现在说话的人物是谁,结着再透过隔离单一声音讯号并加强、其他声音降低,完成独立单一音源工作

除了展示隔绝声音的技术外,Google 实际示范 AI 与 YouTube 目前的自动字幕的互动状况,从上面的影片中我们可以发现,第一段没有运用 AI 将声音区隔的字幕是无法阅读理解意思的,两个人的话都被同时收录在字幕之中组成意义不明的句子,若能将音源拆开来进行字幕分辨,这项技术未来有机会帮 YouTube 添加双轨道的字幕显示。

Google 特别提到,他们认为这项功能在视讯会议上能有所贡献,期望技术能广泛运用在 Google 各项产品之中。若依据 Google 的论述,Hangouts、Duo 是有可能使用这项技术的产品名单,在七嘴八舌的视讯会议中,借由 AI 强化说话者的音量并隔绝杂音,会带来更好的服务体验