☰

七嘴八舌分不清谁讲话？Google靠AI分辨谁开口

▲Google 训练 AI 依据画面和声音判断说话的人。（图／翻摄 Google）

人类可以在吵杂的人群中，依据声音传来的方向辨别说话的人，但电脑可就没有这么厉害了，不过 Google 今天公开一项技术，让 AI 在混杂的影片中，分辨现在开口说话的对象，并且将每一个人的声音拆开成为独立音档，这项技术除了有望改善 YouTube 的字幕功能外，也能提升多人视讯对话的品质。

Google 借由一段表演秀演片展示研究成果，AI 会将声音元素与视觉画面结合起来进行判断，简单来说，当影片中左边的人在进行对话时，他的嘴巴应该要产生对应的开阖动作，AI 借由捕捉肢体细节来判断现在说话的人物是谁，结着再透过隔离单一声音讯号并加强、其他声音降低，完成独立单一音源的工作。

除了展示隔绝声音的技术外，Google 实际示范 AI 与 YouTube 目前的自动字幕的互动状况，从上面的影片中我们可以发现，第一段没有运用 AI 将声音区隔的字幕是无法阅读理解意思的，两个人的话都被同时收录在字幕之中组成意义不明的句子，若能将音源拆开来进行字幕分辨，这项技术未来有机会帮 YouTube 添加双轨道的字幕显示。

Google 特别提到，他们认为这项功能在视讯会议上能有所贡献，期望技术能广泛运用在 Google 各项产品之中。若依据 Google 的论述，Hangouts、Duo 是有可能使用这项技术的产品名单，在七嘴八舌的视讯会议中，借由 AI 强化说话者的音量并隔绝杂音，会带来更好的服务体验。

七嘴八舌分不清谁讲话？Google靠AI分辨谁开口

相关资讯