Google Assistant发展AI中文语音的五大痛点公开、抵台时间敬请期待

▲Google Assistant 中文研究员宋云轩。(图/记者洪圣壹摄)

记者洪圣壹/美国旧金山报导

关于 Google Assistant 支援繁体中文这方面,《ETtoday新闻云》在多次媒体场合都曾发问过相同的问题:「Google Assistant什么时候支援繁体中文」,这一次,Google Assistant 中文研究员宋云轩向台湾媒体一口气说明了,究竟对智慧语音学习来说,中文为什么堪称全世界最难懂的语言之一,而对老外来说,Google Assistant 发展繁体中文为什么会这么难、这么慢。

这次访谈过程中,Google Assistant 中文研究员宋云轩并未回应有关 Google Assistant 的开发团队详细状况,包括最新开发进度、繁体中文开发进度,以及开发团队人数等等。倒是针对 Google 如何完成「声音辨识」以及如何回应人类需求,做了一点浅显易懂的说明。

Google Assistant 中文研究员宋云轩表示,人与人之间的交流,最简单的方式就是用声音来讲话,或者用文字形式来传达。而 Google 发展人工智慧语音助理的想法,是希望让语音助理「像人一样对话」,其中最重要的任务就是要组织全世界的资讯,让使用者都能够简单的完成任务,为了达成这个任务,第一个问题就是要处理声音资讯。第二个问题当然是要让助理们如何正确、成功达成用户的需求。

声音

目前 Google 针对语音、语言处理技术,包括语音辨识跟语音合成,其中在语音辨识方面,像是 2019 年 Google 推出 Voice Search,让用户启用语音,就能够成功辨识成文字,现在透过语音辨识可以直接在虚拟键盘上启用来撰写文字,可以借此协助用户撰写文章、email、短讯息等等。另外,这几年最知名的就是 Triggering,这项技术主要是用来区别指令的一个动作,好比说发展 Google Assistant 所使用的「OK,Google」、「Hey,Google」。

而针对语音合成这方面,碰到的问题是如何将文字转换成声音,而今年 I/O 针对 Google Assistant 额外推出 6 种声音来丰富其表现,其实背后解决的问题相当多,其中一个就是如何在庞大的语音资料库当中,寻找跟这些声音相同的意思组合在一起,并让消费者得到一致性的人工智慧语音体验,近年来更热门的趋势就是深度学习,透过相关模组来合成声音。

语言处理

在语言处理这方面,第一个就是语意分析,大致上的意义就是把一段文字转成树状结构,从结构当中让机器判断什么是主词、什么是动词,现在的做法是把文字转成一连串的数字,用数字来比对声音的意思,从而提升机器学习的效率。

另外,为了让机器「听得懂人话」,针对句子当中重要的资讯,则必须要另外开发分析模组,像是透过 Dependcy Parsing 来分析整个句子包括动词、受词时间、地点的意义,另外还有透过 Named entrity recognition 分析人名、地名等资讯等等。

自然语言处理

在分析完整个语音、语言之后,接下来一个重要的动作就是自然语言处理。举例来说:「台北天气如何?」在 Google Assistant 来说,它就会判断出用户要问的是「台北天气」,然后再从 Google 资料库当中,找到台北的天气,然后根据这些资讯的解答,转换成一个用户听得懂的自然语言句子,这在 Google Assistant 里面,就成了一个重要的技术。

自动翻译

接下来进入这次要探讨的环节:「Machine Translation」。当 Google 已经辨识了声音、了解这个声音的内容、然后从 Google 资料库转成自然语言,接着碰到的问题就是翻译成各种当地的语言,由于这是一个庞大的专案内容,因此 Google 后来发展了一个叫做「自然语言翻译」的技术,这包括网页、行动等不同平台装置支援。

如今,透过 Google 搜寻功能,可以进行即时的语音搜寻,透过Google Assistant 除了关键字之外,可以用自然语言跟 Google 交谈,透过 Google Home 也可以与智慧装置对话。甚至透过即时的翻译功能,用户在耳机当中听到的英文,会自动翻译成中文。

简而言之,对于所谓的人工智慧语音功能,其背后要面对的技术挑战相当多,不过 Google 目前已经完成的是可以正确的反馈人类需求,当使用者提供声音进去时,会进行一个语音辨识,接着会进行语意分析,在了解是什么需求的时候,再把这些使用者要的资讯,提供相对应的自然语言回应。

接下来 Google 面对的最大挑战,其实是要把这些自然语言回应,以在地的方式,推送到全球每个地区,最新进度就是今年 Google I/O 宣布的提升到支援 30 种语言、推送到全球 80 个国家。

其中,针对繁体中文这方面,宋云轩提到了下述几个挑战:

第一个是「断词

相较于英文,不同字跟词的意义是可以组合的,然而因为人类大脑在看一个字可以联想出很多意义,因此即使是同一个字也会有不同的意思,不过在中文方面,就连「断句」本身,也有不同的意思,好比说「我们在野生动物园玩」这句话,对于机器来说,可能是「我们 在 野生动物园 玩」、也可能是「我们 在野 生动 物 园 玩」,人脑在判断字句的时候,很自然地知道哪句话是有意义的,但是对机器来说就是一个挑战,另外还有逗号句号的语意分析的问题,因此 Google 必须要针对断句的语意来分析、判别,借此了解句子本身的意义。

第二个是「句子结构」

相较于英文,中文的句子结构其实比较没那么严谨,像是「苹果一个多少钱」,「一个苹果多少钱」,就英文来说都是"How much is one Apple",但是「他昨天很晚睡」、「他昨天睡很晚」,直翻英文都是一样,但是中文的意义不同,人类会自动依照意思翻成不同的英文,对机器来说就是一个挑战。

第三个是「认知」

在中文来说,一个字句可以产生很不同的变化,好比说问一个人单身的原因,这个人可能直接回答「原来喜欢一个人,现在还是喜欢一个人」。在这句子当中的「一个人」背后代表的意义都不同,但是对于机器判断来说,这两个「一个人」都是 One Person,而不会去联想到单身,要判别上就有难度。

第四个是「声调」(Tonal Languages)

不同的声调,就要做出不同的处理,繁体中文有四个声调,像是「老师我想问你」跟「老师我想吻你」,像是「我要水饺」跟「我要睡觉」,都是完全不一样的意思,但差别仅在声调。

第五个是「方言」(Accent 跟 Dialect)

台湾其实有不同的在地方言,像是台语客家话原住民语言,人们因为使用习惯,不同语言会作切换,好比说「五星级」、「有省钱(台语)」只是发音相同,但是意思却是完全不同。

▲透过Google Assistant可以启用搜寻并且透过 Google Pay 购物订餐,过程中如果发生语音、语意、声调理解错误,那可能就会产生不必要的客诉问题。(图/记者洪圣壹摄)

宋云轩表示,为了让机器更了解中文,透过深度学习跟机器学习是近期最经常使用的技术,传统的做法是去做句子结构的分析,但这个做法不仅费工耗时、而且容易发生错误,现在透过深度学习的技术,把每个句子转换成一列串的数字,如果有相同的意思,在 3D 的图形就会出现接近的距离,借此去了解、判断一个字句的意思。

至于繁体中文的形式也是相同,Google 透过各种不同对话资料比对,来去了解是什么意思,并且专为繁体中文写一个机器学习的模组,比方说让中文在句子结构的辨识上,使用中文字句跟英文字句配对,结果出现有明显的进步,尤其对亚洲语言更有帮助。另外一个是透过深度学习去学习声音的序号,对比以前把声音转换成特征然后再去辨识的做法,发现有效提升 15~20%。

宋云轩指出,Google 透过深度学习来解析句子、透过机器学习来判别一句话的意思,让中文语音出现进展,当然最新的Duplex 技术这种实验性的计划,在英文得到验证之后,未来也可以加入其他语言。

至于繁体中文解决之后,进入中国、香港会不会有问题,答案是肯定的,宋云轩表示,诚如上述所解释,机器在辨识语意、字句切换成自然语言的同时,这中间还要能够辨识「方言」,有些方言可能夹杂的是当地口音,而这口音,不要说中国、香港、台湾会有所不同,就连台湾各地,都有不同的腔调,不过随着使用数据的提升,其实机器学习可以因为这些大量的数据,辨识方言。

从这次的访谈过程,可以感受到 Google Assistant 似乎已经克服了世界上最难的语言之一「繁体中文」,相信在台湾开放中文语音包的日子已经越来越近,这也正代表着整体台湾物联网发展将会呈现跳跃式的成长。

依照 Google I/O 2017 期间展示的应用(详见:Google Assistant 人工智慧助理满周岁,接下来你随时都会看到它 )好比说透过声控的形式在各种不同平台(手机电视、汽车、手表)开启、关闭家电,预约个人行程,拨打、接听电话,到了 Google I/O 2018,语音助理已经演化到更自然的人声,而且还可以帮忙订餐、购物,同时支援更多的装置。

记者实际在 Google Assistant 展区观看 IoT 产品的控制形式,也有了相当层度的提升,好比说对于农夫来说,现在透过 Google Assistant 可以控制光照强度,相关指令:像是「把灯光打开到 60%」。你在家里看电视,也不用再找遥控器上的录影选项,直接透过语音助理说一声即可,甚至要看家里的信箱里面有没有信,也可以用声控的方式解决,详见下方影片

▲直击Google I/O 2018 展示的最新 IoT 语音控制形式。(影片/记者洪圣壹摄)

这些都说明着全球各地的人类,将享受到全新的智慧语音生态系带来的更多科技便利,某种意义来说,台湾在这时候发展物联网,其实也不算晚,反而需要各界通力合作,迎向新科技带来的市场变化。

MWC 2017 期间,Google硬体资深副总裁Rick Osterloh 受访时指出,Google Assistant 是未来整个 Google 产品的核心应用。(详见:Google Assistant 开放更多手机使用,并将登上电视与汽车)这一点至今毋庸置疑,现在关于繁体中文版的进度也终于有了眉目,不过依照 Google 台湾的回应,实际上 Google Assistant 中文语音在台上线时间仍被保密着,只能说「敬请期待」了。

▲Google Assistant研发副总裁Scott Huffman公开年底前支援的 30 个语系与上线地区当中,台湾被绘制成蓝色的区域,正意味着繁体中文即将登台。(图/取自Google I/O 2018)