中时专栏:李学文》当Siri听得懂台式英语
上周搭电梯时,撞见两位外籍路人聊天,表情极其生动又手舞足蹈,侧耳一听,这语言感觉熟悉又带点陌生,一问朋友,朋友说那应该是菲律宾人在说英文。确实,同一个语言因为不同国家、民族发音习惯的不同,听者也会感受到许多差异,这让人不禁好奇,近几年很红的语音辨识人工智慧不知道碰到口音很重的外国人,会不会也辨识到自己生闷气呀?
语音辨识的历史,最早可以追溯到1920年代的玩具狗Radio Rex,只要喊它的名字,它就会从小房子里弹出来,随后能够互动的语音声控洋娃娃等等声控副产品逐渐问世,并到21世纪大放异彩。智能语音助理Amazon的Alexa、apple的Siri和Google的Assistant是人机互动的相关品牌。只是,口音似乎给语音辨识系统的成长带来很大的挑战。以英文辨识来说,对母语非英文的外国人而言,讲英文会受到母语发音习惯影响,从而产生中文腔、欧洲腔、印度腔。这种不同口音所带来的异国魅力,对于人们来说,可能十分有趣,但是对于机器而言,可能就不是那么一回事了。
据了解,由于目前规模较大的语音助理开发商大多集中在美国矽谷,因此也让口音的语音辨识蒙上一层因国籍不同而产生的社会地位偏见阴影。Kaggle 数据科学家 Rachael Tatman在接受《华尔街日报》采访时就曾说:「这些系统最适合白人,尤其是来自西岸受过高等教育的中产阶级美国人,因为打从一开始他们就是使用该技术的群体。」
口音辨识训练跟一般人工智能训练模型一样,都需要很大的资料库反复训练,才能达到高辨识率。因此,若使用者不到一定数量,针对特定口音辨识的开发训练就难符合商业成本,但只为使用频率最高的口音群体开发,满足了商业利益,却又蒙上歧视的阴影,也是难取舍。
为了服务自己国家,今年8月英国BBC和微软合作,开发了一套听得懂英式口音的语音助理Beeb,不只辨识能力佳,还会说英式笑话。英国虽然领土范围不算大,但不同口音的人口密度相当高,只是,这个被刻意打造出迎合英式生态系的语音辨识系统Beeb,并无意走进全球市场,只为了服务自己的用户。
受新冠疫情影响,医疗型的语音辨识也是大放异彩。在台湾,最新的医护版Siri在今年8月由纬创医学开发落地,医院语音辨识最困难的是医护人员沟通时常常夹杂中英文,这款医护语音辨识系统能同时辨识中文与英文,打破一般系统一次只能辨识一种语言的限制,最特别的是这套医护版Siri还能听得懂台式英文。只不过,这些都是非商业用途的特定目的产品,现阶段无法让普世都受用。
简言之,语音辨识的发展若没有因地制宜提高辨识率,按照地域特色打造多重标准,似乎难以满足地球村的所有居民们,但若一村一族都不放过的去收集资料,又和市场效益相悖,这的确是个两难问题。
此外,任何科技产品开发若完全以技术本位思考,很容易陷入一个迷思,就是好还要更好,永远地追求精益求精,改善缺陷,而忽略评估市场接受度、落地可能性。一个很棒的产品,方便、美观又易上手,但售价高昂,不是人人负担得起,市场就小,开发成本难以回收,也难以成为大众都接受的成功商品,就如同日本东陶公司设计的未来马桶,无论功能如何迷人,一个要价新台币33万元,让潜在的消费者望之却步。
我个人认为,语音辨识说到底就是一个技术而已,除了上述受众多寡与种族歧视等问题,能否与下游的应用有更多的连动,人机沟通的介面是否够人性化,使其完全融入个人的实体生活中,也是一个挑战。举例来说,现有的手机语音辨识让我们呼叫一声就能打电话、切换歌曲、上网浏览各式资料,不擅长用手机的长辈除了手写,语音辨识打字也是聊天的小帮手;导航系统的语音助理能减缓开车时更改目的地不易的缺点,也提高行车安全性等等,这些听起来都十分实用,只是,这些应用的使用频率够高吗?使用过程中出错率小吗?这些问题都会决定语音辨识技术是否真正能落实到我们的生活中。 (作者为科技媒体专栏作家)