机器如何听懂我们说的话?

机器如何听懂我们说的话?(示意图/达志影像shutterstock提供)

◸完善的历史发展轨迹

人工智慧是近年来的科技发展趋势,本书以林守德教授开头介绍人工智慧的发展历史及其碰到的瓶颈,让读者了解:即使是现在大热门的人工智慧也经历过三次的寒冬。

◸先从基底打起!

以清晰图像图表整理,详细介绍AI的各个领域:支撑向量、资料探勘、自然语言处理及电脑视觉,以基础知识带领读者进入AI的世界

◸为什么要发展人工智慧?当然不是只为了下棋!

诗词.法律.资讯工程.社群网路电机工程.生医产业.音乐产业

本书以多个领域介绍AI的应用,让读者一窥各界翘楚分享的秘辛及知识,颠覆你对AI的认知!

【精彩书摘

讲师台湾大学电机工程学系副教授 李宏毅

汇整苏建

你有使用过手机语音助理服务吗?只要轻松地动动嘴巴,就能让手机言听计从,完成我们交付的任务。这个「出一张嘴」的过程之所以能够顺利进行,背后得牵涉到许多语音处理和自然语言处理的技术。本章将会说明如何才能让机器听懂人说话,一探背后工程的奥秘之处。

机器是怎么听懂人说话的?

要让机器听懂人说的话,首先我们需要让机器可以把听到的一段声音讯号变成文字, 也就是所谓的语音辨识(speech recognition)。有了这些由声音讯号辨识出来的文字不代表机器就已经理解了,对于机器来说这些文字就像是一个没有学过的语言,还需要透过学习才能够理解文字的内容

人类的文字世界是由一个个词汇组成的,这个事实体现在许多人开始学习英文或其他非母语语言的时候,大概都免不了的那段背单字过程;机器的学习也和我们一样,是从词汇的理解开始。在过去,我们需要像字典一样,逐一告诉机器词汇对应意义;现在基本上不再需要进行这项繁琐的工作,只要利用词汇嵌入(word embedding)的技术,机器就可以在阅读大量文本之后,将词汇转换成机器可以处理的向量,甚至利用向量推论出不同词汇之间的关系

举例来说,机器在阅读新闻时看到「马英九在520宣誓就职」和「蔡英文在520宣誓就职」这两个条目,虽然没有人告诉过机器「马英九」与「蔡英文」是什么意思,但是机器能以此推论出这两个词汇在某种程度上是相关的;又比如「猫」与「狗」在各类文章中出现的位置关联比较相近,和「花草树木」的位置关联则较远, 机器可能会推论出「猫狗」是一类(动物)、「花草树木」是另外一类(植物)。如果我们让机器「读」愈多的书,机器就愈能推敲不同词汇之间的远近关系,猜出它们代表的意思。

跟着乡民去凑热闹

传统的文本内容有文法及结构,在学习上比较有迹可循;而网路用语往往让人丈二金刚摸不着头脑,不仅内容随着时间千变万化又包含着各种缩写,词汇的意义也和该网路社群的文化有关。因此,机器是否能够理解网路用语并当一个合格的「乡民1 」,可以作为衡量机器学习能力的指标。

踢踢实业坊(简称批踢踢、PTT)的八卦版是国内知名的网路论坛之一,在经过八卦版3个月份量的文章洗礼之后,机器俨然已经脱离了「新警察2 」的角色。比如常见的用语「好棒棒」和「好棒」看似差不多,但其实在批踢踢用语里是恰恰相反的两个词汇。经过训练之后,当机器被问到「好棒棒」的相似词为何时,已经能给出「阿不就好棒棒」、「好清高」及「好高尚」等等的答案,从这个结果我们就可以知道,机器是真的理解这个词汇的用法,能够发现「好棒棒」在其表面的词意以外,其实具有反讽的意涵

有了这个功能之后,我们就可以利用机器去理解一些我们本来不熟悉的网路用语。比如说,「本鲁」这个词是批踢踢使用者在张贴文章、发表言论时,常使用的谦称,日常生活中几乎没有机会使用到,因此非论坛使用者通常对这个词比较不熟悉。透过询问训练完成的机器「本鲁」的相近用词是什么,我们可以得到「小弟」、「鲁妹」、「鲁弟」及「鲁蛇小弟」等答案,据此我们就能对「本鲁」的意义有所理解。

有了这样子的技术之后,机器在词汇理解之外,也能去进行一些较高层次的简单推理, 例如「A之于B等于C之于什么?」这类推论。比如说,当被问到「鲁夫之于《海贼王》等于鸣人之于什么?」机器可以推论出答案是《火影忍者》,这种角色和作品的对应关系;对于「鲁蛇之于loser等于温拿之于什么?」机器可以推论出答案是「winner」,这种语言转换的对应关系;对于「研究生之于期刊等于漫画家之于什么」,机器可以推论出答案是《少年Jump》,这种特定领域知识和发表平台的对应关系。

注1 泛称批踢踢的使用者。

注2 批踢踢对不熟悉论坛文化的新手使用者之代称。

让机器懂你的心

拥有理解不同词汇意义的能力之后,接下来我们很自然地会希望机器能理解整个句子的内容。怎么样去衡量机器是否能够达到这个任务呢?第一步,要交付给机器的任务就是情绪分析(sentiment analysis),机器必须要能够分析语句的情绪,判断内容的情绪是「正面的」还是「负面的」。这件事情可以透过递回神经网路模型的训练来达成,比如说:

·「AI is powerful, but it's hard to learn.」

·「AI is hard to learn, but it's powerful.」

·「AI is powerful, even though it's hard to learn.」

这几个句子的结构几乎相同,只有调动词语的顺序,或者字词上的轻微差别;但是经过训练的机器可以判断出这些句子的情绪分别是「负面的」、「正面的」、「正面的」。这个功能虽然只有简单的在「正面」、「负面」两种选择之间进行判断,却可以发展出生活化且相当实用的应用,比如说:现在网路上评价制度在使用者的评价以外还须附上分数;如果是游记、食记等心得体验文则以文章形式呈现。这类触及广大读者却不受统一评分制度限制的内容,也应当是业者需要搜集来作为改进参考的意见。当机器能够判断情绪,在未来我们就可以应用到市场的调查上,去分析这一类的文章。

托福(TOEFL)是许多学子出国留学之前要经过的关卡之一。如果让机器考考看托福的听力测验,机器能否顺利通过考验呢?在这个任务之中,机器必须听懂一段声音讯号的内容、看懂问题和选项,最后结合听力和阅读的理解去选出答案,因此必须能够运用前述的各项能力。当然,就如同我们考试之前会去刷一下考古题,此机器学习的材料就是历年托福的听力考题。目前的成果可以达成五成以上的正确率,跟瞎猜或者是「选最长的选项」等,各种同学间私下流传的答题技巧的结果比起来可说是好上许多;虽然还不是很完美,但可以让人知道,机器已经能够初步理解整段文字的内涵了。

(本文摘自《智慧新世界──图灵所没有预料到的人工智慧》/三民出版)

【作者简介】

【台大科学教育发展中心探索基础科学系列讲座

自1825年起,英国皇家科学院举办了「皇家科学耶诞讲座」,以富有教育性、趣味性的方式,将科学知识介绍给社会大众,提升英国学子、民众的科学素养。无数的学者曾在此讲座中讲授科学知识,而除了在第二次世界大战时曾暂停举行外,这一具有古老传统的科普讲座,至今仍持续不断。

台湾大学科学教育发展中心自2009年起,师法「皇家科学耶诞讲座」,举办「探索基础科学讲座」,借重学养与教学俱佳的科学大师们开讲,与有志探索科学世界的朋友们共聚一堂。讲座的主题与基础科学知识紧密相连,每期轮流就数学、物理、化学、生命科学、地球科学各学门开辟讲题,讲师们仔细清楚的解说科学原理,许多非科学背景的听众们,也能迅速的进入科学世界,体会探索知识的乐趣。

本讲讲师群是台湾学术界关于「人工智慧」研究的各方翘楚:

林守德▸台湾大学资讯工程学系教授

林轩田▸台湾大学资讯工程学系教授

陈铭宪▸台湾大学电机工程学系特聘教授

陈信希▸台湾大学资讯工程学系特聘教授

永裕▸台湾大学资讯工程学系教授

邵轩磊▸台湾师范大学东亚学系副教授

李宏毅▸台湾大学电机工程学系副教授

李政德▸成功大学数据科学研究所副教授

张智威▸HTC健康医疗事业部总经理.史丹佛大学电脑系客座教授.日本SmartNews人工智慧顾问

陈倩瑜▸台湾大学生物产业机电工程学系教授

杨奕轩▸中央研究院资讯科技创新研究中心副研究员

《智慧新世界──图灵所没有预料到的人工智慧》/三民出版