全面啟動語料研究的智慧引擎 – 國家教育研究院

图/Canva

生活里的报纸、书籍、YouTube影片、不同类型电视节目与影集,无论文字与声音,单一语言或包括多种语言,皆是语料资料库收录范围,作为庞大且有组织架构的语言资料库,不仅做为语言学研究成果,也是语言统计分析与相关学术研究用途,更是喂养AI学习模型重要的资料。

作为教育部智库的国家教育研究院(以下简称国教院),长期专注教育议题与专题计划研究,动辄上千万到亿为单位的语料资源,如何通过研究团队的「慧眼」,成为有趣又有前瞻性的调查成果?国教院语文教育及编译研究中心副研究员吴鉴城与助理林韦均与我们分享一二。

研究成果分享–《常用语词调查报告书》与《解读新闻字词》

语料库的应用范围广泛,尤其在语言学研究尤其重要,语言是一种不断变化的现象,从语言变异到词汇的实际使用,这些变化都能在语料库中察觉流变状态。例如,五十年前「机车」代表交通工具,如今在新世代间却多了一层「惹人厌」的语意变化。关于字词使用,可以从疫情严峻期间不时出现的「新冠肺炎」、「防疫」、「居家」…等词高频率的出现,当然也随着疫情变化有所消长,这样的语言现象透过社会观察与语料库资料分析,可以清楚爬梳社会现象的转变过程。

回到教育本质,以语料持续建构语文教育的基础知识,国教院现已出版:《九十九年常用语词调查报告书》、《一○○年至一○四年常用语词调查报告书》、《解读新闻字词-新闻媒体常用语词调查》等著作。以2020年的新闻媒体常用语调查为例,新闻语料纳入:《联合报》、《中国时报》、《苹果日报》、《大纪元时报》、《国语日报》、《中学生报》等六家新闻内容,年总字数都超过1亿字以上,内容包括社会时事、经济议题、时尚生活、运动新讯、娱乐新闻等主题领域,将电脑自动分词系统结果进行分析,可以观察媒体用字遣词变化。这些出版成果资源都可在「国家教育研究资讯网」浏览或下载使用。

《解读新闻字词-新闻媒体常用语词调查》一书 图/国教院

流行语检视考验–「新词查询&共编平台」

谈到国语辞典编撰工作,辞典的基本收词准则,需要考虑词汇的稳定性和流行度。针对一些短暂流行的词汇,即使原本一百万个词中平均出现一千次,仍要持续每年观察高频率出现的稳定度,评估是否将其收入辞典。许多词汇出现很快但是消失的也迅速,有趣的例子是「蓝瘦香菇」,曾一度风靡,但随着时间推移使用频率锐减,如此便不急着列入收录范围。编纂辞典的过程中需要平衡普罗大众的需求和语言学研究的严谨性。辞典不仅是语言学习的工具,也是一个文化的载体。因此在选词的过程中,需要综合考虑词汇的实用性和价值。

因应语言流变快速,流行词汇不时新生,为了让民众适时跟上社会的新兴词汇,国教院2023年1月起上线「新词查讯&共编平台」,目前收录超过360词条,若想知道新闻媒体及网路常见的新词或流行语,例如:「森七七」、「上车」…,随时上网就能满足求知欲还可以成为新词编辑者,线上登入后依照填写规则,只要通过基本审查,就能在平台上与所有人分享新发现。

「新词查讯&共编平台」已完成词条(局部) 图/国教院

没有语料库就没有AI

因为AI的盛行,喂养AI学习模型背后的语料库关注度自然增加不少,透过大量多元语料库对AI进行深度学习,帮助更好的理解和生成自然语言。过去,Google翻译的结果往往让人摸不着头脑,但现在透过AI训练模型,翻译结果已经变得更加准确和自然,这对于语音助理、智能客服等应用也具有重要服务进化与革新意义。例如,当用户询问某一特定问题时,AI可以通过检索语料库中的相关资料,提供准确且具体的回答。

AI技术进一步发展,让语料库发挥关键作用,例如,帮助自动生成新闻报导、学术论文摘要,进行创作,教科书编写也能透过语料库训练语言模型,透过用字数与成语数该有的比例原则,让电脑直接生成课文还能提供测验题,大幅提高作业效能。

成为基础研究扩散的智慧引擎

国教院从开展华语文语料库建构计划,到持续进行国语文教科书研究,全台湾的语音调查研究…等,不仅研发教育工具开放给需要相关教育研究者使用外,也持续关注AI对未来教育与课纲纳入的议题,与政府的教育政策紧密对接。国教院丰富的基础教育研究资源是作为语料库深度转化应用,不可或缺的智慧引擎。