《半导体》联发科推一把 全球首款繁中AI语言生成模型开源释出

联发创新基地负责人许大山博士表示,大型语言模型是近年来人工智慧技术进步的亮点,更是未来进步不可或缺的基石。联发科向来重视创新及科技发展,此次结合中研院及国教院,成为台湾极少数能训练大型语言模型的团队,以透明、开放和包容的方式,善用技术、人才及资源,既发展自主训练大型人工智慧模型的能力,也让繁体中文的大型语言模型研究及应用更为普及。

开放原始码释出的大型语言模型,目前多数仍以英文为主要优化的对象,繁体中文的语言模型相对不足。为此中央研究院词库小组在2019年开发并公开BERT和GPT-2的繁体中文优化版本,但是因为资料量的差距,这些模型与主流的大型语言模型差距越来越大。有鉴于开放原始码繁体中文大型语言模型的重要性与迫切性,在2022年5月,联发创新基地、中央研究院和国家教育研究院展开合作计划,使用大型语言模型BLOOM的繁体中文模型再训练与优化。

为了建立该项语言模型,国家教育研究院提供了大量高品质的繁体中文语料,作为主要的训练材料。联发创新基地则建置了训练的硬体环境,制订各种符合国际标准的繁体中文评量指标,收集更近期的语料,并对模型进行能更有效读懂使用者的指示(prompt)的特别训练。中央研究院词库小组则针对模型生成的文字是否具有偏见或敌意等不合适的内容,进行自动侦测与改正的研究与评估。评估结果表明,这套由三方提供的一系列繁体中文语言模型,均达到开源模型前所未有的效果,较能避免具有偏见或敌意的内容。

大型语言模型近来的蓬勃发展,源自于2019年Google推出的BERT语言模型,以及同年OpenAI开始推出的一系列GPT语言模型。这些大型语言模型已经被证实具备相当的知识与能力,即使在少量训练资料,甚至无训练资料之下也依然能够对新任务产生正确结果,已成为人工智慧往前进化不可或缺的基础。