工商社论》政府训练台版LLM,应示范付费取得著作权
TAIDE被称为「台版ChatGPT」,启动近一年,仍未推出正式版。图/本报资料照片
生成式AI席卷全球,为了掌握话语权,国科会于2023年4月启动「可信任人工智慧对话引擎」(Trustworthy AI Dialogue Engine,以下简称TAIDE)计划,投入适合我国语言、文化特性之生成式AI对话引擎的开发。惟从目前其局限的训练资料观之,恐难达到预期的目标。政府主导的大型语言模型(LLM)或应有偿取得高品质的著作权作品,提升模型品质,与文化界共创双赢的结果。
台湾资源有限,只能使用国际上现有的开源LLM进行优化处理,以增强本土化优势;TAIDE即使用Meta推出的Llama/Llama 2模型。然而这个被媒体称为「台版ChatGPT」的计划,启动近一年来尚未推出正式版,直到日前国科会主委吴政忠才宣布将在4月中释出7B模型(可商用版本)。据了解,数位部也规划将在4月下旬广邀Meta等国际大厂送测,并于5月公布TAIDE评测结果。反观民间已陆续推出多个繁中LLM,如华硕集团的福尔摩沙大模型,早在去年9月就已推出FFM-Llama 2的70B大模型。
TAIDE将于4月成为开源模型,企业或个人可免费使用,并得修改软体原始码,透过微调和优化,快速推出新的产品与服务,加速我国产业的发展与创新。因此,TAIDE品质的优劣,攸关台湾产业的发展。
发展AI大模型四大关键:分别是资金、算力、人才与资料,又以资料最为重要。可惜的是,TAIDE计划预算仅有2~3亿元,相关硬体匮乏,且人才短缺,只能靠优质的训练资料弥补。
根据TAIDE官方网站资讯,该模型训练资料包含政府报告摘要、科技大观园、科学发展月刊、学术会议论文摘要、GRB政府研究资讯系统报告/计划摘要、光华杂志、中文维基百科、法规资料库、教育部《国语小字典》、中央及地方政府机关常见问题Q&A、十二年国教课程纲要、教育部《重编国语辞典修订本》等。
繁中的训练资料看似很丰富,但多属政府公开资料,且部分资料仅使用摘要,占繁中的资料比重极为有限,且缺乏代表性。实与其他繁中的模型缺乏差异性,难以期待TAIDE光使用上述资料训练的模型,如何精确回答有关台湾的问题?
台湾其他LLM设法寻求突破,如台大资工的Taiwan LLM V2训练时,除抓取网路之外,还额外使用了小说、杂志以及大量的社群媒体等资料。根据该模型的介绍,社群媒体的资料占总Token的47.32%,内容丰富许多,也较具代表性。不过此系资源有限下的变通作法,并非资料收集的常态。
我们可看看语言偏见同样严重的日本,如何解决日文训练资料短缺问题。日本以修正《著作权法》,让LLM得利用有著作权保护的资料进行训练,大举扩大日文的训练资料。前Google台湾区总经理建议,我国可仿效日本做法。然日本模式虽茁壮了AI发展,却是以践踏著作财产权人为代价,我国不宜贸然师法。
根本问题是,为何大模型都只想无偿使用免费的资料?为何不以有偿方式,争取著作权人或资料拥有者的授权,取得优质的资料?特别是政府出资建构的繁体中文LLM,并无获利的压力,且背负国家AI发展任务,更应采取不同的方式。我们建议政府应主动与出版商或创作人协商,支付一定的授权费,取得资料使用权,打造出最适合台湾使用的模型。
我们以为,政府可先从媒体或研究机构的资料库着手,盖相对于书籍,媒体或研究机构多已累积数十年的丰富且深入的中文资料,若能获取其大量内容,TAIDE将如吃了大补丸,功力立即大增。
值得庆幸的是,已有人注意到研究机构的资料库,如日前立委询问中研院可否协助整合中文资料库,中研院院长廖俊智表示,会在不违反智慧财产权法规限制下,尽量开放中研院资料库协助训练AI模型。惟就是因涉及著作权重制限制,才无法使用该院的资料库内容,廖院长如同委婉地拒绝立委的要求,更彰显政府介入的必要性。
进入数位时代,传统文化产业经营日益困难,如社群媒体与搜寻引擎恣意转引传统媒体辛苦报导与评论的内容,阅读实体版纸媒的人口骤减,《新闻媒体与数位平台强制议价法》却还躺在立法院,公平会与数位部也还在纸上谈兵的状态。倘能建立有偿支付模式,授权大模型使用其资料有助于增加营收,应可提高权利人分享的诱因。此外,还有示范效果,其他大模型为抢夺繁中市场,也有可能会跟进争取媒体授权。
值得欣慰的是,行政院长陈建仁日前宣布,未来将推动台湾AI行动计划3.0,政府投入预算规模将从目前每年120亿元再扩大。盼政府能将部分资源用于资料授权上,以促进我国相关产业的发展。