☰

工商社论》政府训练台版LLM，应示范付费取得著作权

TAIDE被称为「台版ChatGPT」，启动近一年，仍未推出正式版。图／本报资料照片

生成式AI席卷全球，为了掌握话语权，国科会于2023年4月启动「可信任人工智慧对话引擎」（Trustworthy AI Dialogue Engine，以下简称TAIDE）计划，投入适合我国语言、文化特性之生成式AI对话引擎的开发。惟从目前其局限的训练资料观之，恐难达到预期的目标。政府主导的大型语言模型（LLM）或应有偿取得高品质的著作权作品，提升模型品质，与文化界共创双赢的结果。

台湾资源有限，只能使用国际上现有的开源LLM进行优化处理，以增强本土化优势；TAIDE即使用Meta推出的Llama/Llama 2模型。然而这个被媒体称为「台版ChatGPT」的计划，启动近一年来尚未推出正式版，直到日前国科会主委吴政忠才宣布将在4月中释出7B模型（可商用版本）。据了解，数位部也规划将在4月下旬广邀Meta等国际大厂送测，并于5月公布TAIDE评测结果。反观民间已陆续推出多个繁中LLM，如华硕集团的福尔摩沙大模型，早在去年9月就已推出FFM-Llama 2的70B大模型。

TAIDE将于4月成为开源模型，企业或个人可免费使用，并得修改软体原始码，透过微调和优化，快速推出新的产品与服务，加速我国产业的发展与创新。因此，TAIDE品质的优劣，攸关台湾产业的发展。

发展AI大模型四大关键：分别是资金、算力、人才与资料，又以资料最为重要。可惜的是，TAIDE计划预算仅有2～3亿元，相关硬体匮乏，且人才短缺，只能靠优质的训练资料弥补。

根据TAIDE官方网站资讯，该模型训练资料包含政府报告摘要、科技大观园、科学发展月刊、学术会议论文摘要、GRB政府研究资讯系统报告／计划摘要、光华杂志、中文维基百科、法规资料库、教育部《国语小字典》、中央及地方政府机关常见问题Q&A、十二年国教课程纲要、教育部《重编国语辞典修订本》等。

繁中的训练资料看似很丰富，但多属政府公开资料，且部分资料仅使用摘要，占繁中的资料比重极为有限，且缺乏代表性。实与其他繁中的模型缺乏差异性，难以期待TAIDE光使用上述资料训练的模型，如何精确回答有关台湾的问题？

台湾其他LLM设法寻求突破，如台大资工的Taiwan LLM V2训练时，除抓取网路之外，还额外使用了小说、杂志以及大量的社群媒体等资料。根据该模型的介绍，社群媒体的资料占总Token的47.32％，内容丰富许多，也较具代表性。不过此系资源有限下的变通作法，并非资料收集的常态。

我们可看看语言偏见同样严重的日本，如何解决日文训练资料短缺问题。日本以修正《著作权法》，让LLM得利用有著作权保护的资料进行训练，大举扩大日文的训练资料。前Google台湾区总经理建议，我国可仿效日本做法。然日本模式虽茁壮了AI发展，却是以践踏著作财产权人为代价，我国不宜贸然师法。

根本问题是，为何大模型都只想无偿使用免费的资料？为何不以有偿方式，争取著作权人或资料拥有者的授权，取得优质的资料？特别是政府出资建构的繁体中文LLM，并无获利的压力，且背负国家AI发展任务，更应采取不同的方式。我们建议政府应主动与出版商或创作人协商，支付一定的授权费，取得资料使用权，打造出最适合台湾使用的模型。

我们以为，政府可先从媒体或研究机构的资料库着手，盖相对于书籍，媒体或研究机构多已累积数十年的丰富且深入的中文资料，若能获取其大量内容，TAIDE将如吃了大补丸，功力立即大增。

值得庆幸的是，已有人注意到研究机构的资料库，如日前立委询问中研院可否协助整合中文资料库，中研院院长廖俊智表示，会在不违反智慧财产权法规限制下，尽量开放中研院资料库协助训练AI模型。惟就是因涉及著作权重制限制，才无法使用该院的资料库内容，廖院长如同委婉地拒绝立委的要求，更彰显政府介入的必要性。

进入数位时代，传统文化产业经营日益困难，如社群媒体与搜寻引擎恣意转引传统媒体辛苦报导与评论的内容，阅读实体版纸媒的人口骤减，《新闻媒体与数位平台强制议价法》却还躺在立法院，公平会与数位部也还在纸上谈兵的状态。倘能建立有偿支付模式，授权大模型使用其资料有助于增加营收，应可提高权利人分享的诱因。此外，还有示范效果，其他大模型为抢夺繁中市场，也有可能会跟进争取媒体授权。

值得欣慰的是，行政院长陈建仁日前宣布，未来将推动台湾AI行动计划3.0，政府投入预算规模将从目前每年120亿元再扩大。盼政府能将部分资源用于资料授权上，以促进我国相关产业的发展。

工商社论》政府训练台版LLM，应示范付费取得著作权

相关资讯