专家传真-生成式AI TMD著作权 是否该采日本模式?

生成式AI的TDM过程涉及著作权问题,引发诸多争议,其中日本采取较宽松的做法,我国是否要跟进颇值得深究。图/摘自Freepik

由OpenAI推出的ChatGPT引领生成式AI(GenAI)快速席卷全球,各大科技厂竞相推出相关的产品,建立大型语言模型(LLM),生成式AI所训练的LLM品质优劣,实与其收集的资料多寡呈现高度正向关系。惟文字与资料探勘(Text and Data Mining;简称TDM)过程涉及著作权问题,引发诸多争议,其中日本就是采取比较宽松的做法,我国是否要跟进颇值得深究。

■从纽时控告OpenAI案谈起

LLM最常使用的训练的资料,为Common Crawl,从数十亿的开放且免费使用网页收集的数据集,看似资料很多,但资料良莠不齐,经过滤后可用资料即大幅缩水,以GPT-3模型所公布的资料源(Data Sources)为例(之后的GPT-3.5与GPT-4就不再公布),过滤前有45 TB压缩纯文字,过滤后只剩下570 GB。

■是否属于「合理使用」尚未定论

为增加训练的来源,AI业者就将收集目标投向品质高且数量庞大的资料库与书籍上。但撷取网路内容的行为引发媒体出版商反弹,《纽约时报》、《CNN》、《BBC》等媒体已经封锁AI的撷取。去年底《纽约时报》更开出第一枪,向纽约地方法院提起OpenAI及微软侵犯著作权诉讼,认其未经其同意使用网站新闻内容来训练AI模型,侵害其声誉及营运获利能力。

经济部智慧财产局去年对此行为作出函释(经授智字第11252800520号):「在搜集资料训练AI模型阶段,训练资料如受著作权法保护(下称原始著作),会涉及『重制』原始著作之行为,除有著作权法第44条至第65条合理使用之情形外,应取得著作财产权人之同意或授权,始得为之。」

多数国家与欧盟的《著作权法》规范,也类似我国的规定,AI模型训练未经著作财产权人之同意,使用受著作权法保护的资料,即可能涉及非法重制。至于是否符合「合理使用」(fair use)原则,目前尚未定论。前案OpenAI回应稿就抗辩称,训练符合合理使用,且已提供权利人退出的制度,有待司法判决确认。

■日本著作权法有独特的规定

值得注意的是,日本直接在法律上明文该行为属于例外允许的行为。日本2018年修改《著作权法》时,新增第30条之四:「在下列情形下,或者以不以欣赏自己在作品中表达的思想或者感情为目的或者让他人欣赏作品的其他情形下,可以以任何方式使用作品。但是如果作品的类型和用途以及作品的使用方式会不公平地损害著作权拥有者的利益,则不适用。」「(i)略。(ii)资讯分析(指从大量受著作权保护的作品和其他大量资讯中提取、比较、分类和以其他方式分析与构成资讯的语言、声音、图像和其他元素相关的资讯)同样适用于第47-5条第(1)项第(ii)款。」

依照其规范,AI模型训练目的在于LLM的开发,并非基于自己或他人「欣赏」之用,训练也不至于会损害著作权人的利益(但LLM生成作品,就另当别论),故原则上符合前述第二款「资讯分析」的范畴,得不经著作权人的允许在必要范围内使用。

该模式的优点是,AI训练容易取得高品质的资料,尤其日本原本就是文创产业的大国,在动画、文学、音乐与电影等领域都表现相当优异,进而提升大模型的效能,LLM回答也将更加符合使用者的需求,并有助于加速该国AI产业的发展。

■日本做法值得借镜?

至于我国是否有必要仿效日本的制度?基于以下理由,本文采取比较保留的态度:首先,承认著作权最重要的目的,系透过一定的保护,鼓励创作者分享创作,进而促进国家文化发展(参照我《著作权法》第一条)。而日本则是以牺牲创作者为代价,将大举降低创作者的创作诱因。其次,日本制度有其背景因素,日本人口约为1.25亿,虽已开发国家中仅次于美国,但日文网路资料却相当有限,远不如英文与中文资料,导致其发展大型语言模型受限,在新一代AI军备竞赛中居于落后,为了要迎头赶上他国的发展,采取比较宽松的制度,也不难理解。最后,日本国内也有反对看法,且该规定还有许多模糊空间,2018年立法时无法思虑的问题纷纷浮现,近期日本文化厅于1月15日提出《人工智慧与著作权方法(草案)》,试图减缓对著作权的冲击。