海纳百川》AI对训练资料的饥渴(张瑞雄)

OpenAI、谷歌和Meta等主要科技公司正采取各种手段来大量收集网上数据以训练他们的模型。图/本报资料照片

在开发最先进AI系统的竞赛中,OpenAI、谷歌和Meta等主要科技公司不惜采取各种手段来大量收集网上数据,以训练他们的模型。这包括YouTube影片和侵犯版权地从互联网上抓取内容,甚至考虑收购出版社以获取有版权保护的作品。但是这些数据收集做法往往违反公司政策和版权法,引发了道德问题。

AI的快速进步,特别是像ChatGPT这样的大型语言模型,创造了对数据的无法满足的需求。一个AI模型接受的训练数据越多,其表现就越好。这导致了一场竞相累积越来越多文字、图像和其他数位内容的竞赛,领先的模型现在利用数万亿的「tokens」(单词或单词片段)来训练。

科技巨头已经耗尽了许多现成的高品质数据来源,如维基百科和在线书籍及文章。因此他们已转向更不常规且可能有问题的方法,以获取开发最新AI模型所需的数据。例如OpenAI开发了一个语音识别工具,用来利用超过100万小时的YouTube影片,尽管有人担心这可能违反YouTube的服务条款,这些资料随后被用于训练OpenAI的GPT-4模型,这是目前最先进的语言模型之一。

同样地,谷歌也一直在转录YouTube影片,这可能侵犯了影片创作者的版权。该公司最近还扩大了隐私政策,允许它使用更多来自于Google Docs和Google地图的数据进行AI开发,引发了侵犯隐私的担忧。

科技公司的数据收集做法引发了重大的道德和法律问题,创作者、艺术家和出版商已经开始反击,对未经许可或补偿使用他们的版权作品提起诉讼。如《纽约时报》起诉了OpenAI和微软,指控他们在训练AI时使用了受版权保护的新闻文章,并主张这不属于合理使用。也已有超过一万个个人和组织向美国版权局提交了有关AI模型使用创作作品的意见,突显了AI发展与知识产权之间日益加剧的冲突。

意识到依赖现有网上数据的局限性,科技公司也在探索开发「合成数据」的可能,由AI自己生成的文本、图片和其他内容,这种做法的目的是减少对有版权材料的依赖,并帮助AI技术保持快速进展。但是这种方法也有问题,因为AI生成的数据可能存在偏见、不一致性和其他局限性,从而影响其在训练中的实用性。

为了AI优势地位的竞争,科技巨头不惜践踏道德和法律边界,以追求越来越强大的系统。但建议科技公司应该采取更主动和透明的方式,来解决其数据收集做法的道德影响。这可能包括与创作者接洽、资助支持创作者的计划,以及制定优先考虑道德和负责任的数据收集与使用的内部政策和准则。

国内目前国科会的TAIDE也应该注意训练资料的版权问题,未来AI的成功将取决于它是否能够妥善应对这些复杂的道德和法律挑战,必须找到一种平衡和可永续的方法,AI才能继续发展,同时也能维护社会整体的权益。(作者为台北商业大学前校长)

※以上言论不代表旺中媒体集团立场※