众多公司对加州人工智能训练法态度暧昧

周日,加利福尼亚州州长加文·纽瑟姆签署了一项法案,即 AB-2013,要求开发生成式人工智能系统的公司公布其用于训练系统的数据的高级摘要。其中,摘要必须涵盖数据的所有者、获取或授权方式,以及是否包含任何受版权保护或个人信息。

很少有 人工智能公司愿意表明自己是否会遵守。

TechCrunch 联系了人工智能领域的主要参与者,包括 OpenAI、Anthropic、微软、谷歌、亚马逊、Meta 以及初创公司 Stability AI、Midjourney、Udio、Suno、Runway 和 Luma Labs。但回应者不到一半,其中一家供应商——微软——更是明确拒绝置评。

只有 Stability、Runway 和 OpenAI 告诉 TechCrunch 他们将遵守 AB-2013。

“OpenAI 在我们所运营的司法管辖区遵守法律,这其中就包括这一个,”OpenAI 的一位发言人说道。

Stability 的一位发言人表示,该公司“支持经过深思熟虑的监管,这种监管既能保护公众,同时又不会扼杀创新。”

平心而论,AB-2013 的披露要求并非立即生效。虽然它们适用于 2022 年 1 月或之后发布的系统——比如 ChatGPT 和 Stable Diffusion 等——但公司要到 2026 年 1 月才开始公布培训数据摘要。该法律也仅适用于向加利福尼亚人提供的系统,留了一些余地。

供应商在这件事上保持沉默可能还有另一个缘由,这与大多数生成式人工智能系统的训练方式有关。

培训数据常常源自网络。供应商从网站上抓取大量的图像、歌曲、视频等,并以此训练他们的系统。

几年前,人工智能开发者通常会在模型发布时附带的技术论文中列出其培训数据的来源,这是常规操作。例如,谷歌曾透露,它在公共的LAION数据集上训练了其图像生成模型家族Imagen的早期版本。许多较旧的论文提到了 The Pile,这是一个包括学术研究和代码库的开源培训文本集合。

在当今竞争激烈的市场中,训练数据集的构成被视作一种竞争优势,公司把这列为其不披露的主要原因之一。但训练数据的细节也可能让开发者面临法律风险。LAION 链接了受版权保护的和侵犯隐私的图像,而 The Pile 包含一个包含斯蒂芬·金和其他作者作品的盗版库。

已经有许多有关训练数据滥用的诉讼,而且每个月都有更多的诉讼被提起。

作者和出版商声称,OpenAI、Anthropic 和 Meta 使用了受版权保护的书籍——有些来自 Books3——进行训练。音乐厂牌已把 Udio 和 Suno告上法庭,指控它们在未给音乐家补偿的情况下用歌曲进行训练。艺术家们已提起集体诉讼,指控 Stability 和 Midjourney 的数据抓取行为相当于盗窃。

不难看出 AB-2013 对于试图避免法庭纠纷的供应商来说可能存在问题。该法律要求公开一系列有关训练数据集的潜在有罪的规格,包括一份通知,说明数据集首次使用的时间以及数据收集是否正在进行。

AB-2013 的涵盖范围相当宽泛。任何对人工智能系统进行“实质性修改”(即微调或重新训练)的实体也必须公布他们用于此操作的训练数据的信息。该法律存在一些豁免条款,但它们主要适用于网络安全和国防中使用的人工智能系统,例如用于“国家空域中飞机的运行”的那些。

当然,许多供应商认为被称为合理使用的原则提供了法律保护,并且他们在法庭上主张这一点,同时在公开声明中也是如此。 一些公司,如 Meta 和谷歌,已经更改了其平台的设置和服务条款,以允许他们获取更多用户数据用于训练。

在竞争压力的刺激下,并且打赌合理使用的辩护最终能够获胜,一些公司在受知识产权保护的数据上进行了大量训练。路透社的报道显示,Meta 曾一度使用有版权的书籍进行人工智能训练,尽管其自己的律师发出了警告。有证据显示,Runway 获取了 Netflix 和迪士尼的电影来训练其视频生成系统。据报道,OpenAI在创作者不知情的情况下转录了 YouTube 视频用于开发模型,其中包括GPT-4。

正如我们之前所写,存在一种结果,即生成式人工智能供应商能够逍遥法外,无论是否披露系统训练数据。法院最终可能会支持合理使用的支持者,并认定生成式人工智能具有足够的变革性——而不是像《纽约时报》和其他原告所声称的抄袭引擎。

在更为戏剧性的情形下,AB-2013 可能导致供应商在加利福尼亚州扣押某些型号,或者为加利福尼亚人发布仅依据合理使用和授权数据集训练而成的型号版本。一些供应商可能会认为,对于 AB-2013,最安全的行动方案是避免做出会导致妥协以及引发诉讼的披露。

假设该法律既未受到质疑,也未被暂停,从现在起一年多一点,等到 AB-2013 的截止日期,我们就能有一个清晰的认识。