OpenAI 举报人因版权数据训练模型满心厌恶

据《纽约时报》报道,一位前 OpenAI 研究人员对该公司的人工智能训练做法予以举报,声称 OpenAI 在训练其人工智能模型时违反了版权法,并认为 OpenAI 当下的商业模式有颠覆我们所熟知的互联网业务的可能。

这位前员工叫苏奇尔·巴拉吉(Suchir Balaji),年仅 25 岁,在 OpenAI 工作了四年,因道德方面的问题决定离开这家人工智能公司。在巴拉吉看来,鉴于 ChatGPT 和其他 OpenAI 产品已经高度商业化,OpenAI 大规模抓取在线材料以满足其数据需求旺盛的人工智能模型的这种做法,不再符合合理使用原则的标准。OpenAI——目前正面临好几起版权诉讼,其中包括去年由《纽约时报》提起的一起备受瞩目的案件——却持相反观点。

“如果你和我想法一样,”巴拉吉对《纽约时报》说,“你就只能离开公司。”

巴拉吉昨天在其个人网站的一篇帖子中所概述的警告,加剧了围绕人工智能行业收集和使用受版权保护的材料来训练人工智能模型这一不断升温的争议,这在很大程度上是在缺乏全面的政府监管且处于公众视线之外的情况下进行的。

“鉴于人工智能发展如此之快,”知识产权律师布拉德利·赫尔伯特告诉《纽约时报》,“国会是时候介入了。”

巴拉吉于 2020 年受雇,是负责收集和整理网络收集的培训数据的几名员工之一,这些数据最终将被输入到 OpenAI 的大型语言模型(LLM)中。因为当时 OpenAI 在技术上仍然只是一家资金充足的研究公司,版权问题没那么要紧。

“对于一个研究项目,一般来说,你可以在任何数据上进行训练,”巴拉吉告诉《纽约时报》。“当时就是这么个想法。”

但 2022 年 11 月 ChatGPT 发布后,巴尔吉表示,他的感受有了变化。毕竟,这个聊天机器人不再是一个闭门研究项目;相反,由 OpenAI 的大型语言模型提供支持,它被商品化并用于商业用途——包括在人工智能被用于生成直接反映或模仿其训练所依据的受版权保护的原始材料的内容或服务的情况下,从而 威胁着 这些个人和企业的生计及盈利模式。

“对于整个互联网生态系统来说,这不是一个可持续的模式,”比拉吉对《纽约时报》表示,

就其自身来说,在给《纽约时报》的一份声明中,OpenAI——它已经完全放弃了其非营利的根基——声称,它以“受合理使用和相关原则保护的方式”使用公开可用的数据构建其“AI 模型”并且这对于“美国的竞争力”而言至关重要。