谷歌、OpenAI 用新闻练人工智能竟不付费

PCMag 编辑独立地选择和审查产品。

如果您通过联盟链接购买,我们可能会赚取佣金,这有助于支持我们的测试工作。

“我们的工作表明,关键的大型语言模型训练数据集在比例上失衡,主要由新闻和媒体网站的商业出版商所拥有的高质量内容组成,”该研究称。“在该技术的短暂历史中,主要的大型语言模型公司在训练最重要的大型语言模型时,在数量方面优先选择了这些内容。”

Ziff Davis 是 PCMag 的母公司。这项研究由该公司的首席人工智能律师乔治·乌科森(George Wukoson)和首席技术官乔伊·福图纳(Joey Fortuna)进行。它对人工智能公司承认使用的数据集的开源复制品进行了检查,包括 Common Crawl、C4、OpenWebText 和 OpenWebText2。

OpenAI 承认会给其认定为高质量的数据集赋予更多权重,包括新闻媒体、有版权的书籍以及热门 Reddit 帖子中嵌入的链接。这是对语言模型从网络上抓取的所有内容进行排名的一种方式,其目的是为用户提供更优质的答案。

例如,在训练 GPT-3 时,尽管 WebText2 仅占 3.8%的标记量,但其却被赋予了 22%的权重。WebText2 中近 13.5%嵌入的 URL 来自 15 家顶级媒体出版商,包括新闻集团、《纽约时报》、甘尼特、齐夫戴维斯、Vox 媒体、阿克塞尔施普林格、奥尔登资本、赫斯特、《华盛顿邮报》、BuzzFeed、Future、IAC 和 Bustle。

数据集的内容也会随着时间而变化。例如,OpenAI 在 OpenWebText 中对来自《华盛顿邮报》的内容高度重视,但在发布 OpenWebText2 时降低了这部分内容的重要性。

Ziff Davis 表示,这些发现量化了新闻媒体对于 AI 聊天机器人未来的重要程度,但没有义务为此向其付费。这种“对高质量出版商内容的长期利用(对 LLM 公司而言利润极高)意味着一些世界上最具价值的公司失去了许可收入。”

若内容没有报酬,出版商可能会停业,威胁着人工智能时代高质量信息的持续流通。

据路透社报道,在这一报告发布之前,一名联邦法官驳回了 Raw Story 和 AlterNet 对 OpenAI 的诉讼,这两家公司称,该人工智能公司未经许可使用它们的内容来训练大型语言模型。《纽约时报》提起的相关案件仍在处理当中。OpenAI 还与许多顶级媒体公司签署了许可协议。

OpenAI 最新推出的产品ChatGPT 搜索,现在除了总结其中的内容,还引用了一些出处。