☰

谷歌、OpenAI 用新闻练人工智能竟不付费

PCMag 编辑独立地选择和审查产品。

如果您通过联盟链接购买，我们可能会赚取佣金，这有助于支持我们的测试工作。

“我们的工作表明，关键的大型语言模型训练数据集在比例上失衡，主要由新闻和媒体网站的商业出版商所拥有的高质量内容组成，”该研究称。“在该技术的短暂历史中，主要的大型语言模型公司在训练最重要的大型语言模型时，在数量方面优先选择了这些内容。”

Ziff Davis 是 PCMag 的母公司。这项研究由该公司的首席人工智能律师乔治·乌科森（George Wukoson）和首席技术官乔伊·福图纳（Joey Fortuna）进行。它对人工智能公司承认使用的数据集的开源复制品进行了检查，包括 Common Crawl、C4、OpenWebText 和 OpenWebText2。

OpenAI 承认会给其认定为高质量的数据集赋予更多权重，包括新闻媒体、有版权的书籍以及热门 Reddit 帖子中嵌入的链接。这是对语言模型从网络上抓取的所有内容进行排名的一种方式，其目的是为用户提供更优质的答案。

例如，在训练 GPT-3 时，尽管 WebText2 仅占 3.8%的标记量，但其却被赋予了 22%的权重。WebText2 中近 13.5%嵌入的 URL 来自 15 家顶级媒体出版商，包括新闻集团、《纽约时报》、甘尼特、齐夫戴维斯、Vox 媒体、阿克塞尔施普林格、奥尔登资本、赫斯特、《华盛顿邮报》、BuzzFeed、Future、IAC 和 Bustle。

数据集的内容也会随着时间而变化。例如，OpenAI 在 OpenWebText 中对来自《华盛顿邮报》的内容高度重视，但在发布 OpenWebText2 时降低了这部分内容的重要性。

Ziff Davis 表示，这些发现量化了新闻媒体对于 AI 聊天机器人未来的重要程度，但没有义务为此向其付费。这种“对高质量出版商内容的长期利用（对 LLM 公司而言利润极高）意味着一些世界上最具价值的公司失去了许可收入。”

若内容没有报酬，出版商可能会停业，威胁着人工智能时代高质量信息的持续流通。

据路透社报道，在这一报告发布之前，一名联邦法官驳回了 Raw Story 和 AlterNet 对 OpenAI 的诉讼，这两家公司称，该人工智能公司未经许可使用它们的内容来训练大型语言模型。《纽约时报》提起的相关案件仍在处理当中。OpenAI 还与许多顶级媒体公司签署了许可协议。

OpenAI 最新推出的产品ChatGPT 搜索，现在除了总结其中的内容，还引用了一些出处。

谷歌、OpenAI 用新闻练人工智能竟不付费

相关资讯