Cloudflare 助力内容创作者抵御 AI 爬虫

那些渴望获取训练数据的人工智能公司,将众多网站和内容创作者逼进了一场永无休止的打地鼠游戏,与日益激进的网络爬虫机器人作斗争,这些机器人不停地抓取他们的数据用于训练人工智能模型。仅举一个例子,维修数据库 iFixIt 诉苦道称,7 月份,Anthropic 的人工智能聊天机器人 Claude 的网络爬虫机器人在一天内访问其网站近 100 万次。

当然,机器人爬虫已经存在了几十年,要么是好的(为搜索引擎收集数据以帮助人们发现网站),要么是坏的(恶意机器人试图使网站瘫痪)。为获取人工智能训练数据而爬行的机器人则归为一个模糊不清的第三类——一个网站或许想要将它们全部阻拦,或者允许部分访问来抓取数据,作为许可协议的一部分,亦或者期望能在聊天机器人的回答中被提及。

今年夏天,Cloudflare——作为全球互联网基础的最大网络之一,长期以来一直提供阻止恶意机器人的服务——开始为内容创作者提供所谓相当于免费的‘简易按钮’,只需点击一下就能阻止所有网站爬虫。

然而,Cloudflare 首席执行官马修·普林斯(Matthew Prince)告诉《财富》杂志,虽然该功能有用,但它也是一种粗糙的手段。它无法区分是为获取人工智能训练数据而抓取的爬虫,还是为搜索引擎抓取的爬虫。此外,客户无法决定阻止这一个爬虫而不阻止那一个。

“人们不知道是否要按下按钮,”他说。

如今,该公司为其武器库增添了新的“利器”,称拥有更精确的工具,为网站和内容创作者提供了对谁可以访问其数据的更多控制,以及分析其内容被人工智能模型如何使用的能力。

现在,一个网站可以使用新的过滤器,允许 OpenAI 抓取其网站,而不允许百度或 Perplexity 抓取,并且还可以控制人工智能公司被允许访问网站的哪些区域。Cloudflare 声称,其分析还可以帮助那些与模型提供商签署许可协议的人理解谈判中用到的指标,比如抓取某些部分或者整个页面的费率。

一旦使用 Cloudflare 的 4000 万个网站开始利用这些新特性,该公司还期望成为一个核心市场,供它们与(同样使用 Cloudflare 的)AI 模型供应商协商获取其数据的授权。网站所有者能够为他们的网站或网站的部分内容设定价格,然后向模型供应商收费。

普林斯称,Cloudflare 处于独特的位置,能够充当中间人。“当我们说,听着,我们要制定这些规则,这是人工智能公司会予以关注的事,”普林斯说。他解释道,Cloudflare 与主要人工智能公司的关系造就了一个双边市场。

他接着补充道,Cloudflare 的努力对于开放互联网的持续发展起着至关重要的作用,因为要是无法控制人工智能公司为训练模型而抓取网站的这种方式,内容创作者要么停止创作,要么把更多内容放到付费墙之后。虽然大型出版商或许会达成直接交易,但人工智能模型提供商将难以从小型网站获取高质量内容。

“我相信 Cloudflare 将成为能够解决我认为的关键问题的公司,以确保在新的、日益由人工智能驱动的网络中持续进行在线内容的创建,”普林斯说道。