Cloudflare釋出免費工具 讓網站經營者快速杜絕內容被用於人工智慧技術訓練

针对近期有不少人工智慧技术业者利用爬虫机器人抓取各个网站内容,借此用于训练其大型自然语言模型,Cloudflare稍早宣布推出一项简单操作且免费的工具,让网站经营者能快速杜绝内容被爬虫机器人抓取,甚至影响网站整体存取效能的问题。

Cloudflare表示,此工具同时也会向免费方案用户提供,并且能随着时间推移、学习不同爬虫机器人抓取资料模式进行更新,让网站经营者能更容易且安心地阻止爬虫机器人抓取其内容,并且用于人工智慧技术训练。

依照Cloudflare统计资讯,由于不少抓取资料的爬虫机器人可绕过传统网页存取条件设定,使得许多网站经营者必须采取更严格过滤方式阻挡爬虫机器人,结果导致影响更多正常网页造访操作,连带影响其整体流量表现,甚至造成在网路搜寻引擎排名结果。

而在统计资讯中,字节跳动旗下爬虫机器人Bytespider存取使用Cloudflare服务网站的占比达40%,而OpenAI旗下爬虫机器人GPTBot则占30%,其余存取占比较明显的爬虫机器人还包含亚马逊旗下Amazonbot,以及Claude AI旗下ClaudeBot,约占整体存取量的一半左右。

不过,即便提供相关工具阻止爬虫机器人大量存取网站资料,Cloudflare表示仍有不少人工智慧技术业者透过规避方式绕过检测,使其爬虫机器人仍可大量存取网站资料。

例如,先前便传出Perplexity AI绕过网站存取规则,在未经许可情况下存取网站内容,而若以严格过滤方式限制此类存取行为,可能会造成多数网站实际存取流量受影响,因此Cloudflare预期会透过更进一步的机器学习方式识别存取行为是否正常,或是进一步阻止爬虫机器人恶意存取资料情况。

《原文刊登于合作媒体mashdigi,联合新闻网获授权转载。》