TikTok 母公司字节跳动的网络爬虫抓取速度远超 OpenAI 等

TikTok(抖音海外版)的母公司字节跳动正在以比其他主要网络爬虫更快的速度积累大量网络数据

据《财富》报道,字节跳动可能正计划发布其自身的大型语言模型,并正在积极使用其网络爬虫“Bytespider”来抓取数据以训练其模型。

字节跳动的爬虫程序 Bytespider 于 4 月现身,自那时起,其资源消耗率让来自 OpenAI、谷歌、Meta 和 Anthropic 的网络爬虫远远不如。

卡斯达(Kasada)公司专门从事机器人管理,其首席执行官山姆·克劳瑟(Sam Crowther)告诉媒体,字节蜘蛛(Bytespider)的抓取率是 OpenAI 的 GPTbot 的 25 倍,是安特罗皮克(Anthropic)为其克劳德语言模型(Claude LLM)开发的网络爬虫 ClaudeBot 的 3000 倍。克劳瑟还称,过去六周,卡斯达的数据显示,来自字节蜘蛛的抓取活动“大幅飙升”。

随着字节爬虫贪婪地抓取网络数据,美国政府正试图阻止美国用户数据可能流向中国政府。今年 4 月,拜登总统签署了一项法案,强制禁止 TikTok,除非字节跳动在年内将其出售。鉴于字节跳动出售 TikTok 的时间有限,其网络抓取活动的高速度所带来的紧迫感与此相契合——无论是为了大型语言模型、更好的算法还是其他什么,我们不得而知。

字节跳动计划如何处理其新挖掘的所有数据仍有待观察。但 TikTok 已为该平台推出了几项由人工智能驱动的功能。5 月,它宣布了一套供广告商创建的工具,用于创建 人工智能生成的广告 和 人工智能生成的头像 供品牌和创作者使用。据传,TikTok 还在开发一个内部搜索引擎,其搜索结果由人工智能驱动——可能使用了 ChatGPT。