☰

AI训练数据超贵仅科技巨擘能负担

正如OpenAI研究员贝特克（James Betker）在介绍生成式AI模型与背后数据集的文章里写道，日益复杂、功能强大的AI系统关键在于训练数据，而不是模型的设计、架构或其他特质。换言之，数据品质与数量决定了模型的强弱。

举例来说，OpenAI耗费数亿美元从新闻出版商、媒体资料库取得内容来训练他们自家的AI模型，此一预算远远超出多数学术研究机构、非营利组织与新创公司的预算范围。

脸书母公司Meta甚至考虑收购出版商Simon & Schuster，以获得电子书摘录版权。该公司2023年被私募股权公司KKR以16.2亿美元价码收购。

非营利机构艾伦人工智慧研究所（AI2）资深应用研究科学家罗凯尔（Kyle Lo）表示，规模较小的企业根本无法负担这些数据授权费用，自然无法开发或研究AI模型。

眼见AI训练数据市场规模日益壮大，许多数据中介公司或内容平台开始贩卖数据与索取高价，完全不理会用户反对。图片库供应商Shutterstock近日便与AI业者签订2,500万～5,000万美元不等的授权协议。社群论坛Reddit则声称，该公司已透过资料授权从谷歌与OpenAI等公司手中赚得数亿美元。

AI训练数据超贵 仅科技巨擘能负担