AI训练数据超贵 仅科技巨擘能负担
正如OpenAI研究员贝特克(James Betker)在介绍生成式AI模型与背后数据集的文章里写道,日益复杂、功能强大的AI系统关键在于训练数据,而不是模型的设计、架构或其他特质。换言之,数据品质与数量决定了模型的强弱。
举例来说,OpenAI耗费数亿美元从新闻出版商、媒体资料库取得内容来训练他们自家的AI模型,此一预算远远超出多数学术研究机构、非营利组织与新创公司的预算范围。
脸书母公司Meta甚至考虑收购出版商Simon & Schuster,以获得电子书摘录版权。该公司2023年被私募股权公司KKR以16.2亿美元价码收购。
非营利机构艾伦人工智慧研究所(AI2)资深应用研究科学家罗凯尔(Kyle Lo)表示,规模较小的企业根本无法负担这些数据授权费用,自然无法开发或研究AI模型。
眼见AI训练数据市场规模日益壮大,许多数据中介公司或内容平台开始贩卖数据与索取高价,完全不理会用户反对。图片库供应商Shutterstock近日便与AI业者签订2,500万~5,000万美元不等的授权协议。社群论坛Reddit则声称,该公司已透过资料授权从谷歌与OpenAI等公司手中赚得数亿美元。