YouTube成AI训练新宠? OpenAI操作手法曝光
《纽约时报》指出,OpenAI利用YouTube影片来训练GPT-4。(图/路透社)
以聊天机器人ChatGPT一炮而红的人工智慧公司OpenAI,去年发布功能更强大的GPT-4,成为AI领域的衡量标竿。而这样快速的进步或许靠的正是YouTube影片的「帮忙」。据《纽约时报》报导,OpenAI利用AI版权法的模糊地带,转录了超过100万小时的YouTube影片,用于训练其先进大型语言模型GPT-4。
YouTube 是网路上最大且最丰富的图像、音讯与文字记录来源。在AI技术迅速发展之际,数据对推动AI模型的进步至关重要,各相关企业对训练数据的需求更为迫切。YouTube因此成为科技公司锁定的目标。
据《纽约时报》报导,OpenAI在2021年底就面临了训练数据短缺的难题。为了开发最新的人工智慧系统,OpenAI已耗尽网路上所有有信誉的英语文字库,然而为了训练其技术的下一个版本,显然还需要更多的数据。
为了克服数据短缺的难题,OpenAI的研究人员开发出一款名为「Whisper」的语音辨识工具,将超过100万小时的YouTube影片内容转化为文字,用于训练其先进的大型语言模型GPT-4。
《纽约时报》报导中指出,其实OpenAI的部分员工也讨论过这个做法可能违反YouTube 的规则。可是消息人士表示,尽管了解这样做在法律层面有问题,但OpenAI 团队最终仍转录了超过100万小时的YouTube 影片,而这个团队中还包括了OpenAI总裁Greg Brockman,他甚至亲自帮忙收集这些影片。
可是对于旗下的YouTube被OpenAI当作训练工具,Google并未出面制止,原因似乎与Google自身也同样借由YouTube影片内容训练其人工智慧模型有关。
YouTube执行长Neal Mohan日前曾在受访时表示,他没有直接证据能够证明OpenAI确实使用了YouTube的影片来训练其文字生成影片AI工具Sora,但同时也强调,如果OpenAI真的使用了,那就明显违反了YouTube平台的使用条款。
但《纽约时报》指出,为了在AI竞赛中抢先,搜寻推动技术所需的数位数据已成为重要课题,而为了取得这些数据,包括OpenAI、Google与脸书母公司 Meta 在内的科技公司纷纷选择走捷径,无视公司政策,甚至还讨论如何扭曲法规限制。