訓練人工智慧 資料不夠用

祖克柏宣称,Meta在旗下平台可取得的资源是该公司在AI发展上的一大优势。(路透)

争相开发更强大人工智慧(AI)的企业很快就会遭遇一个新难题:比起他们的远大计划,网际网路太小了。

网路资源供不应求的主要原因是,有些资料所有人不让AI公司透过网际网路取用他们拥有的资料,而网际网路上优质的公共资源也不多。有的AI业界高阶主管与研究人员认为,符合AI训练所需的高品质文本资料,可能在两年内就会出现供应短缺问题,拖累AI发展速度。

知情人士说,AI公司已在寻找尚未开发的资料来源,也重新思考该如何训练AI系统。ChatGPT开发商OpenAI就讨论过,将公开的YouTube影片内容转换成脚本,拿来训练公司的下一代AI模型GPT-5。也有公司尝试使用AI生成的资料(也称「合成资料」)作为训练材料,不过许多研究人员说,这种方法实际上可能会造成系统严重故障。

AI公司物色所需资料通常都秘密进行,业者相信,这些手段都攸关竞争优势。

目前AI语言模型是使用取自网际网路的文本所建立,收进来的材料被分解成词元(token),AI模型用它们来学习如何构建出类似人类的表达。

OpenAI没有透露过目前最先进的语言模型GPT-4的详细训练材料。根据AI研究专家维拉罗伯推估,GPT-4的训练素材应该已经多达12兆个词元;而根据一个电脑运算扩展定律,如果继续遵循当前轨迹,像GPT-5这样的AI系统将需要60兆到100兆个词元的资料。

Meta Platforms执行长祖克柏最近宣传了公司可由自家旗下各平台获取资料的能力,认定这将会是Meta发展AI的一大优势。他说,Meta可以挖掘旗下Facebook、Instagram等网站上,数以千亿计公开分享的图片和影片,总量大于多数常用的资料集。不过数量虽大,但还不清楚有多大比率会被视为高品质资料。

OpenAI执行长奥特曼则说过,OpenAI正在研究训练未来AI模型的新方法。他去年在一场会议上提到,「我认为我们正处于那种模型要很大、很大的时代的末期;我们会用其他方法让AI系统变得更好」。