☰

訓練人工智慧資料不夠用

祖克柏宣称，Meta在旗下平台可取得的资源是该公司在AI发展上的一大优势。（路透）

争相开发更强大人工智慧（AI）的企业很快就会遭遇一个新难题：比起他们的远大计划，网际网路太小了。

网路资源供不应求的主要原因是，有些资料所有人不让AI公司透过网际网路取用他们拥有的资料，而网际网路上优质的公共资源也不多。有的AI业界高阶主管与研究人员认为，符合AI训练所需的高品质文本资料，可能在两年内就会出现供应短缺问题，拖累AI发展速度。

知情人士说，AI公司已在寻找尚未开发的资料来源，也重新思考该如何训练AI系统。ChatGPT开发商OpenAI就讨论过，将公开的YouTube影片内容转换成脚本，拿来训练公司的下一代AI模型GPT-5。也有公司尝试使用AI生成的资料（也称「合成资料」）作为训练材料，不过许多研究人员说，这种方法实际上可能会造成系统严重故障。

AI公司物色所需资料通常都秘密进行，业者相信，这些手段都攸关竞争优势。

目前AI语言模型是使用取自网际网路的文本所建立，收进来的材料被分解成词元（token），AI模型用它们来学习如何构建出类似人类的表达。

OpenAI没有透露过目前最先进的语言模型GPT-4的详细训练材料。根据AI研究专家维拉罗伯推估，GPT-4的训练素材应该已经多达12兆个词元；而根据一个电脑运算扩展定律，如果继续遵循当前轨迹，像GPT-5这样的AI系统将需要60兆到100兆个词元的资料。

Meta Platforms执行长祖克柏最近宣传了公司可由自家旗下各平台获取资料的能力，认定这将会是Meta发展AI的一大优势。他说，Meta可以挖掘旗下Facebook、Instagram等网站上，数以千亿计公开分享的图片和影片，总量大于多数常用的资料集。不过数量虽大，但还不清楚有多大比率会被视为高品质资料。

OpenAI执行长奥特曼则说过，OpenAI正在研究训练未来AI模型的新方法。他去年在一场会议上提到，「我认为我们正处于那种模型要很大、很大的时代的末期；我们会用其他方法让AI系统变得更好」。

訓練人工智慧 資料不夠用

相关资讯

訓練人工智慧資料不夠用