Meta的新型AI模型可通过观看视频进行学习 未来还将加入声音数据维度

Meta 公司的人工智能研究人员发布了一个新模型,该模型的训练方式与当今的大型语言模型类似,但它不是从书面文本中学习,而是从视频中学习。LLM 通常在数千个句子或短语中进行训练,其中一些词语被屏蔽,迫使模型寻找最佳词语来填补空白,这样,它们就能获得对世界的基本感知。

Meta公司 FAIR(基础人工智能研究)小组负责人Yann LeCun提出,如果人工智能模型能在视频片段中使用相同的遮蔽技术,它们就能更快地学习。

LeCun 说:"我们的目标是打造先进的机器智能,使其能够像人类一样学习。形成周围世界的内部模型,以便高效地学习、适应和制定计划,为完成复杂任务服务。"

LeCun 理论的具体体现是一种名为视频联合嵌入预测架构(V-JEPA)的研究模型。它通过处理无标记的视频来进行学习,并推测出在黑屏的几秒钟内,屏幕的某一部分可能发生了什么。

需要注意的是,V-JEPA 并不是一个生成模型。Meta 的研究人员说,V-JEPA 在使用视频遮蔽进行预训练后,"擅长检测和理解物体之间高度细致的互动"。这项研究可能会对 Meta 和更广泛的人工智能生态系统产生重大影响。

Meta公司之前在开发增强现实眼镜时曾谈到过"世界模型"。这种眼镜将使用这样一个模型作为人工智能助手的大脑,除其他外,它还能预测向用户展示哪些数字内容,以帮助用户完成工作并获得更多乐趣。该模型从一开始就对眼镜外的世界具有视听理解能力,但随后可以通过设备的摄像头和麦克风快速了解用户世界的独特特征。

V-JEPA 还可能改变人工智能模型的训练方式。目前的基础模型预训练方法需要大量的时间和计算能力(这对生态环境有影响)。换句话说,目前开发基础模型是富人的专利。有了更高效的训练方法,这种情况就会改变。这符合Meta 的战略,即以开源方式发布其大部分研究成果,而不是像 OpenAI 和其他公司那样将其作为有价值的知识产权加以保护。如果训练成本降低,规模较小的开发者也许就能训练出规模更大、能力更强的模型。

LeCun 认为,目前的模型通过视觉和听觉进行学习,这正在减缓向人工通用智能(通常需要比人类更聪明)发展的速度。

在 V-JEPA 之后,Meta 的下一步计划是在视频中加入音频,这将为模型提供一个全新的学习数据维度,这就像一个孩子在观看静音电视时将声音调大一样。孩子们不仅能看到物体的移动,还能听到人们谈论物体的声音。

Meta 公司表示,它将以知识共享(Creative Commons)非商业许可的方式发布 V-JEPA 模型,这样研究人员就可以对其进行实验,或许还能扩展其功能。