多模态大模型多元路径中,智源提出一种收敛可能

2024年中下旬,大模型赛道逐渐冷静,零星动态更新也主要聚焦于多模态领域。相较于大语言模型逐渐收敛的技术趋势,多模态领域技术路线暂时呈现多元化态势,如OpenAI Sora 基于Diffusion Transformer架构,生数科技的核心是使用一个统一的底层架构U-ViT来处理图像、3D、视频等多类复杂生成任务。

10月21日,智源研究院提出一种新训练范式,发布原生多模态世界模型Emu3,可实现视频、图像、文本三种模态的统一理解与生成。原理上,Emu3基于自回归技术路线(Autoregressive Model),只基于下一个token(输入数据的基本单位)预测,无需扩散模型或组合式方法,将图像、文本和视频编码为一个离散空间,在多模态混合序列上从头开始联合训练一个Transformer。

自回归技术路线属于多模态大模型领域的一种方法,核心思想是利用序列数据中的时间依赖性来预测未来的数据点。该类型模型中,不同模态数据共享同一套参数,可实现跨模态的关联和生成,无需人工设计的特征工程。同时因自回归技术路线的特点,在生成数据时模型必须按顺序进行,限制了并行计算的能力,导致生成速度较慢。也会遇到长期依赖问题,即模型难以捕捉序列中较远距离的依赖关系。

此前,谷歌与麻省理工学院(MIT)何恺明团队联合推进了一个新研究项目,推出名为Fluid的视觉自回归模型,采用连续token生成方式和随机顺序生成机制。国内市场中,智源研究院作为非营利性研究组织,率先推出自回归路线多模态模型,初衷为攻克大模型领域原始创新,目标在资源允许的情况下,在国际开源社区中展现中国技术实力与训练成果。目前智源研究院已开源了Emu3生成和理解一体的预训练模型以及相应的SFT训练代码,以方便后续研究和社区构建与集成。

Emu3之前,多模态生成任务主要由以Stable Diffusion为代表的扩散模型所主导,多模态理解任务由CLIP视觉编码器与LLM结合的组合式方法所主导。采访中,智源研究院院长王仲远对记者表示,Emu3证明了下一个token预测可以在多模态任务中有高性能的表现,有机会将基础设施建设收敛到一条技术路线上,为大规模的多模态训练和推理提供基础。

此前一位国内头部大模型企业人员对记者表示,大语言模型是多模态模型的“智商”基础,不论文生图还是图生视频模型,都需要大语言模型作为底座,再通过其他路径将不同模型连接,实现最终的多模态。王仲远对记者表示,Emu3有别于这类组合方法,采用的是原生统一的多模态技术范式。虽然多模态大模型训练所需资源并不比大语言模型要少,但可以极大程度上复用现有基础设施,包括技术范式与GPU集群等。

另外针对目前行业从训练端转向推理端的趋势变化,王仲远对记者表示,在技术路线收敛的趋势下,厂商会更积极地探索模型的落地场景。从乐观的角度来看,说明基础大模型已经达到一定的能力水平。另从谨慎的角度来说,训练转推理说明仅靠市场驱动,会令厂商陷入“追随者”的境地,不利于原始技术创新。

当下,王仲远称,研发多模态技术路线是比大语言模型更重要的时间节点,因为后者主要跟随已被验证的ChatGPT技术路线,而如今的多模态领域还处于非常早期。

至于Emu3模型的具体落地场景方向,王仲远表示,机器人大脑、自动驾驶、多模态对话和推理等都是潜在的应用方向。