智源发布原生多模态世界模型Emu3,无需扩散模型

日前,智源研究院方面正式发布原生多模态世界模型Emu3。据了解,该模型只基于下一个token预测,无需扩散模型或组合方法,即可完成文本、图像、视频三种模态数据的理解和生成。值得一提的是,目前该模型已开源关键技术和模型。

据悉,Emu3提供了一个强大的视觉tokenizer,能够将视频和图像转换为离散token,这些视觉离散token可与文本tokenizer输出的离散token一起送入模型。与此同时,该模型输出的离散token可以被转换为文本、图像和视频,为Any-to-Any的任务提供更统一的研究范式。

此外受益于Emu3下一个token预测框架的灵活性,直接偏好优化(DPO)可无缝应用于自回归视觉生成,使得模型与人类偏好保持一致。

据了解,Emu3保留了主流大语言模型(即Llama-2)的网络架构,不同点在于其扩展了Llama-2架构中的嵌入层,以容纳离散的视觉token。此外还使用了GQA注意力机制、SwiGLU激活函数和一维旋转位置编码(RoPE)等技术,并去除注意力模块中QKV层和线性投影层中的偏置,并且其还采用0.1的dropout率来提高训练的稳定性,以及使用QwenTokenizer来对多语言文本进行编码。

据智源研究院院长王仲远介绍,自去年以来,智源研发团队通过不断探索,为文字、图像、视频发明了一种新“语言”,使得过去难以互通的不同模态信息,能够在一个统一的空间里进行表达,从而实现原生多模态世界模型的重要突破。目前,Emu3在图像生成、视频生成、视觉语言理解等任务中超过SDXL、LLaVA、OpenSora等开源模型。

王仲远表示,“Emu3会为未来多模态基座模型的发展指明一个方向,是下一代的多模态大模型的训练范式。对于这样的技术路线,需要各界共同努力,才能加速多模态基座模型的发展。期待在产业转化过程中,Emu3能够像悟道系列,与各大模型公司、互联网企业等合作,共同推进技术的应用”。

不久前,智源研究院研发的开源通用向量系列模型BGE(BAAI General Embedding)登顶Hugging Face月度榜单榜首,据悉这也是中国首个登顶该榜单的模型。据官方透露,在一年内BGE的总下载量已超数亿次,同时也是下载量最多的国产AI系列模型。据了解,该模型专为各类信息检索及大语言模型检索增强应用打造。

【本文图片来自网络】