☰

智源发布原生多模态世界模型Emu3，无需扩散模型

日前，智源研究院方面正式发布原生多模态世界模型Emu3。据了解，该模型只基于下一个token预测，无需扩散模型或组合方法，即可完成文本、图像、视频三种模态数据的理解和生成。值得一提的是，目前该模型已开源关键技术和模型。

据悉，Emu3提供了一个强大的视觉tokenizer，能够将视频和图像转换为离散token，这些视觉离散token可与文本tokenizer输出的离散token一起送入模型。与此同时，该模型输出的离散token可以被转换为文本、图像和视频，为Any-to-Any的任务提供更统一的研究范式。

此外受益于Emu3下一个token预测框架的灵活性，直接偏好优化（DPO）可无缝应用于自回归视觉生成，使得模型与人类偏好保持一致。

据了解，Emu3保留了主流大语言模型（即Llama-2）的网络架构，不同点在于其扩展了Llama-2架构中的嵌入层，以容纳离散的视觉token。此外还使用了GQA注意力机制、SwiGLU激活函数和一维旋转位置编码（RoPE）等技术，并去除注意力模块中QKV层和线性投影层中的偏置，并且其还采用0.1的dropout率来提高训练的稳定性，以及使用QwenTokenizer来对多语言文本进行编码。

据智源研究院院长王仲远介绍，自去年以来，智源研发团队通过不断探索，为文字、图像、视频发明了一种新“语言”，使得过去难以互通的不同模态信息，能够在一个统一的空间里进行表达，从而实现原生多模态世界模型的重要突破。目前，Emu3在图像生成、视频生成、视觉语言理解等任务中超过SDXL、LLaVA、OpenSora等开源模型。

王仲远表示，“Emu3会为未来多模态基座模型的发展指明一个方向，是下一代的多模态大模型的训练范式。对于这样的技术路线，需要各界共同努力，才能加速多模态基座模型的发展。期待在产业转化过程中，Emu3能够像悟道系列，与各大模型公司、互联网企业等合作，共同推进技术的应用”。

不久前，智源研究院研发的开源通用向量系列模型BGE（BAAI General Embedding）登顶Hugging Face月度榜单榜首，据悉这也是中国首个登顶该榜单的模型。据官方透露，在一年内BGE的总下载量已超数亿次，同时也是下载量最多的国产AI系列模型。据了解，该模型专为各类信息检索及大语言模型检索增强应用打造。

【本文图片来自网络】

智源发布原生多模态世界模型Emu3，无需扩散模型

相关资讯