Meta又又又推出全新可控图像插值生成视频方法MarDini,效果真不错~
近日Meta 推出了MarDini,这是一种新的视频生成模型,它结合了掩蔽自回归(MAR)技术和一种轻量的DiT扩散模型结合的优势,因此叫它MarDini。MarDini是一种灵活、高效且可扩展的视频生成模型。它能够根据需求执行多种任务,例如将图像转化为视频、扩展视频和进行视频插值,而不依赖于图像预训练。(链接在文章底部)
MarDini可以根据不同的需求生成视频,比如填补缺失的中间帧,或者将一张图片转换成视频。 这个模型的特别之处在于,它可以处理不同的掩蔽方式,比如只掩蔽部分帧。通过调节掩蔽比例,MarDini可以从简单的插值任务逐步过渡到完整视频生成。 为了让处理更加高效,MarDini的设计将大部分计算资源用在低分辨率的模型上,这样即使是计算复杂的时空分析 也能快速运行,但它的生成速度和质量可以媲美那些成本更高的高级模型。
01 技术原理
用于视频生成。MarDini模型将视频生成分解为两个子任务—时间建模和空间建模——由不同的网络处理,并基于以下两个原则采用不对称设计:
1. MAR处理长时间范围的建模,而DM专注于详细的空间建模。
2. MAR在低分辨率下使用更多参数,而DM在高分辨率下使用较少参数。
MarDini的训练流程概述如下:首先,针对未被掩蔽的帧计算潜在表示,这些表示作为生成过程的条件信号。一方面,有一个规划模型,通过自回归地编码来自未掩蔽潜在输入的低分辨率全局条件信号。另一方面,规划信号通过交叉注意力层输入到基于扩散的生成模型中。
此外,扩散模型还接收高分辨率的输入条件,从而实现生成时保持一致的时间结构,并能够直接关注未掩蔽帧的细节。MarDini通过掩蔽帧级别的扩散损失进行端到端训练。
MarDini采用了变换器架构,分别用于规划模型和生成模型,其中生成模型使用了DiT风格的模块,而规划模型则使用了Llama风格的模块。 设置了L1 ≫ L2,其中L1和L2分别指规划模型和生成模型的层数。
02 实际效果
MarDini通过将一帧图像作为条件输入,成功生成了平滑的2秒视频,展示了其在图像转视频生成中的强大能力。
MarDini通过从5帧参考视频生成2秒的扩展,成功地展示了其视频扩展能力。
MarDini利用边界帧进行中间帧生成,实现了视频插值,并能够制作无缝循环视频。
MarDini通过自回归生成慢动作视频,展示了其在长时间视频生成中的强大潜力。
MarDini展现出在3D视图合成中的潜力,能够生成一致的3D视图,尽管未进行专门的训练。
欢迎交流~,带你学习AI,了解AI