可灵对标Sora 快手加入文生视频战局

本报记者 李昆昆 李正豪 北京报道

在OpenAI文生视频大模型Sora发布后,国内企业争相入局,国产文生视频大模型迈入加速阶段。近日,又一国产视频大模型加入战局,快手“可灵”视频生成大模型官网正式上线。相较此前各家放出的视频大模型以展示视频为主,本次亮相的可灵大模型效果对标Sora,并已在快手旗下的快影App开放邀测体验。

快手方面接受《中国经营报》记者采访时表示:“可灵采用类Sora的技术路线并结合多项自研创新技术,具备诸多优势:一是能够生成大幅度的合理运动;二是能够模拟物理世界特性;三是具备强大的概念组合能力和想象力;四是生成的视频分辨率高达1080p,最长可达2分钟(帧率30fps),且支持自由的宽高比。”

可灵的技术路线

2024年,快手先后发布1750亿参数规模的通用大语言模型“快意”和文生图大模型产品“可图”。在视频生成上,快手也曾与多个高校或科研机构联手,陆续发布可控运动的视频生成算法Direct-a-Video、多模态生成算法Video-LaVIT、图生视频算法I2V-Adapter、多模态美学评价模型UNIAA等关键技术,为可灵大模型积累了深厚的技术沉淀。

今年6月,快手推出了自研的视频生成大模型“可灵”,能够生成大幅度的合理运动,还能模拟物理世界特性,具备强大的概念组合能力和想象力,其能力对标国际领先的文生视频大模型Sora,生成的视频分辨率高达1080p,时长最高可达2分钟。据悉,图生视频功能也将于近期开放。

记者翻阅可灵技术文档发现,可灵大模型采用了原生的文生视频技术路线,替代了“图像生成+时序模块”的组合,这也是可灵生成时间长、帧率高,能准确处理复杂运动的核心原因。快手大模型团队认为,一个优秀的视频生成模型,需要考虑四大核心要素——模型设计、数据保障、计算效率和模型能力的扩展。

架构的选择方面,可灵整体框架采用了类Sora的DiT结构,用Transformer代替了传统扩散模型中基于卷积网络的U-Net。Transformer的处理能力和生成能力更强大,扩展能力更强、收敛效率更好,解决了U-Net在处理复杂任务时冗余过大、感受野和定位精度不可兼得的局限。在此基础之上,快手大模型团队还对模型中的隐空间编/解码、时序建模等模块进行了升维。

另外在时序信息建模上,快手大模型团队设计了一款计算高效的全注意力机制(3D Attention)作为时空建模模块。该方法可以更准确地建模复杂时空运动,同时还能兼顾运算成本,有效提升了模型的建模能力。

除了模型自身的能力,用户输入的文本提示词(Prompt)也对最终生成的效果有着重要影响。为此,团队专门设计了专用的语言模型,可以对用户输入的提示词进行高质量扩充及优化。

快手方面告诉记者,第一,我们可以看到视频生成的效果是在快速提升。其实大家也能看到一些Case,比如说它的质量已经接近于视频拍摄,也会有一些Case证明它的这个质量可能接近图形渲染。事实上,当效果接近图形渲染时,将给特效、游戏、动画行业带来变革。当效果接近视频拍摄时,将对泛视频行业带来新挑战和新机遇。随着这个效果提升越来越快,它会给一些相关的行业带来新的机遇,此外视频创作者和消费者界限会逐渐的模糊,未来如果有越来越多的视频消费者变成创作者,对于整个视频内容生态的繁荣是非常有帮助的。

第二,视频生成技术将不断演进。在技术层面,很显然技术在快速发展,不同的模态在不断地融合,包括理解和生成这两大任务也在融合。此外,好的技术与好的产品之间其实存在着巨大的鸿沟,所以这里面有非常多的工作,才能够真正地把一个好技术推向市场。最后,技术的基础创新也是非常重要的。

速途研究院院长丁道师告诉记者:“可灵现在也没有独立,它是在快影剪辑工具里面,如果将来做得好的话,完全可以独立。这种文生视频的服务做好了,其实不仅仅是个文生视频了,按照Sora的理解,它其实是一个世界模拟器,它可以做到什么级别呢?比如现在我们在现实世界搞各种各样的科学实验,要花很多钱,试验很多材料,如果有这样一个视频生成工具可以试验一些材料,就能大大节约成本,提高效率,前提是这个模型一定得靠谱。”

竞争激烈

就在快手可灵上线一周后的6月13日,Luma AI发布最新文生视频模型Dream Machine,向所有用户免费开放使用,其效率可以达到每120秒就能生成120帧画面,还能快速生成5秒钟的电影级别视觉效果的视频片段。此外,Luma的模型超越快手可灵的地方,是还有丰富的美学风格选项。

继Sora、Vidu、快手可灵、Luma AI轮番出场“秀”完之后,视频生成领域的核心玩家Runway也来了。

6月17日,AI视频生成初创公司Runway在官网宣布,即将推出新的视频生成模型Gen-3 Alpha,该模型可以创建具有复杂场景变化、多种电影风格和详细艺术指导的高精细视频。其在官网博客中秀出了数十个精彩的生成视频,无论是光线、色彩、运动轨迹、人物细节都非常逼真,有行业人士表示一些视频已具备Sora级别的质量。

同样瞄准视频大模型的还有美图。“目前市场上的AI视频产品倾向于提供文生视频等能力,我们认为只有深度理解创作者的需求,提炼有共性的视频场景,才能打造辅助内容创作的工具。”美图创始人吴欣鸿谈到新推出的AI短片创作工具MOKI时说,“MOKI聚焦于AI短片创作,专注于动画短片、网文短剧、故事绘本和MV等视频场景。”

具体的工作流程是:在脚本、视觉风格、角色等前期设定完成后,AI自动生成分镜图并转为视频素材,通过智能剪辑、AI配乐、AI音效、自动字幕等功能串联素材并实现成片。MOKI的上述能力即基于美图奇想大模型。

丁道师表示,现在中国在大模型这块儿和美国还有一定的差距,我们现在正在解决有和没有的问题,而他们是解决有和变得更好的问题,这是一个本质的差距。“当然,好在现在我们已经走出了第一步,快手现在开始尝试了,我觉得现在很难让他和Sora去相提并论,因为毕竟这还不是一个级别的。产品本身也不对,对比也不是特别客观。”

丁道师称,他特别看好文生视频的产品,假以时日,如果它的创作力能够不断升级,辅助我们把文字进行视频化创作,比如四大名著用文字表述的呈现方式太枯燥了,如果用视频呈现就可以更丰富、更精美,更加呈现出震撼的效果。再比如影视行业,陆川这么一个大导演,他都已经开始用人工智能生成视频来做一些尝试了。还有,游戏行业也可以做类似的尝试。

“可灵已经有好的案例,总体上来说只是一个开始,有待进步,但是未来是值得期待的。与此同时,不仅是快手,中国做大模型做得最好的那几家企业——百度、科大讯飞、华为、腾讯、阿里巴巴等,以后也一定会做文生视频相关的服务。而且要比当前国内的文生视频做得更好。那时,我觉得文生视频就有更大的应用空间和商业空间,可以进一步期待。”丁道师说。

(编辑:吴清 审核:李正豪 校对:刘军)