☰

可灵对标Sora 快手加入文生视频战局

本报记者李昆昆李正豪北京报道

在OpenAI文生视频大模型Sora发布后，国内企业争相入局，国产文生视频大模型迈入加速阶段。近日，又一国产视频大模型加入战局，快手“可灵”视频生成大模型官网正式上线。相较此前各家放出的视频大模型以展示视频为主，本次亮相的可灵大模型效果对标Sora，并已在快手旗下的快影App开放邀测体验。

快手方面接受《中国经营报》记者采访时表示：“可灵采用类Sora的技术路线并结合多项自研创新技术，具备诸多优势：一是能够生成大幅度的合理运动；二是能够模拟物理世界特性；三是具备强大的概念组合能力和想象力；四是生成的视频分辨率高达1080p，最长可达2分钟（帧率30fps），且支持自由的宽高比。”

可灵的技术路线

2024年，快手先后发布1750亿参数规模的通用大语言模型“快意”和文生图大模型产品“可图”。在视频生成上，快手也曾与多个高校或科研机构联手，陆续发布可控运动的视频生成算法Direct-a-Video、多模态生成算法Video-LaVIT、图生视频算法I2V-Adapter、多模态美学评价模型UNIAA等关键技术，为可灵大模型积累了深厚的技术沉淀。

今年6月，快手推出了自研的视频生成大模型“可灵”，能够生成大幅度的合理运动，还能模拟物理世界特性，具备强大的概念组合能力和想象力，其能力对标国际领先的文生视频大模型Sora，生成的视频分辨率高达1080p，时长最高可达2分钟。据悉，图生视频功能也将于近期开放。

记者翻阅可灵技术文档发现，可灵大模型采用了原生的文生视频技术路线，替代了“图像生成+时序模块”的组合，这也是可灵生成时间长、帧率高，能准确处理复杂运动的核心原因。快手大模型团队认为，一个优秀的视频生成模型，需要考虑四大核心要素——模型设计、数据保障、计算效率和模型能力的扩展。

架构的选择方面，可灵整体框架采用了类Sora的DiT结构，用Transformer代替了传统扩散模型中基于卷积网络的U-Net。Transformer的处理能力和生成能力更强大，扩展能力更强、收敛效率更好，解决了U-Net在处理复杂任务时冗余过大、感受野和定位精度不可兼得的局限。在此基础之上，快手大模型团队还对模型中的隐空间编/解码、时序建模等模块进行了升维。

另外在时序信息建模上，快手大模型团队设计了一款计算高效的全注意力机制（3D Attention）作为时空建模模块。该方法可以更准确地建模复杂时空运动，同时还能兼顾运算成本，有效提升了模型的建模能力。

除了模型自身的能力，用户输入的文本提示词（Prompt）也对最终生成的效果有着重要影响。为此，团队专门设计了专用的语言模型，可以对用户输入的提示词进行高质量扩充及优化。

快手方面告诉记者，第一，我们可以看到视频生成的效果是在快速提升。其实大家也能看到一些Case，比如说它的质量已经接近于视频拍摄，也会有一些Case证明它的这个质量可能接近图形渲染。事实上，当效果接近图形渲染时，将给特效、游戏、动画行业带来变革。当效果接近视频拍摄时，将对泛视频行业带来新挑战和新机遇。随着这个效果提升越来越快，它会给一些相关的行业带来新的机遇，此外视频创作者和消费者界限会逐渐的模糊，未来如果有越来越多的视频消费者变成创作者，对于整个视频内容生态的繁荣是非常有帮助的。

第二，视频生成技术将不断演进。在技术层面，很显然技术在快速发展，不同的模态在不断地融合，包括理解和生成这两大任务也在融合。此外，好的技术与好的产品之间其实存在着巨大的鸿沟，所以这里面有非常多的工作，才能够真正地把一个好技术推向市场。最后，技术的基础创新也是非常重要的。

速途研究院院长丁道师告诉记者：“可灵现在也没有独立，它是在快影剪辑工具里面，如果将来做得好的话，完全可以独立。这种文生视频的服务做好了，其实不仅仅是个文生视频了，按照Sora的理解，它其实是一个世界模拟器，它可以做到什么级别呢？比如现在我们在现实世界搞各种各样的科学实验，要花很多钱，试验很多材料，如果有这样一个视频生成工具可以试验一些材料，就能大大节约成本，提高效率，前提是这个模型一定得靠谱。”

竞争激烈

就在快手可灵上线一周后的6月13日，Luma AI发布最新文生视频模型Dream Machine，向所有用户免费开放使用，其效率可以达到每120秒就能生成120帧画面，还能快速生成5秒钟的电影级别视觉效果的视频片段。此外，Luma的模型超越快手可灵的地方，是还有丰富的美学风格选项。

继Sora、Vidu、快手可灵、Luma AI轮番出场“秀”完之后，视频生成领域的核心玩家Runway也来了。

6月17日，AI视频生成初创公司Runway在官网宣布，即将推出新的视频生成模型Gen-3 Alpha，该模型可以创建具有复杂场景变化、多种电影风格和详细艺术指导的高精细视频。其在官网博客中秀出了数十个精彩的生成视频，无论是光线、色彩、运动轨迹、人物细节都非常逼真，有行业人士表示一些视频已具备Sora级别的质量。

同样瞄准视频大模型的还有美图。“目前市场上的AI视频产品倾向于提供文生视频等能力，我们认为只有深度理解创作者的需求，提炼有共性的视频场景，才能打造辅助内容创作的工具。”美图创始人吴欣鸿谈到新推出的AI短片创作工具MOKI时说，“MOKI聚焦于AI短片创作，专注于动画短片、网文短剧、故事绘本和MV等视频场景。”

具体的工作流程是：在脚本、视觉风格、角色等前期设定完成后，AI自动生成分镜图并转为视频素材，通过智能剪辑、AI配乐、AI音效、自动字幕等功能串联素材并实现成片。MOKI的上述能力即基于美图奇想大模型。

丁道师表示，现在中国在大模型这块儿和美国还有一定的差距，我们现在正在解决有和没有的问题，而他们是解决有和变得更好的问题，这是一个本质的差距。“当然，好在现在我们已经走出了第一步，快手现在开始尝试了，我觉得现在很难让他和Sora去相提并论，因为毕竟这还不是一个级别的。产品本身也不对，对比也不是特别客观。”

丁道师称，他特别看好文生视频的产品，假以时日，如果它的创作力能够不断升级，辅助我们把文字进行视频化创作，比如四大名著用文字表述的呈现方式太枯燥了，如果用视频呈现就可以更丰富、更精美，更加呈现出震撼的效果。再比如影视行业，陆川这么一个大导演，他都已经开始用人工智能生成视频来做一些尝试了。还有，游戏行业也可以做类似的尝试。

“可灵已经有好的案例，总体上来说只是一个开始，有待进步，但是未来是值得期待的。与此同时，不仅是快手，中国做大模型做得最好的那几家企业——百度、科大讯飞、华为、腾讯、阿里巴巴等，以后也一定会做文生视频相关的服务。而且要比当前国内的文生视频做得更好。那时，我觉得文生视频就有更大的应用空间和商业空间，可以进一步期待。”丁道师说。

（编辑：吴清审核：李正豪校对：刘军）

可灵对标Sora 快手加入文生视频战局

相关资讯