☰

爱诗科技创始人王长虎：生成更长AI视频是接下来要做的事情

《科创板日报》6月15日讯（记者李明明）“目前，AI视频生成产品能用的也就是3—5秒，生成更长视频，意味着误差随之会更大，但也是接下来要做的事情，”爱诗科技创始人王长虎2024北京智源大会上表示。**

作为通用人工智能的重要一环，AI视频生成领域从去年开始取得突破性进展，诞生了多个爆款应用。但当前仍存在许多限制，如只能生成短时间的视频，且质量参差不齐。

2024年6月14日-15日，AI行业盛会“2024北京智源大会”在中关村展示中心举行。在大会上，王长虎回顾了AI视频生成的历史发展，生成领域最新技术的应用进展、未来发展的趋势以及面临的挑战。

他表示，AI视频生成的发展经历了三个阶段，早期的视频生成是检索完成的，视频里面每一个素材都是原有的，比如通过数据库和智能的方式等找到合适的素材，现在依然可以刷到类似的视频。

第二是部分生成，需要输入一个视频，通过AI技术做局部部分的生成，这项技术广泛应用在各种部分生成需求的特效之中，包括美颜特效、动漫风的生成等。

第三是当前热点，即输入一张图片凭空生成视频，今年这方面的进展是飞速的。从2014年开始，视频生成技术发展了十个年头，随着GAN技术的出现，这种生成技术才真正的使用起来。从2023年开始，很多视频生成的技术和产品逐渐出现，比如今年Sora的横空出世。

关于Sora，在王长虎看来，其最重要的贡献是验证了AI视频生成的规模定律，即模型越大，可用的优质数量数据越多，产生的效果越好。而当优质数量数据增加至4—32倍的时候，生成的质量会非常好。

当前，文生视频领域竞争加剧。对于未来AI视频生成的突破问题，王长虎认为，首先需要对运动和世界进行更好的建模，提升AI生成视频的成功率。

其次，目前，AI视频生成产品能用的也就是3—5秒，生成更长视频，意味着误差随之会更大，但生成更长的视频是接下来要做的事情。

第三是重点攻坚，现在AI视频生成往往是单镜头的，但当真正使用时，则是需要将多个镜头组合在一起的。因此，如何表达镜头语言并把其合理地放在模型里，也是未来AI视频生成要解决的问题。

爱诗科技创始人王长虎： 生成更长AI视频是接下来要做的事情