爱诗科技创始人王长虎: 生成更长AI视频是接下来要做的事情

《科创板日报》6月15日讯(记者 李明明)“目前,AI视频生成产品能用的也就是3—5秒,生成更长视频,意味着误差随之会更大,但也是接下来要做的事情,”爱诗科技创始人王长虎2024北京智源大会上表示。**

作为通用人工智能的重要一环,AI视频生成领域从去年开始取得突破性进展,诞生了多个爆款应用。但当前仍存在许多限制,如只能生成短时间的视频,且质量参差不齐。

2024年6月14日-15日,AI行业盛会“2024北京智源大会”在中关村展示中心举行。在大会上,王长虎回顾了AI视频生成的历史发展,生成领域最新技术的应用进展、未来发展的趋势以及面临的挑战。

他表示,AI视频生成的发展经历了三个阶段,早期的视频生成是检索完成的,视频里面每一个素材都是原有的,比如通过数据库和智能的方式等找到合适的素材,现在依然可以刷到类似的视频。

第二是部分生成,需要输入一个视频,通过AI技术做局部部分的生成,这项技术广泛应用在各种部分生成需求的特效之中,包括美颜特效、动漫风的生成等。

第三是当前热点,即输入一张图片凭空生成视频,今年这方面的进展是飞速的。从2014年开始,视频生成技术发展了十个年头,随着GAN技术的出现,这种生成技术才真正的使用起来。从2023年开始,很多视频生成的技术和产品逐渐出现,比如今年Sora的横空出世。

关于Sora,在王长虎看来,其最重要的贡献是验证了AI视频生成的规模定律,即模型越大,可用的优质数量数据越多,产生的效果越好。而当优质数量数据增加至4—32倍的时候,生成的质量会非常好。

当前,文生视频领域竞争加剧。对于未来AI视频生成的突破问题,王长虎认为,首先需要对运动和世界进行更好的建模,提升AI生成视频的成功率。

其次,目前,AI视频生成产品能用的也就是3—5秒,生成更长视频,意味着误差随之会更大,但生成更长的视频是接下来要做的事情。

第三是重点攻坚,现在AI视频生成往往是单镜头的,但当真正使用时,则是需要将多个镜头组合在一起的。因此,如何表达镜头语言并把其合理地放在模型里,也是未来AI视频生成要解决的问题。