随意平移轻松生成广角视频,开源方案VidPanos颠覆传统手机全景拍摄

全景图像拼接能够提供超出相机视野的场景宽广视角。 将平移视频的帧拼接成全景照片在静态场景中是一个相对成熟的问题,但当场景中有移动物体时,静态全景无法完整捕捉到这些画面。 传统的拍摄方式往往无法捕捉到场景的全貌,特别是当我们拍摄动态场景时,常常只能得到一段有限的视角。(链接在文章底部)

谷歌和华盛顿大学联合提出了一种从随意捕捉的平移视频合成全景视频的方法VidPanos,就像原视频是用广角相机拍摄的一样。将全景合成视为一个时空扩展的问题,目标是生成与输入视频长度相同的全景视频,弥补现有技术的不足。现有的视频生成模型并不直接适用于全景合成,因此需要将视频生成作为全景合成系统的一个组成部分,还需要添加模拟广角技术。

01 技术原理

简单来说,VidPanos过程是这样的:首先把普通的视频变成一个全景的画布,然后用智能算法来填补那些缺失的部分。因为普通的视频内容通常比较复杂,远远超过了许多现有技术能够处理的范围,VidPanos采用了特别的策略来逐步完善这个全景视频,让最终效果更加完美。

首先,将输入视频投影到一个全景画布上。接着,减少视频的时间细节,制作一个基础的全景视频。然后,逐步提升视频的时间细节和画面质量。最后,将原始视频的一部分与处理后的结果结合起来,生成最终的全景视频。这个过程确保了视频既清晰又生动。

空间聚合的过程是这样的:VidPanos想在两个预测的区域重叠部分生成新的样本。为此,先把两个概率分布结合起来,然后从这个结合后的分布中随机选择一个值。

为了在重叠区域(红色)生成样本,对两个预测的概率分布(紫色和橙色)进行线性插值,然后从聚合的分布(棕色)中进行采样。使用基于令牌的方法时,分布是一个离散的词汇分布。而在扩散模型中,分布是一个关于像素值的高斯分布,用 和 Σ 表示。

02 对比与实际效果

传统的线性插值在静止画面上表现很好,但对运动物体无能为力。ProPainter 和 E2FGVI 在静态场景中表现不错,但在移动场景中效果差强人意。MAGVIT 尽管是视频生成方法,却因为不在统一的全景画布上处理数据而丢失了一些信息。

VidPanos技术则通过粗到细的处理方式,生成了更一致、真实的全景视频,能够更好地反映实际情况。

欢迎交流~,带你学习AI,了解AI