五官乱飞,张嘴、瞪眼、挑眉,AI能模仿到位,视频诈骗要防不住了

机器之心报道

编辑:陈萍、小舟

防不住,根本防不住,现在 AI 模仿能力已经发展到这种程度了?

你前脚让自己的五官乱飞,后脚,一模一样的表情就被复现出来,瞪眼、挑眉、嘟嘴,不管多么夸张的表情,都模仿的非常到位。

加大难度,让眉毛挑的再高些,眼睛睁的再大些,甚至连嘴型都是歪的,虚拟人物头像也能完美复现表情。

你在左边调节参数,右面的虚拟头像也会跟着变换动作:

给嘴巴、眼睛一个特写,模仿的不能说完全相同,只能说表情一模一样(最右边)。

这项研究来自慕尼黑工业大学等机构,他们提出了 GaussianAvatars,这种方法可用来创建在表情,姿态和视角( viewpoint )方面完全可控的逼真头部虚拟( head avatars)。

该研究表示,在计算机视觉和图形学中,创造可以动的人类虚拟头部一直存在挑战,特别是,极端的面部表情和细节,如皱纹、头发等这些细节都很难捕捉,生成的虚拟人物很容易出现视觉伪影。

一直以来,神经辐射场(NeRF )及其变体在从多视图观察中重建静态场景方面显示出了令人印象深刻的结果。后续研究又进行了扩展,使得 NeRF 可用于人类定制场景的动态场景建模。然而,这些方法缺乏可控性,因此不能很好地泛化到新的姿态和表情。

最近新出现的「3D Gaussian Splatting」方法实现了比 NeRF 更高的渲染质量,可用于实时的视图合成。然而,这种方法不允许重建输出的动画。

本文提出了 GaussianAvatars,这是一种基于三维高斯 splats 的动态 3D 人头表示方法。

具体而言,给定一个 FLAME(对整个头部进行建模)网格 ,他们在每个三角形的中心初始化一个 3D 高斯。当将 FLAME 网格动画化时,每个高斯模型都会根据其父三角形进行平移、旋转和缩放。然后,3D 高斯在网格顶部形成辐射场,补偿网格未准确对齐或无法再现某些视觉元素的区域。

为了实现重建虚拟人物的高保真度,本文引入了绑定继承策略。此外,本文还探索了如何平衡保真度和鲁棒性,以新颖的表情和姿态来动画化虚拟人物。结果表明,GaussianAvatars 在新颖视图渲染、驾驶视频重现等方面都远远优于现有的研究。

方法简介

如下图 2 所示,GaussianAvatars 的输入是人头的多视图视频记录。对于每个时间步,GaussianAvatars 使用光度头部跟踪器(head tracker)将 FLAME 参数与多视图观察和已知相机参数相匹配。

FLAME 网格的顶点位于不同的位置,但共享相同的拓扑,因此研究团队可以在网格三角形和 3D 高斯splat之间建立一致的连接。通过可微分的图块光栅器(tile rasterizer)将splat渲染成图像。然后,这些图像由真实图像监督,以学习逼真的人体头部头像。

静态场景还需要通过一组自适应密度控制操作来致密化和修剪高斯splat以获得最佳质量。为了在不破坏三角形和splat之间连接的情况下实现这一点,研究团队设计了一种绑定继承(binding inheritance)策略,以便新的高斯点与 FLAME 网格保持绑定。

实验结果

该研究通过新视图合成来评估重建质量,并通过 self-reenactment 来评估动画保真度。下图 3 显示了定性比较结果。对于新视图合成,所有方法都会产生合理的渲染结果。对 PointAvatar 的结果的仔细检查显示,由于其固定的点大小,出现了点状伪影,而 GaussianAvatars 通过3D 高斯的各向异性缩放缓解了这个问题。

从表 1 的定量比较中也可以得出类似的结论。GaussianAvatars 在新视图合成指标方面远远优于其他方法,在 self-reenactment 方面也很突出,在 LPIPS 方面的感知差异显著降低。请注意,self-reenactment 基于跟踪的 FLAME 网格,可能无法与目标图像完美对齐。

为了对虚拟形象动画进行现实世界的测试,该研究对图 4 中的 cross-identity reenactment 进行了实验,虚拟形象准确地再现了源演员的眨眼和嘴巴动作,显示出活泼、复杂的动态,例如皱纹。

为了验证方法组件的有效性,该研究还进行了消融实验,结果如下图。