NVIDIA Research致力人工智慧 一瞬间2D照片变3D场景

这项称为逆向渲染(inverse rendering)的过程,利用AI来预估光线在真实世界中的表现,让研究人员能利用从不同角度拍摄的少量2D影像来重建3D场景。NVIDIA Research团队开发出一种方法,几乎能在瞬间内完成这项任务,是同类中首批将超高速神经网路训练与快速渲染相结合的模型之一。

NVIDIA将该方法应用在一种称为神经辐射场(Neural Radiance Fields,NeRF)的热门新技术上,创造出InstantNeRF这项当今渲染速度最快的NeRF技术,在某些情况下速度可以提升超过1,000倍。用数十张静态照片,便能在几秒钟内完成训练模型,再加上拍摄角度的资料,在几十毫秒内即可渲染出生成的3D场景。

NVIDIA绘图研究部门副总裁David Luebke表示,如果说多边形网格这样的传统3D表现方式像是向量图形,那么NeRF就像是点阵图,它们会密集捕捉光线从物体或场景中辐射出来的方式。从这个意义上来说,Instant NeRF对3D的重要性,不亚于数位相机和JPEG压缩技术对2D摄影的重要性,其可大幅提升3D捕捉与分享的速度、便利性和范围。

在NVIDIA GTC大会议程中展示的Instant NeRF,可用于为虚拟世界建立化身或场景、以3D方式拍摄视讯会议的与会者以及所处环境,或是为3D数位地图重建场景。

NVIDIA Research团队为了向早期的宝丽来照片致敬,重现了安迪.沃荷(Andy Warhol)拍摄即时成像照片的经典照片,利用Instant NeRF将其转变为3D场景。

NeRF会依照输入的一组2D影像,使用神经网路来表现及渲染逼真的3D场景。

收集资料再投入NeRF的做法,有点类似红毯上的摄影师试着从各个角度拍摄名人身上的华丽服装,而神经网路需要有从场景四周多个位置拍摄的数十张照片,以及每张照片的相机位置等资料支援。

场景里的人或物体若移动,拍摄照片的速度则是愈快愈好。要是在拍摄2D影像的过程中,人或物体有过多的移动,AI便会生成模糊的3D场景。

基本上,NeRF在此时会填补空白处,训练一个小型神经网路,预测从3D空间中任何一点朝着任意方向辐射出的光线颜色来重建场景。这项技术甚至能解决当某些照片里的物体被其它照片中的柱子等障碍物遮住时所产生的遮挡问题。

人类天生就会按照一部分所见画面来估算物体的深度和外观,但这对AI来说却是一项高难度的任务。

根据画面的复杂性和解析度,以传统方法建立一个3D场景须花费数小时甚至更长的时间。而利用AI则可加快处理速度。早期开发的NeRF模型在几分钟内便能渲染出无伪影的清晰场景,但仍需数小时进行训练。

然而,Instant NeRF却大幅缩短了渲染时间,其以NVIDIA所开发出的Multi-resolution Hash Encoding技术为基础,而这项经过最佳化调整的技术可以在NVIDIA GPU上高效运行。研究人员透过一种新的输入编码法,可以利用一个高速运行的微型神经网路来创造高品质的结果。

研究人员使用NVIDIA CUDA工具套件与Tiny CUDA神经网路函式库来开发此模型。这个小巧的神经网路可以在单一NVIDIA GPU上进行训练和运行,并在搭载NVIDIA Tensor核心的显示卡上有着最高的运行速度。

这项技术可以用于拍摄实体环境物体的2D照片或影片,以训练机器人和自动驾驶车来了解这些物体的大小及形状。建筑业与娱乐产业也能使用这项技术,快速为实体环境建立数位画面,创作者便能用它来进行修改和构建。

除了NeRF,NVIDIA的研究人员也在探索如何将这种输入编码技术用于加速处理多项AI领域的难题,包括强化学习、语言翻译和通用的深度学习演算法。