DeepMind研究:让AI观察平面图片理解3D空间

▲AI 借由不同角度平面照片,生成立体图型。(图/翻摄 TechCrunch)

记者黄肇祥综合报导

AI 没有人类视觉神经,不像我们看到照片就能想像背后的声音实际场景。尤其是对于立体与平面的判断,人类可以轻易猜想实际模样,但若给 AI 看平面照片,系统无法自动生产 3D 的想像画面。Google DeepMind 团队的一份研究,让 AI 借由观察生成 3D 的画面。

从 DeepMind 所释出的实验影片来看,研究团队将一个场景以不同角度拍摄三次,AI 借此分析场景架构,最后制作出一部 360 度立体的画面。AI 系统分成两个部分,首先观察场景,对角度、形状条件进行编码,并套用复杂的数学公式,另一部分则是生产,依据前面累积的数据,对预测的场景进行模拟。

此外,研究还展示从单一视角创作出 3D 模型技术

研究人员 Ali Eslam 于报告中写道,目前还不清楚系统对于物件生产的能力,是否能保持精确,「然而我们发现,这种深度学习机制可以理解角度、遮蔽物、光影,且无须任何人为介入,这是惊奇的成果。」

从平面照片去生成立体画面,这种想像力对于 AI 来说是相当重要的,除了让他们具有与人类相当的视觉能力,重要的是不被有限的讯息给限制,若只能看见眼前的物品,无法预判障碍物后的场景,将导致 AI 反应慢半拍或是执行不合理的判断。