一秒內製作出3D形狀!NVIDIA生成式AI研究大突破

NVIDIA生成式人工智慧研究在一秒内制作出3D形状。图/NVIDIA提供

NVIDIA的研究人员在最新的文字转3D生成式人工智慧(AI)模型中注入了双倍的加速力量,该模型被称为LATTE3D。NVIDIA表示此模型,就像一台虚拟的3D列印机,LATTE3D能在一秒内将文字提示转换为物体和动物的3D表示形式。

采用广泛使用于标准渲染应用程式的格式,生成的形状可以轻松地在虚拟环境中使用,用于开发电玩游戏、广告活动、设计项目或机器人的虚拟训练场域。

NVIDIA AI研究副总裁Sanja Fidler所属位于多伦多的 团队开发了LATTE3D。她表示:「一年前,AI模型生成这种质量的3D视觉效果需要一个小时,而目前的最新技术只需约10到12秒。我们现在能以数量级更快的速度产生结果,使各产业的创作者能够实现近乎即时的文字到 3D 生成。」

NVIDIA AI实验室表示,这项进步意味着当在单个GPU上运行推论时,像NVIDIA RTX A6000这样的GPU,LATTE3D能够几乎立即生成3D形状。

创作者无需从头开始设计或在 3D 资源库内进行搜寻,而是可以使用 LATTE3D 在想法突然出现时,立即产生详细的物件。

该模型基于每个文字提示生成几种不同的3D形状选项,供创作者选择。选定的物体可以在几分钟内进行最佳化,达到更高的品质。然后,使用者可以将形状汇出到图形软体应用程式或平台,如NVIDIA Omniverse,该平台支持基于通用场景描述(OpenUSD)的3D工作流程和应用程式。

虽然研究人员在动物和日常物体这两个特定资料集上训练 LATTE3D,但开发人员可以使用相同的模型架构在其他资料类型上训练AI。

例如,如果在 3D 植物资料集上进行训练,LATTE3D 的一个版本可以帮助景观设计师在与客户进行脑力激荡时使用树木、开花灌木和多肉植物快速填充花园渲染图。如果在家庭物品资料集上进行训练,该模型可以产生填充家庭 3D 模拟的物品,开发人员可以使用这些物品来训练个人助理机器人,然后再于现实世界中进行测试和部署。

LATTE3D 使用 NVIDIA A100 Tensor核心GPU 进行训练。除了3D 形状外,该模型还接受了使用ChatGPT 生成的各种文字提示的训练,以提高模型处理使用者可能想出描述特定3D 物件的各种短语的能力,例如,理解具有各种犬类物种的提示都应该产生像狗一样的形状。