☰

谷歌DeepMind发布Genie 2模型可一键生成超逼真3D互动世界

12月5日消息，美国当地时间周三，谷歌旗下人工智能研究机构DeepMind推出了一款新模型，能够创造出“无穷无尽”且各具特色的3D世界。

这款模型名为Genie 2，是DeepMind在今年早些时候推出的Genie模型的升级版。仅凭一张图片和一段文字描述，例如“一个可爱的机器人置身于茂密的森林中”，Genie 2就能构建出一个交互式的实时场景。在这方面，它与李飞飞创立的World Labs以及以色列新兴企业Decart所开发的模型有着异曲同工之妙。

DeepMind宣称，Genie 2能够生成“丰富多样的3D世界”，用户可通过鼠标或键盘在这些世界中自由跳跃、游泳等。经过视频训练，该模型能够精准模拟物体的交互、动画效果、照明、物理现象、反射效果以及“NPC”（非玩家角色）的行为。

Genie 2所创造的许多模拟场景，其视觉效果堪比AAA级视频游戏，这很可能是因为该模型的训练数据中融入了众多热门游戏的体验。然而，与众多人工智能实验室一样，DeepMind出于竞争压力或其他考量，并未过多透露其数据来源及训练方法的细节。

这项技术对知识产权的影响引发关注。作为谷歌的子公司，DeepMind无疑能不受限制地访问YouTube。而谷歌此前曾暗示，其协议允许使用YouTube视频进行模型训练。但问题是，Genie 2在制作过程中，是否无意间制作了它所“观看”的视频游戏未经授权的复制品，恐怕只有法院才能给出最终裁决。

DeepMind透露，Genie 2具备从不同视角（如第一人称视角与等距视角）生成连贯世界的能力，这些生成的世界可持续时间长达一分钟，尽管多数情况下维持在10到20秒之间。

DeepMind团队在博客文章中表示：“Genie 2能够智能地根据键盘操作作出反应，准确识别角色并相应移动它。举例来说，我们的模型能够判断方向键应控制机器人的移动，而非树木或云朵。”

众多类似Genie 2的模型虽能模拟游戏及3D环境，却常面临人造感、连贯性缺失及幻觉相关的挑战。例如，Decart的《我的世界》模拟器Oasis便存在分辨率低、迅速“遗忘”关卡布局的问题。

相比之下，Genie 2能够记忆模拟场景中未直接呈现的部分，并在它们重现时精准渲染，这一能力同样体现在李飞飞World Labs的模型中。

然而，目前利用Genie 2制作的游戏尚缺乏足够的趣味性，因为它们每分钟都会清除玩家的进度。因此，DeepMind将Genie 2定位为一种研究与创新工具，专门用于“互动体验”的原型制作及AI智能体的评估。

DeepMind在博客中写道：“得益于Genie 2卓越的泛化能力，概念艺术和图纸得以轻松转化为完全互动的环境。借助Genie 2，我们的研究人员能够快速构建出丰富多样的环境供AI智能体使用，进而生成训练期间未遭遇过的评估任务，以检验智能体的应对能力。”

对于创意工作者，尤其是电子游戏行业的从业者而言，这种技术可能让他们喜忧参半。近期，《连线》杂志的一项调查显示，诸如动视暴雪等大公司正借助人工智能技术来缩减成本、提升效率，并应对员工流失的问题。事实上，动视暴雪已裁汰了数十名员工。

尽管如此，谷歌在世界模型研究领域的投入正持续加大，这一领域有望成为人工智能领域的下一个重大突破。去年10月，DeepMind成功招募了蒂姆·布鲁克斯（Tim Brooks），他此前负责OpenAI视频生成器Sora的开发工作，现负责视频生成技术和世界模拟器的研发。

两年前，DeepMind还从Meta挖来了蒂姆·罗克塔谢尔（Tim Rocktäschel），他因对《NetHack》等电子游戏的“开放性”实验而闻名。（小小）

谷歌DeepMind发布Genie 2模型 可一键生成超逼真3D互动世界

相关资讯

谷歌DeepMind发布Genie 2模型可一键生成超逼真3D互动世界