Waymo 借谷歌 Gemini 打造神奇自动驾驶出租车

Waymo 长久以来一直宣扬其与谷歌 DeepMind 的关系以及谷歌长达数十年的人工智能研究成果,并将此当作在自动驾驶领域相较竞争对手的战略优势。现在,这家归属于 Alphabet 的公司又更进了一步,基于谷歌的多模态大语言模型(MLLM)Gemini 为其自动驾驶出租车开发了一种新的训练模型。

Waymo 今天发布了一篇新的研究论文,介绍了一种“用于自动驾驶的端到端多模态模型”,也称为 EMMA。这种新的端到端训练模型处理传感器数据以生成“自动驾驶汽车的未来轨迹”,帮助 Waymo 的无人驾驶汽车决定去向何处以及如何躲避障碍物。

但更重要的是,这是自动驾驶领域的领导者有意在其运营中使用 MLLM 的首批迹象中的一个。这也表明这些 LLM 或许能够摆脱当下作为聊天机器人、电子邮件组织者和图像生成器的用途,并在道路上的全新环境中得到应用。在其研究论文中,Waymo 提议“开发一种将 MLLM 作为一等公民的自动驾驶系统。”

端到端的多模态自动驾驶模型,简称 EMMA

该论文从历史角度概述了自动驾驶系统是怎样为各种功能开发特定“模块”的。这种方法多年来已被证明是有用的,但由于“模块之间的累积误差和有限的模块间通信”,在规模扩展方面存在问题。此外,这些模块可能难以应对“新环境”,因为它们本质上是“预先定义的”,这可能使其难以适应。

Waymo 表示,像 Gemini 这样的 MLLM 为其中一些挑战提供了一个有趣的解决方案,原因有二:聊天属于一个“通才”,它是在从互联网抓取的大量数据集中接受训练的,“提供了丰富的‘世界知识’,这是常见驾驶日志所未包含的”;并且它们通过像“思维链推理”这样的技术展示了“卓越”的推理能力,这种技术通过把复杂任务分解成一系列逻辑步骤来模仿人类推理。

Waymo 把 EMMA 开发出来,作为帮助其自动驾驶出租车在复杂环境中导航的工具。

该公司指出了几种情形,在这些情形中,该模型帮助其无人驾驶汽车找到了正确的路线,其中包括在路上遇到各种动物或者施工。

其他公司,像特斯拉,已经大量谈及为其自动驾驶汽车开发端到端模型的事。 埃隆·马斯克声称 其最新版本的全自动驾驶系统(12.5.5)使用了一个“端到端神经网络”的人工智能系统,将摄像头图像转化为驾驶决策。

这清楚地表明,在道路上部署真正的无人驾驶汽车方面比特斯拉领先的 Waymo,也有兴趣追求端到端系统。该公司表示,其 EMMA 模型擅长于轨迹预测、物体检测和道路图理解方面。

“这暗示了未来研究的一条有前景的途径,在这条途径中,更多的核心自动驾驶任务能够在类似的、规模扩大的架构中相结合,”该公司在今天的一篇博客文章中表示。

但 EMMA 也有其局限性,Waymo 承认在该模型投入实践之前还需要进行未来的研究。例如,EMMA 无法整合来自激光雷达或雷达的 3D 传感器输入,Waymo 表示这在计算上成本很高。并且它一次只能处理较少数量的图像帧。

在研究论文中,使用 MLLMs 训练自动驾驶出租车还存在未提及的风险。像 Gemini 这样的聊天机器人经常会 产生幻觉 或者 在像读时钟或数物体这样的简单任务上失败。当 Waymo 的自动驾驶汽车在繁忙道路上以每小时 40 英里的速度行驶时,其出错的余地非常小。在大规模部署这些模型之前,还需要进行更多的研究——Waymo 对此很清楚。

“我们期望我们的研究成果能够激励更多的研究,以减轻这些问题,”该公司的研究团队写道,“并且进一步促进自动驾驶模型架构的前沿技术发展。”