在Robotaxi上,Waymo 在下象棋,而特斯拉还在下跳棋

特斯拉的粉丝们,以及埃隆·马斯克本人,都表达了对FSD前景的兴奋。特斯拉在3月份发布了该软件的重大升级版本V12.3,随即又在4月宣布将推出Robotaxi。上周,马斯克宣布FSD 的V 12.4版本也即将推出,并将“MPI数值提高5-10倍”。

但我认为,期待特斯拉快速推出Robotaxi服务的粉丝们,将会感到失望。

在 3 月底前往旧金山的一次旅行中,我分别尝试了特斯拉和Waymo 的最新自动驾驶技术。

在 Model X 的 45 分钟试驾过程中,我不得不两次干预以纠正 FSD 的错误。相比之下,我乘坐无人驾驶 Waymo 车辆两个多小时,没有发现任何错误。

因此,虽然特斯拉的 FSD 12.3 版本似乎比之前的版本有了显著改进,但从直观体验来看,它显然仍落后于 Waymo。

然而,Waymo 的出色表现也伴随着一些瑕疵:虽然其行程实现了无人驾驶,但有时会有远程操作员为车辆提供指导(Waymo 拒绝告知在我乘坐的途中是否有远程操作员干预,或者干预的频率如何)。

其次,特斯拉的 FSD 适用于所有道路类型,但 Waymo 的出租车却避开了高速公路。

许多特斯拉粉丝将这些限制视为 Waymo 正走向技术死胡同的迹象,他们认为FSD 能够在所有城市和道路上运行,是一种更通用的技术,很快就会超越 Waymo。

但这从根本上误解了情况。

在公共道路上安全运行无人车非常困难。由于驾驶座上没有人,任何一个错误都可能致命——尤其是在高速公路上行驶时。

因此,2020 年,Waymo 在它能找到的最简单的环境——凤凰城郊区的住宅街道,推出了无人驾驶服务,并且随着对其技术的信心增强,难度也在逐渐提高。

相比之下,特斯拉尚未开始无人驾驶测试,因为其软件尚未准备就绪。目前,由于特斯拉车辆中有驾驶者存在,地理限制和远程协助都不需要。但我预测,当特斯拉开始向无人驾驶转型时,它会意识到只能像 Waymo 那样逐步推进。

目前,Waymo 遥遥领先,它正在应对特斯拉甚至还没有开始考虑的挑战。如果说Waymo 在下国际象棋,而特斯拉则仍在下跳棋。

特斯拉比 Waymo 落后几年

目前人们围绕FSD 的兴奋,让我想起了 2018 年围绕 Waymo 的炒作。那年,Waymo 宣布从捷豹购买20,000 辆 I-Pace 轿车, 并从菲亚特克莱斯勒购买62,000 辆 Pacifica 小型货车。

但Waymo于当年年底推出的服务却令人失望——大多数行程仍由安全员驾驶,而且只有经过精心挑选的乘客才能使用。

直到 2020 年 10 月,Waymo 终于在凤凰城推出了向公众开放的完全无人驾驶出租车服务。不过即使在那之后,Waymo 的扩张仍然缓慢。

Waymo于 2023 年开始,在旧金山提供商业服务,目前正在扩展到洛杉矶和奥斯汀。如今,该公司的商业运营车队只有几百辆车,远少于六年前规划购买的 82,000 辆汽车。

到底出了什么问题?在 2018 年 8 月的一篇文章中,记者阿米尔·埃弗拉蒂 (Amir Efrati) 报道了 Waymo 技术的局限性。

埃弗拉蒂写道:“Waymo 的Robotaxi在凤凰城遇到无保护左转,或交通拥堵时,曾多次遇到麻烦。”此外,“无人驾驶汽车很难将成群结队的行人或骑自行车的人分开,尤其是在购物中心或停车场附近的人群。”

另一方面,我 3 月份试用的 FSD 版本,显然还未准备好进行无人驾驶操作。例如,我不得不进行干预以防止 Model X 撞上塑料车道分隔线,而 Waymo 在 2020 年已不会再犯这样的错误。

根据这些体验来看,虽然 FSD 12.3 似乎优于 Waymo 在 2018 年左右的技术,但它还不如 Waymo 在 2020 年底的技术。

Waymo依赖远程操作员

在早期,Waymo 的所有测试都是由安全员进行的。当软件出现错误时,他们会进行干预,然后仔细记录情况,工程师则利用这些场景数据来改进软件。

自动驾驶软件越好,这种测试策略的成本就越高——如果自动驾驶软件每 50 英里出错一次,安全员可能会在一天内遇到多个错误。但如果软件每 5000 英里才犯一次错误,安全员可能需要花费数周的时间来获取一份错误报告,费用由公司承担。

如果 Waymo 继续使用安全员进行测试,直到其软件被证明比人类驾驶员更安全,那么成本将高得令人无法接受。因此,Waymo 开始部署由远程操作员支持的Robotaxi。

Waymo对其Robotaxi进行了编程,使其默认行为极其谨慎——如果不能 100% 确信可以安全行驶,它就会减速停车并请求远程协助。

理论上,该软件的平均置信度会随着时间的推移而提高,车辆需要远程协助的频率也会越来越低。

Waymo表示,远程操作员从不直接驾驶其车辆。相反,操作员会回答问题并提供提示,以引导车辆朝正确的方向行驶。

例如,如果Robotaxi被对面驶来的一辆大卡车挡住了,远程操作员可以指引车辆挤进右车道,给卡车留出通过的空间;再比如,如果一辆Robotaxi正在接近有多辆消防车的十字路口,车辆向远程操作员询问 “紧急车辆是否阻塞了所有指示车道?”和“道路是否封闭?”的类似问题,以获得指引。

这种策略在高速公路上会变得棘手——如果Robotaxi请求帮助但没有得到及时响应,则需要停下等待,这在高速公路上很难做到。

因此,尽管 Waymo 已经在高速公路上(配备安全员)测试了十多年,但完全无人的Robotaxi尚未在此运营。

三月,我乘坐Robotaxi从旧金山市中心来到Bayview 附近的一家麦当劳。全程花费28分钟。如果使用Uber 或 Lyft 司机,可以走 101 号高速公路, 大约 15 分钟即可到达。

Waymo正在努力解决这些问题:一月份,该公司开始在凤凰城地区的高速公路上测试无人驾驶操作。如果测试顺利,Waymo 可能会在未来几个月内,为其商业车队启用高速公路驾驶。

根据 Waymo 公布的统计数据,至少从安全角度来看,其谨慎作风效果显著。在 Waymo 的最初 700 万英里无人驾驶里程中,其车辆发生致人伤亡事故的频率约为同类人类驾驶员的四分之一。

特斯拉有更好的方法吗?

许多特斯拉粉丝认为 Waymo 当前服务的局限性——避开高速公路、依赖远程操作员,以及仅限于少数大都市地区等等,都表明 Waymo 的技术存在根本缺陷。

去年,一位特斯拉支持者在一条推文中指出,Waymo 和通用旗下的Cruise“开发出了极其狭窄、非常脆弱、无法扩展的技术”。

马斯克回复说:“是的,对当地条件来说非常脆弱,且无法扩展。”

该论点的一个关键部分,与神经网络有关。 Waymo 始于15年前的 Google 自动驾驶汽车项目,当时正值 2010 年代深度学习革命前夕,其软件的最早版本可能使用手工编码规则而非机器学习。一些特斯拉的支持者似乎认为, Waymo 仍在使用同样过时的技术。

事实上,Waymo 已经广泛使用神经网络。

在 2024 年 2 月的演讲中,一位 Waymo 工程师解释了该公司如何使用 Transformer来预测其他车辆的行为。该公司十年前的软件堆栈可能很脆弱,但它并没有停滞不前。

另一方面,导致自动驾驶困难的一个重要因素,正是“长尾问题”。构建自动驾驶技术的公司需要进行数百万英里的测试,以尽可能多地发现这些“边缘情况”,这也是特斯拉比 Waymo 更有优势的地方。

正如我们所看到的,Waymo 必须为长期的监督测试向安全员支付费用。相比之下,特斯拉已说服数千名客户免费测试其FSD软件。事实上,客户还为这种“特权”支付了数千美元!

这让特斯拉能够获得几乎无限的数据。理论上,更多的数据应该能让特斯拉有效地识别其自动驾驶软件需要处理的边缘场景,更多的数据也应该能让特斯拉训练出更好的神经网络。

虽然获取更多数据肯定是有帮助的,但这并不是灵丹妙药。一个问题是特斯拉收集的数据没有标签,而Waymo 的安全驾驶员会记录每次脱离的情况,以帮助识别 Waymo 软件中的缺陷,但特斯拉客户不太可能这样做。

另一个问题是,某些边缘场景比其他情况更难处理。

“第一响应者”问题

让我们以警察与消防员的互动为例——这是 Waymo 和Cruise 去年遇到的一个难题:

根据旧金山消防局的记录,几辆Robotaxi堵塞了狭窄的道路,迫使消防车绕道前往火场; Robotaxi被困在消防作业区域附近,迫使消防员在放置软管和梯子时必须在它们周围工作。

问题不在于这些车辆撞上了消防车(特斯拉过去曾 遇到过这样的问题)。而是它们太过谨慎,以至于被困住了。这就是为什么这些事故只有在 Waymo 和 Cruise 开始无人化运营后,才成为人们关注的问题;安全员不再能够及时进行干预。而在这一方面,每辆特斯拉汽车都有人驾驶,如果 FSD 被困住,可以接管。

大多数时候,驾驶需要遵循简单、确定的规则:留在车道中心、避免撞到其他道路使用者、遵守停车灯和道路标志等等。

但穿越火灾或车祸现场要困难得多,这些场景需要的推理能力远远超出当今人工智能系统的能力。因此,紧急场景很可能在未来几年内,都是特斯拉 FSD 的“极端情况”,就像 Waymo 一样。

在这一点上,Waymo的Robotaxi可以请求 Waymo 远程操作员提供指导,急救人员可以靠在车里与远程操作员交谈,也可以跳进车里自己驾驶;市政府官员可以建立地理围栏,让 Waymo 车辆远离紧急场景。

Waymo 已为凤凰城、旧金山和其他地方的数千名急救人员提供了如何与其车辆互动的培训,这些努力也似乎正在取得成效。

《旧金山纪事报》在二月份的一篇报道中表示,自八月份以来,消防队员提交的有关车辆行为不当的报告有所减少。虽然部分原因是Cruise 于 10 月停止了在旧金山的运营,但 Waymo 的报告数量似乎也在下降。

如果特斯拉推出可实现完全无人驾驶操作的FSD 更新,我预计我们会开始看到其重复与去年 Waymo 和 Cruise 类似的失误:碾过软管、 阻挡救护车、 无视警察的指示、 干扰消防员的梯子放置等等。

鉴于其车队规模,特斯拉可能面临比Waymo 和 Cruise 更严重的来自急救人员的强烈反对。而且正如 Waymo 和 Cruise 发现的那样,警察和消防员具有很大的政治影响力。

如果特斯拉真想提供无人驾驶出租车服务,它将需要Waymo 近年来一直在建设的那种基础设施和支持服务。这包括车辆被困时进行干预的远程操作员,以及与当地政府合作的人员。

然而,特斯拉却在朝着相反的方向前进。《The Information》上个月报道称,特斯拉正在解散其政策团队。

服务不能仅靠软件

今天的FSD 是一款软件产品,但Robotaxi 服务远不止软件。这里有一个简单的例子:如果特斯拉Robotaxi爆胎了怎么办?

特斯拉设想的未来是,人们购买特斯拉,然后通过特斯拉运营的网约车平台将其出租。

所以从理论上来说,特斯拉可以说爆胎是车主的问题,但这在实践中是行不通的——车主可能正在开会,甚至正在度假。当特斯拉试图联系车主时,让一辆Robotaxi在路边滞留几个小时(可能里面有乘客)是不可接受的。

因此,如果特斯拉想进入出租车业务,就需要一批移动技术人员来营救陷入困境的车辆。这些人可能是特斯拉员工或独立承包商,但在公司开始在特定区域提供服务之前,就需要做好安排。

这意味着特斯拉可能会逐步“开城”。这样做也是合理的,这不仅能让特斯拉有时间向当地官员介绍自己,还能为当地警察和消防部门提供培训。

有了数据和算力,也并非万能

我与很多特斯拉粉丝交流过,所以我很清楚他们会说什么。他们会认为我低估了特斯拉所投入的数据和计算能力,及其迭代速度。

一些特斯拉的支持者喜欢引用里奇·萨顿的文章《痛苦的教训》。 萨顿认为,AI研究人员历来花费太多时间试图手动编码,以找到解决图像识别等问题的最佳方法。但最终,人们是通过在大量数据上训练的通用学习算法,获得了更好的结果。

萨顿在 2019 年写了他的论文。从那时起,大语言模型的成功以惊人的方式展示了他的洞察力。

早期的AI研究人员会尝试理解自然语言的属性,然后将他们的见解编码到人工智能系统中。而效果更好的方法,是采用 Transformer 架构,并将其扩展到数千亿个参数,以创建像 GPT-4 这样的 LLM。

马斯克认为,同样的动力将有利于特斯拉的自动驾驶技术。他将FSD V12描述为使用了“端到端神经网络”,并正在投资数十亿美元购买硬件,利用大量数据来训练这些神经网络。如果你相信萨顿的观点,你可能会认为特斯拉会超越Waymo。

但我认为人们对萨顿的观点做了过度解读——他的本意是,经过大量数据训练的大型神经网络,往往比手工编码的AI 系统表现更好。但这并不意味着向任何特定神经网络投入更多数据和算力,就能随意实现高水平性能。

LLM就是一个有力的例子——LLM会产生“幻觉”,也无法完成诸如计数物体 和 读取模拟时钟之类的简单任务。

LLM 非常适合那些精度不太重要的应用,或者在输出生成后需要人工检查的应用。对于精度要求很高的任务来说,它们就不是一个好的选择。

自动驾驶系统需要非常高的精度,拥有足够数据和算力的端到端神经网络,是否一定能实现这一目标?目前看其因果关系并不明显。

商业教授伊森·莫里克(Ethan Mollick)写过关于“锯齿状边界”的文章:复杂的人工智能系统通常在某些任务上表现出色,但在其他任务上却表现得令人惊讶。特斯拉可能非常擅长在高速公路、十字路口和交通环岛行驶,但在避开湿水泥或理解警察手势方面进展甚微。

Waymo的远程干预问题

Waymo解决问题的方法,是建立一个基本自动化的系统,该系统能够在需要时依靠人工协助。

虽然从安全角度来看这非常有效,但我开始怀疑它的经济性。如果 Waymo 车辆持续需要它远程指导,可能需要雇佣很多远程操作员,从而抵消了去掉驾驶员所节省的成本。

上个月, 亚马逊宣布 将从 Amazon Fresh 杂货店中移除其名为“Just Walk Out”的无需结账技术。

与Waymo一样,亚马逊在2018年也对其技术非常看好。当年彭博社报道称,亚马逊计划开设3000家 基于Just Walk Out技术的Amazon Go便利店。

但这从未发生过,The Information 的报道有助于解释原因——亚马逊的技术并不是完全自动化的:该公司在印度有1,000 多名员工手动验证客户的选择。到 2022 年中期,“Just Walk Out 每 1,000 笔销售需要大约 700 条人工评价。”

亚马逊的目标是将这一数字减少到每 1,000 件商品有20-50条人工评价,但这一目标也并未实现。

Waymo也会有类似的问题吗?我不知道,但它确实拒绝就远程干预的频率发表评论。

但我猜测,这对 Waymo 来说不会是一个严重的问题。在我3月份的试驾过程中,Waymo 的车辆行驶平稳、自信。假设车辆需要不断寻求远程指导,我预计它的表现会更加犹豫不决、不稳定。

最后,Waymo 的扩张似乎也相当迅速。本月早些时候,该公司宣布 每周服务 50,000 趟行程,而九个月前为每周10,000 趟行程。除非管理层确信他们有一条明确的盈利之路,否则 Waymo 似乎不太可能发展得那么快。

无论如何,我认为特斯拉还没有找到更好的方法来解决这个问题。大型、复杂的神经网络往往擅长某些事情,但也有不擅长的事情。控制两吨重车辆的人工智能系统,需要始终非常可靠。至少在接下来的几年里,或许这只有通过人力支持才能实现。