端到端2025年上车,华为、小鹏们早已准备好了

端到端在中国,将从一个热词变为现实。

近日,辰韬资本联合多家单位发布了2024年度《端到端自动驾驶行业研究报告》(以下简称《报告》)认为:国内自动驾驶公司的模块化端到端方案上车量产时间可能会在2025年。

《报告》把“端到端”的发展四个阶段:感知“端到端”、决策规划模型化、模块化端到端、以及One Model端到端。

而One Model端到端系统中性预期落地时间会晚于模块化端到端1~2年时间,从2026年至2027年开始上车量产。

这与我国头部相关企业的规划相契合。

目前,包括华为、小鹏、元戎启行、商汤绝影等国内头部乘用车自动驾驶企业已经公开端到端自动驾驶方案在2024-2025年上车的规划。

从热词到现实,端到端将如何落地?

什么是端到端?

端到端的概念早已有之,应用在自动驾驶行业中,最初的核心定义是“从传感器输入到控制输出的单一神经网络模型”。

但《报告》调研后认为,端到端的核心定义标准应为:感知信息无损传递、可以实现自动驾驶系统的全局优化。并可分为四个阶段:感知“端到端”、决策规划模型化、模块化端到端、以及One Model端到端。

一、二阶段都能感知信息无损传递,可以进行梯度传导。

模块化端到端虽然仍然分为多个模块,但是每个模块都可以模型化从而感知信息无损传递,可以实现全局优化。模块化端到端仍属于判别式/监督学习的类型。

One model则是生成式/自回归模式,基于生成式大模型概念,依赖于LLM或世界模型。

为什么自动驾驶行业现在开始向端到端进行技术转型?

零一汽车智能驾驶合伙人,前图森感知负责人王泮渠在发布《报告》的讨论会上表现,传统算法系统在落地实践中,正在面临诸多挑战:

分模块导致架构复杂。传统算法系统通常有三四十个模块,各个模块上限不高,但信息传输和系统优化难度高,模块与系统之间的局部与整体优化目标冲突;

研发成本。开发/维护/人力成本随着模块增加而飙升;

泛化性较差。叠加规则应对交付压力,导致维护性和可扩展性变差;

大规模产品化落地困难。当前主流产品只能在有限的场景(如某几个城市/示范区/高速)做定点而非规模化运营。算法与软硬件绑定过深,也很难兼容更多车型/平台/场景;

端到端则提供了新的解题思路。

作为产品,端到端对自动驾驶的长尾场景有很强的应对能力,更加拟人化。而且,基于端到端的架构形式,将“简化组织架构,优化开发流程效率,拆除部门墙。”辰韬资本投资经理刘煜冬表示。

从实践来看,特斯拉应用端到端神经网络架构的FSD V12的平均接管历程从此前的166英里提升到了333英里。

同时,大语言模型和生成式AI的发展表明了数据驱动带动自动驾驶趋向AGI的可行性。

在《报告》看来,中国智驾/自动驾驶业内对端到端已经形成战略共识,绝大多数已经全面拥抱或积极预研端到端,但对未来预期仍存在较大分析。

对于落地实践,激进者估计在2年之内,保守者则认为要5年以上。

有趣的是,木头姐对特斯拉未来五年内无法推出自动驾驶出租车的可能性判断是“微乎其微”。

端到端是否是终局技术路线,并对业内现有格局产生颠覆式影响,受访者的观点则是一半一半。

端到端的落地条件

战略认同,但要落地端到端仍是困难重重。

《报告》认为,端到端的落地也面临诸多挑战,包括技术路线、数据和算力需求、测试验证、组织资源投入等。

数据是第一道难题。

目前公开信息显示,特斯拉从超过20亿英里中挖掘了数万小时的视频数据作为FSD的训练所需。一位自动驾驶工程师也提到,他们在训练端到端模型时发现,原本积累的路测数据只有 2%可以用。

训练数据量外,端到端如何做数据闭环也成为新的难题。

过去,模块化的传统系统中,每个模型任务非常具体,例如检测红绿灯。机器学习后,可以用千万红绿灯数据对其进行闭环的验证,迭代。

但面向“开车”这个全局任务的端到端系统,称得上“闭环”的验证方法,即让学习后的系统直接开车上路,由真实世界对其进行反馈。

但显而易见,在确定高安全性之前,没有人敢让系统在真实世界中“闭环”。同时,端到端系统大幅降低接管率之后,也让依赖测试车一类的“闭环”方式更加困难。

特斯拉创始人马斯克在近期的股东大会上便表示,没有像特斯拉的一样数十万辆车队,通过影子模式对其系统进行闭环测试,便无法参与这场“游戏”。

对于数据量和闭环的困难,光轮智能创始人CEO谢晨表示:“只有特斯拉具有特斯拉的数据量级和能力,合成数据是解决端到端数据短缺的最有效方法。”

合成数据需要满足视觉、物理的真实性;Agent交互性和规模效率的要求。“光轮的合成数据可以高度闭环复现,以及精确泛化,实现多Agent高交互。三年内合成数据将是大模型数据最主要的数据来源。光轮智能赋予每个企业特斯拉的数据能力,100倍放大数据价值。”

算力另一项显而易见的难题。

在《报告》的调研中,大部分受访者表示100张大算力GPU(如A100)即可开始端到端的第一阶段训练。

但从特斯拉和其他领先玩家的实践来看,要做出好的端到端,对训练算力的需求显然不只这一数量级。

在2024Q1财报电话会上,特斯拉表示,公司已经有35000张H100 GPU,并计划在2024年内增加到85000张H100以上,达到和谷歌、亚马逊同一梯队。

在这一规模预期下,马斯克近期表示特斯拉已经不再算力紧张。

国内,小鹏“ 扶摇 ”自动驾驶智算中心,算力可达600PFLOPS(以英伟达A100 GPU的FP32算力推算,约等于3万张A100 GPU),并宣布今年投入1亿美元用于算力建设,未来每年将进一步加大投资。

商汤大装置已经布局全国一体化的智算网络,拥有4.5万块GPU,总体算力规模达12000PFLOPS,2024年底将达到18000PFLOPS。

大部分研发端到端自动驾驶的公司目前的训练算力规模在千卡级别。

端到端的国内落地情况

目前,国内主机厂、自动驾驶算法和系统公司都已经拿出了自己的端到端系统,甚至部分已经量产上车,或实现定点。

上半年,华为、小鹏先后公布了自己的端到端系统。

华为乾崑ADS 3.0的技术架构,感知部分采用GOD(General Object Detection,通用障碍物识别)的大感知网络,决策规划部分采用 PDP(Prediction-Decision- Planning, 预测决策规控)网络实现预决策和规划一张网。

小鹏的端到端大模型由神经网络XNet+规控大模型XPlanner+大语言模型XBrain组成。端到端大模型上车后,18个月内小鹏智能驾驶能力将提高30倍,每2天内部将做一次智驾模型的迭代。

其中,小鹏的端到端模型已于5月开始推送。

从事卡车业务的零一汽车也推出了基于大模型的纯视觉端到端自动驾驶系统。整个系统使用摄像头和导航信息作为输入,经过多模态大语言模型的解码产生规控信号和逻辑推理信息,将系统复杂度降低 90%。

零一计划在2024年底实现端到端自动驾驶的部署上车,2025年在商用车与乘用车平台上同时实现量产,并计划于2026年实现高阶自动驾驶的大规模商业化运营。

商汤绝影是目前极少数实践一段式端到端的智驾企业。在尝试合理解释所有场景时,发现需要定义的感知和规控接口是无穷无尽的,而一段式的端到端能力上限会更高,“所以我们一开始在开发端到端方案的时候,就是按照一段式的这种方式来推进的。”商汤绝影智能驾驶产品总监赵祥磊表示。

商汤绝影端到端方案 “UniAD”

北京车展上,商汤绝影推出面向量产的端到端自动驾驶解决方案 “UniAD”,无需高精地图,通过数据学习和驱动就可以像人一样观察并理解外部环境,自己思考并作出决策像人一样开车,自主解决各种高难度的城市复杂驾 驶场景。

同时,商汤绝影也发布了其下一代自动驾驶技术DriveAGI,即基于多模态大模型对端到端智驾方案进行改进和升级的 “One Model 端到端 ”。

北京车展期间,鉴智机器人联合创始人、CTO都大龙表示,鉴智原创的自动驾驶端到端模型 GraphAD已经可量产部署,并正与头部车企进行联合开发。“之所以将端到端范式称为GraphAD, 是因为鉴智使用了图形结构来显示建模目标,包括动态和静态障碍物之间的关系 ——这使得端到端模型训练起来更容易也进一步减少对数据量的需求。”

《报告》展望,基于自动驾驶行业头部玩家纷纷提出端到端量产规划,预计模块化端到端系统将于2025年开始上车,这将带动上游技术进步、市场和产业格局演变。

在技术上,端到端的落地会推动其依赖的上游工具链、芯片等加速进步。

市场端,端到端带来的自动驾驶体验提升,将会带来高阶辅助驾驶渗透率的提升;由于其强泛化性,端到端也可能驱动自动驾驶跨地理区域、跨国家、跨场景的应用。

产业格局方面,端到端使数据和AI人才的重要性进一步提升,可能催生新的产业分工和商业模式。