端到端的内部矛盾,是一体化更犀利,还是分段式更锋芒?
最近这段时间,理想汽车正在大力宣传其双系统智驾方案。
理想汽车表示,自己押注的一体式端到端是比友商们选择的分段式端到端更为优秀的技术路线,事实果真如此吗?
分析事物,一定要抓主要矛盾和次要矛盾。站在开发范式的角度,分模块和端到端是主要矛盾,分段式和一体式是次要矛盾。
因为,无论是分段式端到端还是一体式端,都完成了从基于规则的优化到基于数据驱动的拟合的转变,使得自动驾驶系统从一板一眼地基于机械规则开发代码进化到了基于神经网络的经验直觉。
相较于分模块方案,端到端具有以下几个优点:
分模块方案采用级联结构,前级模块误差会被逐级放大,而且由于各模块架构不同,信息交互和接口制定衔接不顺畅,端到端方案可以减少信息传递损失,消除累积误差。
分模块方案的每个模块都需要单独的Encoder,存在大量冗余,端到端共享Backbone主干网,大幅降低计算开销,节约计算资源,从而提高了系统效率。
端到端提升了场景感知和决策能力,具有更精准的超长尾场景检测能力和高阶场景语义理解能力,同时实现了强交互场景的安全处理能力,并可以预判和规避潜在风险,最终的结果是决策更准确,行驶更类人,通行更高效。
展韬资本在今年5月份的一个研究报告里将端到端划分成了四个阶段-感知“端到端”、决策规划模型化、模块化端到端、OneModel端到端。
根据现在公开的信息来看,一些传统车企实现了感知端到端,位于第一阶段,蔚来汽车只官宣量产了端到端AEB,可以认为处于决策规划模块模型化的第二阶段,小鹏、华为、理想、百度实现了分段式端到端,处于第三阶段,领头羊特斯拉则处于第四阶段。
这种划分方式实际上是在强调,只有第三阶段和第四阶段才能算端到端,一些车企不要强蹭概念。
阅读理解是帕鲁大陆最应该掌握的一种能力,听懂别人说什么很重要,听懂别人话语背后的含义更重要。
理想汽车将目前正在开展万人公测的双系统方案中的系统1标榜为国内首个端到端一体化模型,其目的大概是表明分段式端到端是通往一体式端到端的中间阶段,一体式端到端才是分段式端到端的下一个发展阶段,和选择分段式端到端方案的国内友商相比,理想汽车这一次做到了“遥遥领先”。
说实话,分段式端到端和一体式端到端目前都还没有触及系统的上限,到底哪种方案的上限更高,目前并没有决出最终的答案,理想汽车之所以早早地站队一体式端到端阵营,大概是因为行业标杆特斯拉选择了这种方案。
荣誉和地位从来不是自封的,而是通过一次又一次的实战打出来的。大家之所以认可特斯拉在自动驾驶领域的标杆地位,是因为它确实数次引领了技术路线的转变。
比如当年从后融合的CNN+相机视图到前融合的Transformer+BEV鸟瞰视图,从BEV的2D矢量化空间转向占用网络的3D体素化空间。
有一说一,当前这波端到端狂潮也是由特斯拉引发的,若不是2023年上半年特斯拉以逆天的工程实力将端到端落地到FSD上面,大家对端到端的讨论还始终局限在学术圈里。
硬核的特斯拉摸着石头过河,务实的理想摸着特斯拉过河,正是因为对特斯拉技术路线的亦步亦趋,在过去一两年里,理想汽车才得以以不算多的研发资源实现了本土头部智能驾驶体验,这种的方法论带来的好处实在太明显。
所以,这一次继续押宝特斯拉的路线也是自然而然。
但是,理想汽车这次将特斯拉的OneModel端到端直接假设成了行业的终极方案,这个结论下得早了一点。
小时候,老师和爸爸妈妈教育我们要心怀理想,等长大了,残酷的社会一次又一次地告诫我们要现实一点。人总要学着慢慢长大,体会理想和现实之间的落差。
端到端方案的理想和现实也是分开的。从理想的角度看,一体式端到端的上限更高,因为它可以实现从感知到规划的全量信息传递,中间没有任何损失。
相较之下,分段式端到端的感知模型和规划模型之间传递的是BEV特征和表示空间网格占用情况的三维向量空间,从原始全量信息到结构化的特征,信息传递必然存在损失。
但是,理想归理想,现实归现实,之所以丰满的理想和骨感的现实之间总是存在差距,是因为在现实世界中,任何人做任何事都得考虑资源的约束。
出于成本、功耗、实时性的原因,即便是上千TOPS的车端算力也无法处理来自感知传感器的海量信息。做一个简单的计算,一颗800万像素的摄像头,30fps的帧率,每秒产生接近2.5亿个像素,采用24位的RGB格式,2.5亿个像素对应7.5亿字节。
如果像蔚来汽车那样全都采用800万像素摄像头,车端感知传感器中的摄像头每秒产生的字节个数接近百亿!
所以,站在现实的角度,无论是一体式还是分段式端到端方案,都需要通过感知网络进行信息的过滤、降噪和特征提取,也就是说,即便是一体式端到端方案,感知网络到规划网络之间也会存在信息损失。
此外,分段式端到端的一个明显优点是可以更好地收集长尾场景。
可以借助概率理解这一点,假设前方有一个障碍物感知网络没有检测到,但车辆规划出来的路径依然符合预期,由于分段式端到端方案既可以检测感知长尾,也可以检测规划长尾,一体式端到端方案只能通过规划出来的路径是不是符合预期进行长尾判断。
那么,分段式端到端可以收集到这种长尾场景,继续提高感知能力,但一体式端到端就白白浪费了这次长尾。
说实话,现在还没法判断理想汽车押宝一体式端到端是不是一次好的技术决断。
齐白石老先生说过啥来着,学我者生,似我者死,特斯拉可不是那么好学的!