辰韬资本端到端研究报告发布,自动驾驶技术路线迎来巨变

车东西(公众号:chedongxi)作者 | 迩言编辑 | 志豪

车东西6月14日消息,日前,辰韬资本联合南京大学上海校友会自动驾驶分会、九章智驾、宝通科技共同主办,招商银行、云道资本协办的“端到端引领自动驾驶新时代高峰论坛暨行业研究报告发布会”活动在上海成功举办。200多位产业专家、投资机构、研究机构及智能驾驶头部企业的代表共聚一堂,探讨端到端这一革命性技术为自动驾驶行业带来的挑战和机遇。

会上,辰韬资本、南京大学上海校友会自动驾驶分会、九章智驾三方联合重磅发布2024年度《端到端自动驾驶行业研究报告》(以下简称《报告》)。

《报告》从端到端自动驾驶的基本概念、参与者、发展驱动力、落地挑战和未来展望进行全方位的分析,尝试为行业构建基础共识的认知和讨论基础,促进端到端自动驾驶行业更加蓬勃地发展。

此《报告》也是辰韬资本继2020年以来,发布关于矿山、港口、环卫、末端配送、线控底盘等自动驾驶赛道研究报告之后的第6份行业最新研究成果。

值得注意的是,圆桌讨论环节,参会嘉宾也对未来大模型演进等话题展开了火热探讨,大多数嘉宾认为,未来3-5年Transformer还是有很大的发展空间的,但其他模型的架构也有很大探索空间。

一、智驾公司90%都在搞端到端 大模型助力端到端研发

自动驾驶技术的演进随着AI和大模型技术的发展进入全新阶段,“端到端自动驾驶”作为其中最重要的一项技术演进趋势近来成为自动驾驶行业关注的焦点。在端到端自动驾驶领域,无论是产业界、学术界和资本市场,里程碑事件都有发生,各大龙头企业也纷纷布局这一核心关键技术路线。

《报告》对30余位自动驾驶行业一线专家的调研显示,其中90%表示自己所供职的公司已投入研发端到端技术,端到端已逐渐成为自动驾驶行业的共识。

《报告》创新性地提出了一套可供参考的概念定义和术语体系,对端到端的基本概念进行了界定。《报告》显示,早期,端到端的核心定义是“从传感器输入到控制输出的单一神经网络模型”,近年来,端到端的概念有了更大范围的延展。本报告认为,端到端的核心定义标准应为:感知信息无损传递、可以实现自动驾驶系统的全局优化。

基于以上定义标准,结合自动驾驶系统中AI的应用程度,《报告》将自动驾驶技术架构分为四个阶段,分别是感知“端到端”、决策规划模型化、模块化端到端、以及One Model端到端,其中,后两个阶段符合前述端到端的定义标准。

同时,本报告也对端到端与大模型、世界模型、纯视觉传感器方案等常常容易被混淆的相关概念的区别与联系做了辨析。

该报告显示,就端到端与大模型而言,大模型更强调泛化能力,端到端更强调可靠性,大模型的推理能力对于端到端会有启发。

而世界模型这一个概念,则强调生成方面的能力,可以提供训练数据,并且也可以成为实现one model的方式。

而纯视觉传感器方案之所以常常会与端到端联系在一起,是因为端到端可以适应各种传感器,视觉摄像头目前装配量最大,而端到端需要大量数据,所以两者会被联系在一起。

二、端到端落地面临挑战 模块化端到端明年上车

除了界定相关概念外,《报告》还揭示了端到端的落地也面临诸多挑战,包括技术路线、数据和算力需求、测试验证、组织资源投入等。

如技术路线方面,端到端技术路线还未形成最佳实践,技术路线存在分歧。

数据方面,在端到端技术架构下,训练数据的重要性得到前所未有的提升,其中,数据量、数据标注、数据质量和数据分布的相关问题都可能成为限制端到端应用的挑战。

训练算力方面,端到端训练算力需求急剧提升,行业头部玩家均储备千卡~万卡级训练算力。

测试验证方面,现有测试验证方法不适用于端到端自动驾驶,行业亟需新的测试验证方法论和工具链。

组织资源投入方面,端到端需要组织架构重塑,也需要将资源投入倾斜到数据侧,对现有模式提出挑战。另一方面,虽然有观点认为车端算力不足和可解释性问题是端到端落地的限制因素,但本报告提出相反结论并进行辨析。

《报告》展望,基于自动驾驶行业头部玩家纷纷提出端到端量产规划,预计模块化端到端系统将于2025年开始上车,这将带动上游技术进步、市场和产业格局演变。

在技术上,端到端的落地会推动其依赖的上游工具链、芯片等加速进步。

市场端,端到端带来的自动驾驶体验提升,将会带来高阶辅助驾驶渗透率的提升。

由于其强泛化性,端到端也可能驱动自动驾驶跨地理区域、跨国家、跨场景的应用。产业格局方面,端到端使数据和AI人才的重要性进一步提升,可能催生新的产业分工和商业模式。

此外,《报告》还对端到端自动驾驶与通用人形机器人进行延展分析。自动驾驶在发展的早期借鉴了很多机器人行业的积累,包括感知算法、规划算法、中间件和传感器等多个层面。

近年来,自动驾驶技术和产业成熟度提高,其中端到端自动驾驶提供了一套已验证、可量产的基于数据驱动的AGI技术范式,对于通用人形机器人有较强的借鉴作用。

《报告》认为自动驾驶和通用人形机器人已经成为物理世界AGI发展最重要的两个应用领域,比较二者在落地之路上遇到的问题和解决路径,可以给另一个领域更大的启发。

三、Transformer潜力很大 但是很难一统天下

除了发布《报告》外,在圆桌讨论环节,众多参会嘉宾围绕Transformer以及未来模型演进、端到端的渗透对于数据类型的影响等话题进行探讨。

对于Transformer以及未来模型演进,南京大学人工智能学院副院长戴新宇表示,Transformer缺点在于训练能耗大,乘法运算多,可解释性一般,虽然有思维链但没有很好的推理能力。目前关注神经符号模型,量子计算机等架构是否是Transformer以外的有潜力的模型。未来3-5年Transformer还是有很大的发展空间的,但是之外也有值得学术界探索的模型。

▲围绕“大模型和物理世界AGI的发展趋势”的圆桌讨论

零一汽车智能驾驶合伙人,前图森感知负责人王泮渠表示,Transformer通用性和泛化性很强。未来Transformer潜力很大但是不会一统天下。现在Transformer擅长大模型和决策,而其他模型的架构有很大的探索空间。

智平方科技产品副总裁张鹏则表示,Transformer是当前比较有效且多种模态可以统一输出的基础。Diffusion或者3DGS已经在细分领域应用了。可以从两个点去看:Space(足够低的成本做到可控的规模,上限是否更大)和Stability。更多优势在于落地和场景化的时候以什么样的成本达到什么样的上限,Transformer可能只是一个过程。

而弘晖基金投资总监周崇杰则表示,Transformer和人脑比较,推理效率和算力利用都有缺陷。他认为,Transformer现在有很惊艳的表现,未来无论是基于Transformer的优化或者混合模型或者新的架构模型,都会有一些新的东西出来,架构在不断演进变化。

而当问到,端到端的渗透对于数据类型会产生怎样变化,以及如何应对时,辉羲智能市场副总裁刘奇表示,现在的端到端更多是感知侧端到端,采集端更多是标注的工作量。感知到规控这部分的端到端更多是人类老司机的动作和决策,和现在会有明显的不同。

▲围绕“端到端对数据的需求和挑战”的圆桌讨论

而恺望数据解决方案总监黄玉庆则表示,老的数据要求的场景比较单一,复杂度低。深度学习的路线要求的场景分布会大很多,数据集的多样性要求更高。对于公司来说,采集的技术路线会升级,数据处理放在前端,加大边采边标注的投入。数据采集以后清洗,增加自动化标注提高效能。泛化场景,在数据量不大的情况下如何满足客户需求也会加大投入。