理想汽车郎咸朋:未来没有10亿美元利润,玩不起自动驾驶|36氪专访

采访|李勤 李安琪

文 | 李安琪

编辑 | 李勤

6月上旬,重庆汽车论坛演讲前一天,理想汽车CEO李想临时换掉了演讲稿。团队原本为他准备的是人工智能话题,但李想更想聊的是自动驾驶。

李想在会上谈到,未来自动驾驶将像人一样,拥有快速反应能力,与处理复杂事件的逻辑推理能力。理想找到的答案是:端到端+VLM视觉语言模型——这也是当下智能驾驶行业最火的话题。

一个月后,理想汽车智驾团队详细发布了“端到端+VLM”方案,不同于国内同行的“分段式端到端”,理想的方案更接近特斯拉,被称之为“One Model”,一张大网。

在外界印象中,理想的智驾一直是追赶者的状态。去年行业激烈的开城大战中,理想为了追击行业节奏,开始频繁转变路线:从依赖高精地图,到轻地图(NPN特征网络),再到去掉高精地图。

理想汽车智能驾驶研发副总裁郎咸朋和智能驾驶技术研发负责人贾鹏近日接受了36氪访谈,回顾这段追赶之旅,郎咸朋总结,“核心原则就是能不能找到问题的本质,然后下决心、快速纠偏。”

选择“端到端”技术路线,也是这个准则的延续。郎咸朋说,过去的智驾方案,不管是轻图还是无图,底层技术架构都是“有图”,按照既有的“感知到规控流程”工作,上游感知信息有损,下游规控就要不断地补防漏洞,“这需要大量的人力和资源”。

当然,资源投入依然是次要问题,核心难题是,“基于规则的智驾体验有上限,永远做不到拟人。”

“端到端+VLM+世界模型”,是理想找到的最佳人工智能落地范式。

简单来说,理想的端到端方案,取消了原本智驾系统的感知、预测、规划控制等互相独立、依赖人工规则的多个模块,将其合并成为一个大神经网络。“输入传感器数据,输出规划轨迹。”郎咸朋总结道。

VLM视觉语言模型,为端到端提供了一个类似于ChatGPT的外挂。端到端的问题是“给它什么样的数据,它就有什么样的行为”,VLM视觉语言模型拥有的认知世界、逻辑推理能力。复杂场景下端到端可以实时向VLM提问,后者给出相关驾驶建议。

世界模型则是一个巨大错题本,可以通过重建+生产的方式生成模拟数据,加上理想之前积累的真实案例,形成“真题+模拟题”,以来考验端到端模型。模型通过测验获得高分后,才能推给用户。

在理想内部,这三大模型分别被称作系统1、系统2和系统3。系统1对应人脑中的即时思考模式,系统2对应人脑中的逻辑思考,而系统3则是一个考试模型,负责验收系统1和系统2的训练学习成果。

端到端智能驾驶技术由特斯拉发起。2023 年 8 月,马斯克就在直播中展示过基于端到端的FSD v12版本能力,目前FSD已经迭代至 v12.5版本。但与特斯拉不同的是,在端到端、世界模型之外,理想还引入了VLM大语言模型能力。

贾鹏向36氪解释,他在美国东海岸和西海岸各花了一周时间测试特斯拉的FSD,发现即便是“端到端”也有上限。在路况复杂的美国东海岸,像纽约、波士顿,特斯拉的接管率明显提升,“HW3.0上能跑的端到端模型参数量不会特别大,模型容量也有天然的上限。”

而VLM被理想设计的角色,就是提升“端到端”的上限,其可以学习坑洼路面、学校,负责施工、环岛等事件,在关键时刻,给端到端系统提供决策。

郎咸朋和贾鹏都认为,VLM是理想这套智驾系统更大的变量。因为VLM的参数已经达到22亿,响应时间是300毫秒,如果拥有更大算力的芯片,VLM可部署的参数量将达到百亿级,是通向高级自动驾驶L3/L4的最佳路径。

“VLM本身也在跟随大语言模型技术发展,参数量最终能到多大,还没有人能回答。”贾鹏说。

不难发现,数据驱动、视觉语言大模型等特点,决定了智能驾驶行业已经参与到OpenAI、微软、特斯拉等公司发起的算力游戏中。

郎咸朋没有讳言,真到了这一步,大家比的就是数据的数量与质量,以及算力储备。高质量数据是以绝对的数据规模为前提;支撑L4模型的训练,大概需要几十EFLOPS的算力。

“没有10个亿美金的净利润的公司,都玩不起将来的自动驾驶。”郎咸朋直言。

目前理想汽车云端算力为4.5EFLOPS,快速缩小了和头部公司华为的差距。据36氪汽车了解,近期理想大量扫货英伟达的云端芯片,“渠道商手里有的卡基本都买了”。

CEO李想本人也洞悉了这场竞赛的走势:用资源加智能技术杠杆,甩掉同行。他经常主动问郎咸朋,“算力资源够不够?不够让谢炎(理想CTO)再给弄点。”

“我们车也有,钱也比别人多,非常有机会在这条路上,拉大和对方的差距。”李想说。财报显示,截至今年一季度,理想汽车现金储备接近990亿元。

理想从内部数据看到,智驾的商业闭环已经初有迹象。7月初,理想开始向智驾Max版用户交付“全国都能开”的6.0智驾版本,郎咸朋发现,理想Max车型占比快速超过了50%,“每个月都有10%以上的增长,如果2%-3%可以理解为正常抖动,但10%以上就是有效增长。”

郎咸朋也清楚,虽然L4自动驾驶的远景开始清晰,但它的实现路径没有变,“我们要赶紧帮公司卖车,卖出车才有钱买卡训练智驾。”

如果智驾是未来汽车战场的胜负手,它显然是更残酷的资源游戏。理想从顶层战略到技术筹备和资源投入,都做了先手准备,其他人呢?

以下是36氪汽车与理想智能驾驶研发副总裁郎咸朋、理想智能驾驶技术研发负责人贾鹏的对话,经编辑:

谈智驾上限:不管有图还是无图,都是同质架构

36氪汽车:内部复盘过吗?怎么从智驾落后状态,快速做到能和华为对比的水平?

郎咸朋:其实和小鹏、蔚来、华为相比,不是说我们的人多个脑袋,甚至可能还不如人家人多,但我们要求实事求是。有时候我觉得大家可能没有去找问题的本质,遇到困难都是想现在做的能不能改改,做迭代。

比如有图到无图,图本身就是最大的问题。以前在图上做了很多工作,会想再挣扎一下,其实是要赶紧投入下一段研发。就看能不能找到本质问题,下决心快速纠偏。

36氪汽车:理想做到全国无图智驾,有很多版本,你们怎么纠偏?

郎咸朋:去年上海车展,大家开始做城市NOA。各家思路差不多,高速道路用高精地图,所以最先看高速方案能不能用到城市,这得去问图商,高德说有城市高精地图,但 20 城左右。我们说先试试。

但方案和地图的迭代更新是绑定的。当时我们在望京做,修路、改道甚至换红绿灯,就要等高德把图迭代一下,才能继续工作。大概去年6月,我们决定不做重图了,改用NPN (一种神经先验网络)方案。相当于局部做图,在大路口、环岛等用NPN先验信息,我们的车去更新特征。

但大城市北上广深车多可以,但小的城市车少,怎么更新?永远在大城市里做吗?用户不会买单的。当时团队还是犹豫,北上广做得还可以。内部也有声音,要不别做百城,就做个几个一线城市,反正最早华为也就50 个城市,咱们也不用非得第一第二。

我说那不行,还是要快速做一下,还是想知道,如果真做到比较大范围,NPN方式到底 O不OK?问题就在这,地图一直会有限制,也有诟病说有些城市只能开两条路。于是痛定思痛,我们去年12 月把百城交付了之后,就开始切无图方案。

36氪汽车:无图NOA到端到端,必要性有哪些?

郎咸朋:无图还是有问题。原来图可能提供一些比较准确的信息,去掉地图先验信息后,对上游感知的要求变得特别高。下游规控这一块,之前信息输入很规矩,现在感知有一些抖动问题和错误之后,也有很大挑战。

继续做下去需要大量人力兜底。比如感知有问题,就得给中间的环境模型加很多规则,后边规控如果有影响就加上规则弥补。这对团队的人力资源挑战很大。华为无图就是这么来的(人力优势),我们去年下半年本来也想多弄点人。

但这玩意上限挺明显的,主要所有规则都是人制定,靠工程师设计。尤其到后期今年1-2月份,我们经常改了一个规则,这个 case 好了,别的 case 就不行了。互相牵连太大,无穷无尽。

当然投入资源还是次要的,最关键的,基于规则的体验有上限,永远做不到拟人。所以我们就又迭代到现在的端到端和VLM。端到端,是第一次用人工智能做智能驾驶。

36氪汽车:理想是什么时候开始投入端到端?

郎咸朋:我们永远有两条线在做,一条明线是量产交付,去年NPN轻图到无图是明线,端到端是一条暗线,是我们的预研线。

只不过去年雁栖湖战略会把它明确出来了。战略会上,李想提到,自动驾驶是我们的核心战略,RD(技术研发)要达成重要节点。端到端思路很早就有了,但一直有交付的压力,没有资源去做探索。

36氪汽车:无图推出来没多久可能就要上端到端,这个节奏是怎么考量的?

郎咸朋:年初时候,就跟李想说过这句话,虽然我们要做端到端,但还是要做无图。因为无图是端到端的支撑,不做无图,哪来这些数据、经验去切到端到端?

而且必须先上无图,车才好卖,不然拿什么去和华为竞争?现在上了无图,就是给端到端争取时间,同时让产品力有一定提升,帮助卖车。

36氪汽车:一路纠偏过来,你们一直在否定自己的方案,从向上管理角度会不会有压力?

郎咸朋:没有,第一,我的责任是带着大家去实现自动驾驶;第二,理想组织有自己的方法论或者流程,比如说做正确但不容易的事,听起来像废话,但很关键。

李想绝对不会说,郎博怎么否定了之前做的东西。我们和他讲清楚为什么要做这个事,我们要在AI战略上取胜,找到了一个双系统范式,他马上理解了。他只会说,端到端太好了,得赶紧做。

人工智能要的就是算力和数据。李想经常过来问我,郎博你算力够不够?不够让谢炎那边再给你弄点。

李想说,我们车也有,钱也比别人多,非常有机会在这条路上,拉大和对方的差距。所以别做这缝缝补补的事,赶紧去做后面的AI。

谈智驾未来:端到端+VLM是人工智能最佳范式

36氪:有些公司没做过无图,认为端到端是个换道超车的机会,这事成立吗?

郎咸朋:说对了一半。端到端确实可以换道,不管有图、NPN、无图,方案核心是同质的。把地图拿掉,感知增强,把小模块堆成几个大模型,用同一个方案一点点演进。

但端到端不一样。它第一次用人工智能的方式来做自动驾驶。用 One Model 做端到端后,输入只有数据,输出是轨迹,中间模块都融入到一个模型里面。

整个研发流程体系完全不一样。传统的产品研发模式,驱动力来自于需求设计或者问题反馈。这个场景下不行,有 bug 之后,经过一些人工设计迭代、验证。

端到端就是一个黑盒子,它具备什么能力,完全取决于给他什么样的数据。我们现在筛选的是老司机数据,如果数据不好,出来的模型就不好。进去的是垃圾,出来的也是垃圾。它是一个数据流转的训练过程。之前是产品功能研发过程,现在是能力提升过程。

所以通过端到端换道没问题,但是想超车,前提得有数据、训练算力。如果没有这两个前提,说句实话,模型大家都有,本身不会差太多。哪怕再好的模型,没有数据和算力,就是一堆参数而已。

36氪:理想有很多数据积累,但何小鹏最近提出观点,说数据多不等于能做到自动驾驶,你怎么看?

郎咸朋:我们的训练数据是clips,里边包括了司机开车几十秒的完整数据,有视觉传感器,当时车辆状态信息,油门、刹车这些操作数据。

但数据必须高质量才有用。什么叫高质量?我们跟产品和车辆的主观性能评价团队,共同定义了一个叫“人类高质量司机”标准。有些司机天天开车,技术非常高,如果总是急加速、减速,老是开出AEB或者急打方向盘的,可能都不行。

按照这些标准,我们80万车主只有 3% 是“人类高质量司机”,加上此前积累的高质量数据,最终形成了几百万clips,都是精华。何小鹏说的没错,确实需要高质量数据,但数据质量是以数据的绝对规模为前提。

36氪汽车:端到端之后,数据工具体系需要跟着升级吗?

郎咸朋:工具链发生非常大变化。之前是产品功能研发过程,比如用户接管,数据传回来,人工分析问题,然后修改代码、实车评测、上线发布,这个过程数据闭环已经非常高效了。但也要好几天时间,而且有大量人力参与,还可能测试越多,问题越多,需要修改的人越多。

现在的流程是,假设有个车主接管,数据回来后,会自动用世界模型生成类似场景,变成错题库。还要看看错题库里有没有类似数据,没有的话,就到已有数据库里再挖掘一下,联合训练。

训练出新的模型后,模型再回到世界模型考试系统里边,考试两次。第一次是刚才的错题做对了没有,第二次是一套测试能力真题。如果两次都没问题,这个模型就出来了。极致一点的话,中间环节没有任何人,是一个很自动化的闭环过程。

36氪汽车:端到端是黑盒训练过程,要加很多代码来兜底,能判断出兜底工作量多大吗?

郎咸朋:很少,有图版本我们的代码量大概200万行,无图是120万,端到端一共才20万,只有原来的10%。

控制这块确实用到一些兜底规则。因为端到端输入传感器数据,实际输出规划轨迹,但可能是有问题,所以我们会有一些暴力规则,避免出现一些异常控制行为,比如方向盘打了180度。

36氪汽车:马斯克说代码删了30万行,你们似乎更激进,后面推送之后如果问题越来越多,代码还会再加回来吗?

郎咸朋:我觉得可能不会太大变化。主要是我们有不停迭代自己的能力。

36氪汽车:理想内部一直有量产和预研两条线,端到端从预研变成量产,现在的预研是什么?

郎咸朋:L4。这要回到我们对人工智能的理解。我们发现,如果想实现真正的自动驾驶,跟现在的做法是不大一样。

端到端是,给它什么样的数据,就有什么样的行为。如果没有给过类似数据,就不会应对。但人不是,比如我在北京开车,去美国也能开。如果真走到自动驾驶,系统必然也要像人一样理解事情,具备推理能力。

我们研究了一下人的大脑是怎么工作和思考的,去年八九月,贾鹏和詹锟他们就看到了双系统理论,这是很好的人类思维框架。假设人工智能是双系统,系统1有快速响应的能力,系统2就是逻辑思考能力,遇到未知事情可以很好处理。

这都是道的部分,理论层面的东西。落到自动驾驶,端到端模型是系统1,系统2是VLM视觉语言模型。这是物理世界实现人工智能的最佳方案。

那怎么衡量系统1和系统2的能力?我们还有个世界模型,内部其实叫系统3,对于世界模型我们的用法非常清楚,就是用来考验系统1和系统2,它是个考官。

我们有真题库,就是人正常驾驶的真实数据。而世界模型是个生成式模型,可以通过已有数据,举一反三生成另一些题。当一个模型训练出来,就做一遍真题,然后再做几套模拟题,看看考多少分。每一个模型都会有分数,分数越高,就是更强大能力的模型。

36氪汽车:什么情况下会触发系统2?

郎咸朋:系统1、2系统永远在工作。如果有些系统比较复杂,系统1可能不太好识别,比如立交桥,水坑、刚施工的水泥地,系统2在这种场景里都会起作用,它只是工作频率会低一点,比如3-4赫兹,系统1可能以十几赫兹高频在跑。类似GPT一样,系统1会一直去问系统2问题,遇到这种场景应该怎么做。

36氪汽车:系统2 VLM本身有能力边界吗?

郎咸朋:可以把它当做一个大语言模型,有些大语言模型可能数学好,有些代码好,有不一样的能力。我们着重把驾驶相关法规,科目1-4的教学视频、教材都给它,我们的VLM其实是偏驾驶科的大语言模型。

短期内,有些知识它确实还没有,但随着闭环越转越快,它的能力上限会越来越高。端到端现在参数只有3亿多,VLM系统参数都22亿了。

36氪汽车:所以智驾以后更大的变量是系统2?

郎咸朋:底层的支撑是系统1,但再往后走的时候,包括走到L3\L4级自动驾驶,必须要有很强大的系统2能力,现在22亿参数可能也不够,还得往上加。

贾鹏:系统2主要还是着重复杂的场景,22亿参数的响应时间是300毫米,困难场景下,这个推理时间是OK的。但系统1肯定是不够,需要几十毫秒左右。

36氪汽车:模型参数会有上限吗?比如80亿?对芯片算力的大概要求是多少?

贾鹏:就跟大语言模型一样,到多大参数,现在没有人能回答。

郎咸朋:我们现在又有道又有术,系统1加系统2是个很好的人工智能范式,但具体怎么实现,还需要咱们再慢慢探索。

36氪汽车:分段式端到端如果要进化到 One Model,要推倒重来吗?

贾鹏:挑战挺大的,我们的无图相当于是分段式,就两个模型。但第一,技术挑战比较大,因为传统那套全没了,怎么把模型训到效果好?第二是人的挑战,感知和规控两拨不同背景的人,怎么在一起把模型做出来?

我们团队也是挺挣扎、折腾的。到了端到端,很多人的角色可能就变了。以前做工程的人,可能去定义数据、定义场景。转换自己的角色,挑战还是挺大的。

谈商业闭环:没有10亿美金玩不起自动驾驶

36氪汽车:听起来感觉经费在燃烧,你们打算对端到端投入多少?

郎咸朋:肯定,目前是10亿人民币,将来自动驾驶模型的训练可能需要10亿美金,还不包括其他的,就是买卡、电费、人才这些。没有10个亿美金的净利润的公司都玩不起。

36氪汽车:端到端可能是汽车行业的分水岭技术,从商业闭环角度,智驾的商业表现如何?

郎咸朋:从6.0版本开始,也就过去1-2个月,我们的AD Max占比已经超过了50%,每个月都有10%以上的增长,如果2%-3%可以理解为正常抖动,但10%以上就是有效增长。在北上广深,我们智驾车型比例已经到70%了。L9车型AD MAX定单达75%,L8是55%,L7是65%。

贾鹏:L6也有22%。对年轻人购车来说,智驾已经是一个很重要的因素了。用过智驾后,很难再回到原来的状态。

郎咸朋:现在高速NOA大家的认可度已经很好了,城市NOA还是非常早的阶段。很大程度上城市产品力还不够好,哪怕无图也到天花板了,跟人类开车的舒适度相比不是特别好。端到端之后,一切都会发生改变,某些表现跟人还是挺接近的。

随着数据和算力的补充,端到端架构衍生出来的城市智驾,很可能达到高速上的驾驶体验。到了这种阶段,对用户购车是有很大帮助的。

36氪汽车:智驾商业价值越来越明显,但理想智驾功能一直免费,会不会重新讨论策略,让商业价值更突出一些?

郎咸朋:很多人买理想是为了冰箱彩电大沙发,但将来也可能为了智驾买理想,这就足以表明智驾商业价值了。Max和Pro版本真的差3万块钱。

至于软件收费,如果到了L4级别,真的做的特别牛,畅想一下能帮用户去学校门口接一下孩子,你愿意为这个服务付费吗?随着能力提升,有些附加的商业模式会出来,但前提一定是智驾能力有极大提升。

36氪汽车:小鹏提到未来18个月做到类似谷歌Waymo的体验,你们会有这样的时间表吗?

郎咸朋:如果数据和商业能支撑目标的话,是可以的。我们内部盘算了一下,先不说L3\L4,想支撑VLM和端到端的训练,大概需要几十EFLOPS云端算力。

小鹏是2.51 EFLOPS,理想是4.5 EFLOPS,至少需要10 EFLOPS以上算力才可能做到,也就是每年大概10个亿美金,60亿人民币。如果每年能烧的起,可以玩。

36氪汽车:除了算力,按照现在的技术架构往后走,智驾团队一年会平均需要多大投入?

郎咸朋:费用大头就是训练芯片,数据存储和流量这些,一年至少10~20个亿美金。但是再往后走,特别是世界模型,终极目标是还原整个真实物理世界。这本身也需要训练,需要大量算力资源。

要说上限是多少,我现在想象不出来,至少比10EFLOPS还要更多,马斯克说要上百EFLOPS,我们认为这不是在瞎说。

36氪汽车:车企现在还是制造业的利润模型,今年还有价格战,利润会受影响,车企来做科技公司做的事情更合适吗?

郎咸朋:谁能拿到高质量数据,谁能有足够训练算力,谁就能搞好大模型。人才可能不用那么多,但相对应的人才得有,这三个都具备的,除了理想、华为、特斯拉之外还有谁?我想不出来。

我们现在的想法是赶紧帮公司卖车,卖出车才有钱买卡训练智驾。

智能驾驶越往后做,差距会越来越大。之前有图无图,大家都在做一个能看到天花板的东西。再往后突破,就得加上AI,大家比的就是数据和算力。解决不了就只能在上一个维度卷,我们会跨到下一个维度去吃数据红利。

36氪汽车:智驾技术变化这么迅速,投入这么大,怎么让李想对智驾保持感知?

郎咸朋:他随时会找我和贾老师去聊。从去年9月份开始,我们有一个人工智能专题周会,结合公司所有跟AI相关的人,包括智能空间、基建、训练平台的人。李想对人工智能的理解还是非常到位的。

他也有一些其他的资源,认识比较多人,跟陆奇、Kimi CEO杨植麟、地平线余凯等人都有聊。他既理解了AI的核心精髓,实质技术,还能用一些比较通俗的话表达出来。

36氪汽车:端到端模型设计需要多少人力?未来智驾团队平均的规模大概多少人?

贾鹏:可能不需要太多,特斯拉其实真正精英的做模型的人很少,视觉团队一共就20个人。这其实可以反推,比如有了OrinX芯片,模型本身跑12-15赫兹,基本就确定了模型参数量有多大,大概用什么样的模型结构去训练,可能几个人就可以大概定义出来了。

郎咸朋:特斯拉比较极致,软件算法团队200多人,但它只做一个芯片和少数几个车型。我们现在做不到他那么极致,但还是会比他多几倍。因为我们芯片平台不太一样,我们车型也多,虽然不是用人特别多,但每个地方多少得有点人。

36氪汽车:云端算力未来是个很大投入,有没有考虑国产芯片替代?切换起来会有困难吗?

贾鹏:车端最早已经用了地平线的J3和J5。云端在试一些国产的,但目前最大的难点是他们生态没有那么好。英伟达CUDA生态实在太无敌了,换个生态就是适配起来非常麻烦。现在还是想以效率为先,同时关注国内的进展,已经开始有交流和试用了。

36氪汽车:自主研发的智驾芯片出来之后,跟端到端的结合会有什么效果?

贾鹏:软硬结合肯定效果会更好,特斯拉已经打出样来了。人家就是芯片更便宜,算力更高,对 AD的支撑也更好,人家在FSD V12.5 上想把参数扩大 5 倍就扩大了。这个确实是有很大优势的。

郎咸朋:前提还是 L3 和 L4 算法得确定下来。

36氪汽车:L4级自动驾驶会有一个时间点吗?

郎咸朋:就是 3- 5 年吧。我们先把 L3 交了,L3是 L4 的敲门砖。第一,能让我们更加摸清楚 L4 的算力和数据要求,包括考试系统、数据闭环的基础能力。

第二从产品来说,还要建立跟人的互信关系。因为端到端本身还是黑盒子,人多少还有些不太信任系统。那么通过L3产品,能跟人打造好的信任关系。

36氪汽车:很多AI技术原点都在硅谷,以前跟随特斯拉,理想现在也在做前沿探索,怎么保证对技术的判断或嗅觉是准确敏锐的,而不是点错技术树?

郎咸朋:我们已经有了一个完整体系,L4还得3~5年但已经开始去摸着了,如果点错的话,也是早早点错,还有机会。

中美的人工智能现在确实有分裂,中国人才其实也挺多的,我们尽量找到最优秀的年轻人,像今年我们招了240多个校招生,都是QS前100(世界大学排名前100名单)的。

谈特斯拉:学习特斯拉、超越特斯拉

36氪汽车:有人说国内和特斯拉智驾的差距是2年,你们怎么看?

郎咸朋:肯定不是。技术方案上咱们不做评价,因为特斯拉这两年没有太说自己的技术方案。从产品体验上看,我们基本上处于特斯拉去年刚发布端到端版本的水平。大概是半年左右的差距。

36氪汽车:特斯拉也遇到了一些问题,马斯克说数据变少、反馈变少,你们怎么规避?

郎咸朋:这个是不同的阶段,什么时候遇到就表示我们进入到下一个阶段了。

贾鹏:特斯拉现在最大的问题是验证,你可以看v12.4(特斯拉FSD的版本号)效果不好,然后才出了v12.5,参数量扩大 5 倍。我猜是验证这一步,没有做得特别好。模型出来的时候,不知道真到了用户那,效果到底咋样。

这就是我们强调世界模型的原因。我们吸取了这些教训,一定要提前把验证做好。否则全国所有道路包括园区小区内,模型怎么验证?

如果看特斯拉2022 年 AI Day,还是很传统仿真, scalability(可扩展性) 太差了,支撑不了在在北美全部开放。这一点上,确实是我们从特斯拉得到的一些教训。所以我们花那么大力气去做世界模型。

36氪汽车:端到端方案搭建过程当中,有没有哪些让你们觉得挺难的?比如数据工具链?

贾鹏:数据这套东西2019 年就开始建了,至少在中国是做得最好的。数据、训练其实都是常规,都是有范式可以遵循。目前来看,验证是挑战最大的。

另一个是 VLM 本身,它逐渐发挥出更大作用。可能一开始的时候,只有5% 的情况在用,但后面可能端到端遇到上限,剩下的产品体验就靠 VLM去迭代了,这是将来的挑战。

这也是跟特斯拉不同的点。我们做VLM和世界模型这两点,也是因为看到特斯拉的问题。v12.4 验证有问题,我们之前在北美开了两次,每次大概一周左右,西海岸和东海岸都去开过。明显发现它在西海岸很好,东海岸就很差。波士顿、纽约就不怎么样,因为这两个城市比西海岸复杂很多。

在东海岸,特斯拉平均接管率挺高,可能端到端的一些上限就在这儿。所以我们做VLM,就想把这个天花板给打破。VLM 上限非常高,有可能通过这套路径超越它(特斯拉)。