魔视智能张峥:在智能驾驶领先需具备四大核心能力

版权声明:本文版权为本站汽车所有,转载请注明出处。

本站汽车10月23日报道    当下,作为汽车产业的新一轮发展载体,智能网联正逐步成为汽车产业生态变革,竞争格局全面重塑的突破口。在2023上海国际消费电子技术展期间,智能网联汽车产业生态发展论坛举行,本次论坛以“智能网联汽车生态发展”为主题,邀请整车、系统供应商、芯片设计、园区示范应用等企业,共同围绕智能驾驶,智能座舱,示范应用等话题进行交流探讨。

会上,魔视智能高级研发总监张峥做了主题演讲,以下为嘉宾演讲实录:

张峥:大家下午好!非常荣幸今天能有机会来到现场为大家分享魔视智能在智驾量产、行泊一体量产之路上的思考。

讲一下中国的大环境,中国在智驾需求侧领先于全球,我们每年的汽车消费数量、产量、销量都基于全球领先水平,汽车智能化也在全球的汽车市场里属于走的比较前列的。我们国家在智能驾驶汽车的产量比上也是全球比较前列的,得益于整个大的市场,得益于人工智能技术,包括深度学习、人工智能的相关储备,以及工程师、算法工程师、汽车工程师的充分人员储备,以及我们中国在交通道路场景、自动驾驶场景的丰富场景库。从数据、场景到市场的需求,我们都有非常独特的条件,以至于我们能够在智能驾驶量产这条路上走出我们国家自己有特色的企业或者有特色的解决方案。

在这样的大背景下,从魔视的角度去思考,如果能在智能驾驶这条路上走得更远,有一定的领先性,我们需要具备几个大的核心能力。基本上四大核心能力:

1、原创全栈算法能力。智驾无论是横向还是纵向的算法或应用层层面,都有非常强的复杂性,从感知融合、决策规划到控制定位,它在应对各种复杂场景的情况下,需要提供商或解决方案商有能力对每个模块因为优化迭代,或者解决一些实际场景的问题。

2、全栈式系统能力。从垂直层面来看,从整个架构的域控、从底层硬件的接口设计、系统架构,到底层软件中间件的连通到应用层的信号链路,在计算平台和应用层的连接方面、系统整合方面,也需要具备比较强的能力,才能够智能驾驶大规模量产落地的挑战。

3、全场景落地能力,智能驾驶主要分为高低速场景,全装量产领域又基本上是行车和泊车,从最基本的超声波车道融合泊车、记忆泊车、代客泊车,到高速的辅助驾驶L1、L2、L3、高速NV程序,基本分为行和泊两个场景。智驾在未来一定能够兼顾两个场景,让客户做到无缝体验。

4、完整数据闭环能力。大家都有一个共识,数据决定算法的迭代效率和效能,从大的智驾系统发展趋势来看,无论是从整车的电子电气架构,从最早的分布式到预中心,到未来可能是跨域中心,到最终的整车控制器或者整车级计算中心到云端。无论是架构的发展还是两个系统的融合,基本上行泊一体都是发展趋势之一。行泊一体之后,我们能够得到一些优点,或者能够从中获取到的益处。

1、传感器可以复用,无论是行车摄像头、泊车摄像头还是毫米波雷达、激光,都可以进行复用。

2、提高计算资源利用率,算力能效比不断提高。

3、降低系统节省。

4、提升开发效率。

这边罗列了一些比较典型的智能驾驶解决方案,从最左侧的前置摄像头+前雷达的最基本的A12解决方案,到最后的多R多V行车解决方案,再到4路环视、12路超声的泊车解决方案。原来行和泊一直是分为两套解决方案的,最终行车和泊车一定会走向深度的传感器复用,而不是两套系统的隔离。在这样的情况下,泊车环视、周视和前后视可以融合成为一套,360视觉覆盖来cover行车和泊车场景。

简单介绍一下行泊一体的产品迭代方案。随着SOC芯片平台的算力不同,我们要分为中算力和高算力的简单划分,不同的算力平台可能部署的解决方案有些区别。在中低算力的平台上,行车系统的演变从最早的行泊分离,有单行车控制系统、单泊车控制系统,到最后的行泊一体1.0,其实是一体式的预控,但其实还是两个SOC芯片去完成两套功能,外围传感器还是完全独立的。到后面的行泊一体2.0传感器,有一定程度的复用,并且可以在SOC侧做融合,单芯片通过多核异构的芯片,通过软件架构的设计,在一个SOC平台上实现。这种情况下,很多传感器还是分式复用的情况,更多的是两套。到了3.0,传感器也会由行泊两套融合成一套,外置MCU随着SOC平台更多的集成,单SOC解决行泊一体在中低算力上成为可能。

高算力平台,演进从后融合方案,传感器没有复用,到双SOC系统,再到算法级分离,也是一种后融合,最后在高算力上完全可以做BEV全融合,多任务的BEV网络架构设计、端到端尝试,能够将行和泊的任务从网络端直接输出相应功能需求的结果,从整个网络侧,可以把行和泊需要的特征从网络吐出来,为后端的功能应用去做好基础。

这是一个比较典型的前视功能或特性,前视一体机、前视摄像头为原来的行车实现语音识别、车道线,包括路上的行人、车辆,还有一些二轮车、三轮车之类的。(如图)这是原来比较常见的前视行车感知结果,通过视觉,我们可以做到车辆识别,包括周边的摩托车、车道线、路沿,这是我们在工程车上做的实景采集。像这样像素级的全域分割都可以叠加在一个处理效果上,包括能够识别斑马线、交通灯、路牌、指示牌之类的。

基于传统的CN方法,能够输出的语义还是非常丰富的,为了将来的行泊一体,包括高阶的智能驾驶是360度的视觉覆盖,是我们未来的方向。在这样的前提下,可能会有后续的BEV解决方案。

这是典型的环视泊车场景,我们通过360度的鱼眼摄像头覆盖泊车场景,可以识别各种各样的车位,包括泊车场景里经常遇到的障碍物,像购物车、立柱、车辆、车辆后的脱钩等等,典型的泊车场景识别需求,我们都通过鱼眼来实现。刚才看到的是行和泊两种场景的分离。

现在最新的方案是真正在前端做前融合,将行泊场景完全从前侧做融合。魔视智能自己设计了前融合框架,我们称为Cyclops,是前融合的BEV。在高算力平台上可以是BEV+transform的方式,可以将多元传感器输入,像来自于雷达、车身位置、轮速、定位等等的结果,包括我们的行迹推算结果,我们做预处理之后,扔到网络侧进行前融合,最终是从网络直接通过一些decode,把后端功能所需要的结果吐出来,而不需要在前侧分析是行车还是泊车。只需要在一套传感器能覆盖所有声波场景的情况下,去实现更好的360度检测、更多的场景覆盖。

这是比较典型的用鱼眼做的BEV场景,好处是在四颗摄像头里有特征级的提取,到BEV的映射,可以解决很多跨市、跨摄像头、跨市域的目标物。包括有这样一个全景来为智驾做规控。

这是现在比较典型的行泊一体场景,中间是6颗摄像头,前面是4颗环视,看到了2D图像,我们通过网络,左侧能够看到直接输出的BEV视角,一个鸟瞰图视角,目标物可以在上面实现,深黑色的是free space。右侧是深度场,颜色越深的地方可能有障碍物的概率越高、距离越远。从地面开到地下停车库,这样的场景覆盖能够非常好的解决一些城区场景,从地面到停车、从行到泊的完整感知覆盖,这也是我们魔视认为的未来行泊一体的感知方向。

魔视从2015年成立,我们一路走过来,从泊车场景做融合泊车、记忆泊车,在行车场景做最早的L1、L2智驾ADAS功能,到后面尝试在预控制器上做简单的行泊一体整合,或者在SOC上的整合。到后面最新一代的行泊一体预控,我们会通过一套传感器、6个摄像头的方案去覆盖行泊场景,做到深度融合。

现在的算法方案上,从数据源头到最后的SOC平台部署,其实需要企业有非常完整、高效的平台去驱动,我们有自己的UNIVISITY平台,主要任务就是把源数据,无论是来自于量产车型数据集还是来自于我们自己的数据采集车队,来自于虚拟生成、虚拟仿真的数据,进入到我们大规模的训练平台里做数据处理、3D回放仿真,以及我们做一些4D数据,因为4D数据的clip数量决定了将来BEV网络或BEV算法带来质量、效率的非常重要的点,我们有专门的平台来做。在训练平台方面,我们可以做大模型对于小模型的评估,包括分布式训练、快速部署,以及模型的调度和动态管理。在仿真平台,我们会做仿真场景,场景的泛化,以及最后训练完的模型经过仿真验证、泛化模型,直接部署到SOC平台上,真正为量产提供解决方案。这是我们整个一套偏半自动化或者高度自动化的平台。

这是我们的一些仿真数据,从真实世界来的数据,大家也比较了解,无论是数据采集车还是各种跑在路上的车。现在已经有了比较明显的趋势,虚拟生成的仿真数据可以为训练集、边缘case提供比较好的数据补充。虚拟仿真平台可以生成非常多的在真实世界中很难采集到的目标物、道路场景,很多仿真数据的注入,包括仿真数据和真实数据的结合,为我们做网络训练提供了更多的数据素材和数据来源。

这是比较典型的,可以通过比较成熟的引擎去渲染目标物,可以把它放在真实场景中,也可以放在虚拟场景中,这样的数据集可以为我们解决很多corner case,为我们提高识别精确率、召回率。

最后简单介绍一下我们公司的情况,魔视智能2015年成立,我们的总部在上海,在深圳、武汉、江苏南通、江苏昆山都有分中心,在澳大利亚有我们的深度神经网络AI Lab,魔视比较专注于算法的解决平台。一开始我们在感知领域是走的比较早的,现在在各种量产交付方面,我们基于视觉的同步定位和建图,以及后端的行车泊车规划控制,也是我们现在全栈能力的一部分。产品线方面,我们在商用车、乘用车都有覆盖,包括一小部分路侧。魔视在这两年有比较多的量产落地,无论是商用车还是乘用车,我们都是国内比较主流的主机厂的合作伙伴。

这是魔视和大陆的一些战略合作,通过跟一些global Tier1的合作,也是我们走向全球的一些尝试。不同的企业有不同的思考,不同的区域有不同的优势,把这些整合在一起推出更好的解决方案是我们合作的初衷。

总结一下魔视在算法侧的迭代步伐,2015年开始我们专注在计算机视觉,从第一代的深度学习感知算法,现在来看非常简单,当时比较主流、前沿的一些12比特量化多阶段的目标。检测到第二阶段,我们尝试在量产上优化网络效率,减低从12比特到6比特的量化,通用的多阶段目标检测,第二代可以提升20%以上的性能、50%以上的资源消耗,才能够使我们从第二代开始,在量产平台上做部署。从第三代开始,4比特量化金字塔的CNN,包括多任务的框架,让我们可以为行车、泊车、不同场景、不同任务提供视觉解决方案。到第四代,现在正在跑的BEV CNN、BEV Transformer的方案前融合,包括我们匹配的4D数据平台。未来大模型也是一个方向,BEV空间的深度网络,包括端到端的网络,从感知到控制或者从感知到决策,这是我们后面的整体规划。

这是我今天带给大家的分享,非常感谢大家的时间,后面有什么需要交流的,我们可以进一步交流。谢谢!