从西雅图到上海,一场自动驾驶“奇迹竞赛”诞生
今年6月,一个新的自动驾驶竞赛在上海和西雅图进行了低调的亮相。
第二届CVPR自动驾驶国际挑战赛(Autonomous Grand Challenge)的组织人之一、上海人工智能实验室青年科学家李弘扬告诉南方财经全媒体记者:这一由中国主办的自动驾驶比赛,不仅规模空前,更在引领自动驾驶技术迈向一个以“端到端系统算法”为核心的全新时代。
时间回到大约20年前,科技先驱者们已经热衷于参加自动驾驶挑战赛。
在2004年和2005年的莫哈韦(Mojave)沙漠、2007年距离洛杉矶两小时车程的一处美国空军退役基地,各种奇异的改装车试验着“无人驾驶”的疯狂想法。
回到2024年,挑战赛不再只是“疯狂想法试验场”。竞赛有了惊人的专业度,而且正在塑造着自动驾驶的未来。
赛场来到中国上海。
2024年3月末至5月末,位于徐汇区滨江地带的服务器很热,它们在持续接收来自全球28个国家和地区483支队伍、累计超过3000多次的算法作品提交,七个赛题等待它们争夺排行榜的靠前排名。
奇迹竞赛(Miracle Match),通常是指体育比赛中出现非常罕见或令人难以置信的逆转胜利,往往因为其戏剧性和不可预测性而被人们津津乐道。有时候,它也单纯指出现非凡结果的竞赛。
在人工智能发展史上,竞赛从学术界内部的理论比拼,逐渐发展为学术和产业优美融合、多次诞生理论奇迹和商业奇迹的地方。从ImageNet到Darpa到Waymo,人工智能从业者们热衷于参加竞赛,擅长在竞赛中产生奇迹。
上海人工智能实验室、“大语言模型”赛道创新奖获得队伍重庆邮电大学、作为出题人之一的初创公司光轮智能,接受了南方财经全媒体记者采访。他们介绍了学术人士设立挑战赛、参加挑战赛的全程故事,以及商业人士被学术竞赛吸引的原因。
“赛场”
自动驾驶挑战赛的赛场不一定设在路面上,也可能是在服务器中。无形的“算法”在微小的晶体管上疾驰。
从2024年3月末起在大约10个星期内,冷佳旭及团队在中国计算机学会会士、重庆邮电大学校长高新波的指导下,参加了第二届自动驾驶国际挑战赛,在“大语言模型在自动驾驶中的应用”赛道中展开了算法研究。
冷佳旭和伙伴们需要解决这样一些问题:
自动驾驶算法模型,是否能引入语言的推理能力?
从语言输入到算法作出驾驶决策,这种算法能否打破“黑盒”状态、提供更多行为规划的可解释性?
输入多元感知信号后,模型能否回答涉及驾驶的多方面问题?
如果从硕士生涯起算,冷佳旭从2012年起专注于计算机视觉研究。他曾见证过在人工智能领域,计算机视觉(Computer Vision,简称CV)进行了“抢跑”。
2012年5月,计算机图形领域知名竞赛“ImageNet大规模视觉识别挑战赛(ILSVRC)”发布第三届比赛赛题。
9月,来自加拿大多伦多大学的Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton提交的一份名为AlexNet的算法,一举获得冠军。
在此后的十年里,AlexNet将“深度学习”、“神经网络”推到了人工智能算法的潮流浪尖。同怕,CV成为人工智能领域最炙手可热的应用领域,无数人才、资金聚拢于此。
作为首次参加自动驾驶竞赛的选手,冷佳旭对人工智能在汽车驾驶方向的应用抱有梦想。
“在我的学生时代,CV让安防、医疗、交通等场景发生了翻天覆地的智能化改变,如今,汽车驾驶这一高难度应用领域可能会因为人工智能的介入走向全自动化。”冷佳旭告诉南方财经全媒体记者。
大语言模型在2024年获得了空前的市场关注,但目前仍在寻找具体的落地场景。
在参加第二届自动驾驶国际挑战赛的全部483支队伍中,152支(相当于31.46%)参赛队伍在7个赛题中选择了这一个,选手所属高校包括英国剑桥大学、德国图宾根大学、瑞士洛桑联邦理工大学等世界名校,所属企业包括英伟达、AMD、腾讯、美团、滴滴出行等全球科技龙头。
冷佳旭团队中的董洋、梁瀚升、翟明亮、李成、夏孟、刘星麟、莫梦竟成大多为重庆邮电大学的在校博士生或硕士生,出生于1995年左右。他们的学科方向不尽相同,有些人做的是“目标检测”,但自动驾驶需要混合学科人才。
学生们很快发现参加竞赛和平时“发paper(论文)”不同。在一些公开数据集上和封闭环境下做算法研究,更多是理论性的发现,但挑战赛抛出的是实际应用问题,同时提供了平时难以接触的算力和数据。
长安汽车是重庆邮电大学此次竞赛的合作伙伴。他们向冷佳旭团队提供了部分自动驾驶数据用于微调(fine tuning),还有8至16张英伟达A800显卡。长安汽车近年对智能驾驶颇为重视,前百度智能驾驶事业群组自动驾驶事业部总经理、L4卡车公司千挂科技CEO陶吉于2023年末加入长安汽车,担任智能驾驶相关业务负责人。
大型车企可以通过量产车的“影子模式”收集大量数据,有资质的算法方案商也可以通过测试车队进行采集,但获得量产车和采集资质均非常难得,令大多数实体无法获得闭环数据。
但自动驾驶竞赛带来了难以想象的“产、学、研”融合机会。“挑战赛同时吸引了行业里的各种群体参与,甚至具体公司也可以在比赛中抛出在商业化过程中面临的各种问题,吸引学术界集思广益,也许有些学术方案就会被公司采纳。”冷佳旭告诉南方财经全媒体记者。
在自动驾驶市场,“马太效应”发挥着不可抗拒的威力,龙头公司的技术方案往往具有绝对的市场占有率,引发大批同行公司追随方案。换言之,已经很少有公司愿意潜心创新研究,大家都选择拷贝、模仿。
在大语言赛道上,市场还处于“试水”期。重庆邮电大学团队最终将俯视图(BEV鸟瞰图)特征与大语言模型对齐,将空间感知能力(四维图谱)与大语言模型的推理相结合。
对于重邮的方案,李弘扬告诉南方财经全媒体记者,评委会认可其创新性。“国际赛事上榜方案大部分为已有成熟技术,创新性不足,但挑战赛需要激励参赛队伍。”评委会最终认为,重邮的方案不仅提高了性能,且属于创新方法,更应鼓励他们进行更多前沿技术的探索和应用,因此授予他们“创新奖”。
其他参赛队伍则从不同维度上提升了大语言模型在自动驾驶中的运用。“从最后的技术报告来看,有一团队加入了深度估计的内容,强化了距离感知的内容,这也非常有意思。”冷佳旭称。
关于大语言模型或多模态大模型在自动驾驶中的应用,冷佳旭还提出,未来需要合成数据、世界模型技术同步发展。他解释,在训练中需要大规模的语料库输入,对于自动驾驶而言,就需要自动驾驶数据。目前,参赛队伍采用了公开数据集nuScence,这是由Motional公司开发的开源全感知装置自动驾驶数据集,包含3D标注,具有1000个每条20秒的场景。“但这远远不够,未来需要合成数据、世界模型等补充。”冷佳旭称。
从参赛到办赛
2022年摘得Waymo开放数据集挑战赛纯视觉3D检测项目桂冠时,上海人工智能实验室希望实现从参赛者到办赛者的身份转变。
实验室坐落于徐汇区西岸国际人工智能中心,这是一个以年轻人为主力的科技中心。
上海人工智能实验室脱胎于浦江人工智能国家实验室,其创始人是知名人工智能专家汤晓鸥,目前由清华大学电子工程系长聘教授周伯文担任实验室主任。
实验室下设数个研究项目,分别属于通用大模型、视觉智能、决策智能、通用视觉、数字内容平台、扩展现实、人工智能数据、计算、治理、青少年教育、医疗多模态基础模型、自动驾驶等12个具体的研究领域。“实验室是一个中立的研究机构,成果都是开源的,因此都以Open为平台英文名的首单词。”12个项目之一、浦驾自动驾驶开放平台研究员李阳告诉南方财经全媒体记者,因此该平台的英文名是OpenDriveLab。
实验室的架构和中科院类似,项目负责人属于PI(Principal Investigator,即首席研究员)职级。OpenDriveLab的三个联合PI分别是严骏驰、罗平、李弘扬,三人分别从上海交通大学、香港大学、香港中文大学获得博士学位。
自动驾驶算法是一个商业化程度极高的研究领域,充斥着英特尔、特斯拉、Google等国际科技巨头,中国自动驾驶起步稍慢,但进展势头也十分猛烈,这个赛道已经十分拥挤。
作为一个新成立的中立研究机构,上海人工智能实验室要在自动驾驶赛道上作出成绩。2022年、2023年,实验室和OpenDriveLab分别两次在国际舞台上展露头角。
2022年,上海人工智能实验室青年科学家王文海等人与南京大学组队,参加了第三届Waymo开放数据集挑战赛。这是一个由美国自动驾驶公司Waymo自2020年以来每年举行的竞赛,由于其强大背景而吸引了全球顶尖人才的参与——Waymo最初是Google于2009年开启的一项自动驾驶汽车计划,后于2016年12月独立出来成为Alphabet公司(Google母公司)旗下子公司。
第三届Waymo挑战赛提出了运动预测、地图栅格占据和运动流预测、纯视觉3D检测以及3D语义分割等4个赛题。其中,纯视觉3D检测项目要求选手仅使用摄像头输入(Camera-only)信息,为场景中的可见对象生成一组3D框。
王文海等人提出了BEVFormer++模型。这个模型将BEV和Transformer结构结合,相比benchmark(基线方法),获得了超过60%的性能提升,也因此获得了赛道冠军。
获奖的喜悦稍纵即逝,上海人工智能实验室开始思考:何必要围绕于Waymo的议题进行研究?
Waymo开放数据集挑战赛实际上是Waymo公司的一项企业行为。作为公司的的主要工作之一,Waymo致力于自动驾驶数据集的构建。
2019年8月,Waymo公布了一个开放数据集,利用这个数据集,全球各地的研究者可以从零开始打造自动驾驶算法模型,而无需花费金钱采集行驶数据。
这些数据越被频繁使用,就越能体现价值。因此2020年,Waymo宣布开展“开放数据集挑战赛”。可以说,Waymo设置的赛题是为了解决数据集的各种问题,并同时扩大其用户基础。
不过,自动驾驶技术日新月异。时至2024年,人们对数据集的标注方法、自动驾驶的算法架构等问题进行了革新性的思考。
2022年底,OpenDriveLab在研究中提出了一个创新的自动驾驶算法模型 UniAD (Unified Autonomous Driving)。这个成果具有一定的划时代意义。
从技术路线看,此前量产的自动驾驶方案通常采用模块化设计,也就是对感知、预测、规划等不同任务设计不同的模块,通过集成、拼装形成完整的自动驾驶算法方案。
这其实不符合人类司机的驾驶思维。人类的感知、预测、规划是一串一体化的行为。
近年来,自动驾驶有一大行业设想,即使用最早由Google提出的Transformer架构,用神经网络模型处理传感器信号输入到行为控制输出。UniAD正是基于这个思路的一次实践。
李弘扬作为通讯作者,将介绍UniAD的论文《Planning-oriented Autonomous Driving》投给了计算机视觉三大顶级会议之一CVPR(计算机视觉和图形识别会议)。2023年6月,CVPR宣布了从9000多篇投稿中选出的12篇最佳论文,这一篇位居其一。
这反映了自动驾驶学术界对“端到端”算法的认可,同时,产业界的革新也启动了。2023年末,特斯拉将端到端自动驾驶方案FSD V12投入量产,越来越多自动驾驶方案开发商、主机厂也随即投入这股热潮,预计市场将在2025年左右见到量产的端到端方案上车。
回到自动驾驶竞赛,“端到端”的研究将带来算法架构、数据集生成方式的巨大变化。首先,模块式的算法架构将打破边界,朝着“信息输入到决策输出”一体化的方向改变;其次,训练和测试需要更少corner case的场景,意味着以往用自动化甚至人工方式进行标注的数据集远远不够使用要求,而“世界模型”、合成数据更被需要。
2024年2月9日是癸卯兔年最后一天、大年夜,李弘扬在当晚的朋友圈里发了一张OpenDriveLab全员攀登珠穆朗玛峰的合影,豪迈宣布“2024继续勇攀高峰”。
年后,第二届国际挑战赛开始筹备了。这个比赛要和带着“Google光环”的Waymo同台竞技,但要更符合自动驾驶的未来。李弘扬认为,让比赛围绕“端到端”,吸引行业就此展开技术研究,是最符合自动驾驶行业需求、也是对塑造行业未来发展方向最有意义的。
他称,年后“团队同学和合作伙伴猛烈准备了好几周”,进行了Hugging Face部署,和外国人(CVPR官方比赛授权渠道)沟通,准备了数据、文档、基线模型。
3月1日,第二届国际挑战赛竞赛细则全面发布,比赛正式启动。七个议题覆盖了“端到端”需要的五大技术方向,它们分别是:大语言模型在自动驾驶中的应用、世界模型、占据栅格和运动估计、具身多模态三维视觉定位、无图驾驶。此外,还有一个赛题是“端到端自动驾驶”,试验多种对“端到端”提出的算法架构设想;另一赛题“CARLA自动驾驶挑战”是基于CARLA开源仿真平台,进行的道路有形测试。
竞技
美国华盛顿州西雅图市,是西海岸与旧金山、洛杉矶齐名的科技之城,这里坐落着微软、亚马逊两大科技巨头的总部。电气与电子工程师协会下属电脑学会(IEEE Computer Society)和计算机视觉基金会(Computer Vision Foundation)决定将2024年CVPR放在西雅图召开。
2024年6月17日,CVPR在西雅图会议中心开幕,热度超乎想象。
李阳告诉南方财经全媒体记者,曾经以严肃冷清为基调的会议,现在吸引了超过12000名参会者。这也是计算机视觉从学术研究落地到自动驾驶、机器人、具身智能体等广泛商业产品的结果,在12000名参会者中,高校、实验室只占一部分,大批创业者、投资人也涌向现场,迫不及待地围观“下一个图灵奖”的成果。
在所有海报、研学会、工作坊活动中,“老牌”竞赛、由Argo AI和Waymo发起的两场挑战赛之赛后总结,是关注度最高的活动之一。自从通用汽车旗下Argo AI在2022年10月倒闭后,Waymo接手了该公司举办的自动驾驶竞赛,并将两场比赛合并在同一场工作坊活动中。
2004年开始的DARPA竞赛精神,在这两场比赛身上得到了延续。从DARPA走出来的自动驾驶明星,衍生出了美国Waymo、Cruise、Argo AI、Aurora、Zoox等五大团队,他们各自和Google、通用汽车、福特、大众、Uber、丰田、亚马逊等汽车和科技巨头结合,奠定了自动驾驶行业的基础。
2020年开始的Waymo开放数据集挑战赛和2019年开始的Argoverse挑战赛,继续成为自动驾驶创业的摇篮。除了谷歌、英伟达等人工智能巨头,滴滴、地平线、图森未来等中国团队也在比赛中大放光彩。
在今年,“端到端”议题的热门,令英国公司Wayve联合创始人、CEO Alex Kendall成为Waymo邀请的重要演讲者之一。在2024年5月获得来自英伟达、微软和软银联手的C轮10.5亿美元融资后,Wayve“热得发烫”。它给出的世界模型GAIA-1等模型,是目前对“端到端”最成功的实践之一。
尽管如此,Alex Kendall还是在同日的上午前往Summit 442会议室,参加了第二届自动驾驶国际挑战赛赛后总结。除了OpenDriveLab,开放数据集nuScences项目开发负责人、荷兰代尔夫特理工大学助理教授Holger Caesar也是工作坊组织者之一,多家大学、Wayve、英伟达也派员到场,支持OpenDriveLab的活动。
2009年毕业于北京大学物理学院的谢晨,目前是国际顶尖的仿真学家,此次在上海人工智能实验室竞赛“占据栅格和运动估计”赛道中担任出题人及数据供应商。惠普、清华大学等多家公司或高校也参与了联合出题。
“以往国际自动驾驶比赛的基础已经逐步过时,我们现在需要把人才聚集到最新技术周围。”谈及和Waymo等比赛的比较时,谢晨对南方财经全媒体记者说。
在“端到端”系统中,自动驾驶更加接近人类司机的“直觉开车”。
这意味着算法要在趋近真实世界的环境中进行训练和测试。因此,人们需要比大语言模型更庞大的“世界模型”,需要在真实采样数据基础上进行无限泛化,需要将被传感器捕捉的corner case(特殊情况)泛化成人们所能遇到的所有的开车紧急状况。
这意味着人们需要在任何情况,无论白天还是黑夜、无论晴天还是雨天,都能使用自动驾驶功能,而不用畏惧摄像头等传感器的“失灵”,因此,人们需要摆脱对高清地图的依赖,转而向“无图驾驶”发展。
这意味着人们需要解决算法方案的“黑盒”问题,让决策有依据、可解释,因此,需要一个大语言模型增加可对话性。
因此,自动驾驶提出了很多新问题,这也许意味着,行业竞赛需要在新的思路下展开。
谢晨向南方财经全媒体记者坦言,过往中国的自动驾驶人才需要在国外规则中进行技术开发。以驾驶数据集为例,海外数据的分布通常以国外城市的路况作为场景,例如旧金山、新加坡,这和中国的路况具有一些细微差别。作为中国合成数据商,谢晨增加了中国路况的权重,增加了数据集的“多元性”,将这种数据集提供了竞赛选手,以达到“令评测结果更加有效”的结果。
“中国自动驾驶已经有全球最好的产品了,为什么我们不去扩大它的影响力?”谢晨称。
“端到端”系统还在继续扩展影响力。国内外产业界对端到端智能体的相关研发已有广泛布局。在自动驾驶领域,国际领先公司已实现端到端技术大规模落地应用,国内头部公司紧随其后,均有端到端技术落地计划。在机器人领域,国内外公司也均针对端到端技术有所布局。
“我们希望能通过组织比赛,推动端到端技术书写人工智能的下一个篇章。”李弘扬对南方财经全媒体记者称。
回顾人工智能历史,曾经也有学术的狂热爱好者举行挑战赛,最终引导整个行业向前推进。2009年,斯坦福大学计算机科学系助理教授李飞飞围绕其组建的图形数据集ImageNet发起挑战赛,号召全球人工智能研究者依托这个庞大的图片数据集,找到识别图片的最佳方法。殊不知,三年之后AlexNet就横空出世,奠定了此后10年图像学的基础,产生了Geoffrey Hinton等图灵奖获得者。
也许,历史正在见证新的奇迹竞赛诞生。