AI浪潮下的数据:自动驾驶需要何种标注?|GAI进化论

南方财经全媒体记者江月 上海报道

自动驾驶是人工智能时代里最令人兴奋的科技之一。过去大约十年来,自动驾驶技术开始起步并得到一定程度发展,但目前仍然在等待里程碑式的突破,以期未来真正实现规模化应用。

Holger Caesar是荷兰代尔夫特理工大学智能车辆组助理教授,他的学术生涯几乎和这一代自动驾驶浪潮同步启程,因此,他将过去约10年的时光专注在了这个领域的技术研究。其间,他在自动驾驶明星公司Motional作为项目负责人主导开发了自动驾驶数据集nuScenes和nuPlan,自2019年以来,这两个数据集也位居全球范围内最为使用广泛的开源自动驾驶数据集前列。

事实上,数据是算法、算力之外第三驾驱动人工智能发展的马车,不少行业人士都认为,好的数据集十分难得,甚至是算力和算法发挥价值的前提条件。

在人工智能新一轮浪潮来临时,Holger Caesar正致力于将自动驾驶数据集带向第三代。他告诉南方财经全媒体记者:“自动驾驶数据集的标注量可以缩小至目前水平的1/20至1/100,未来可能覆盖全球场景。”其中,基础模型的迅速发展带来了更便利的自动化,但带来的行业格局演变也正引起从业者的警惕。

数据标注进入自动化的第三代

“基于模型训练、减少人工标注,数据集应该是更加可拓展(scalable)、成本可负担(affordable)的。”5月末在上海,Holger向南方财经全媒体记者讲述了他开发三代自动驾驶数据集的经历。

在自动驾驶数据集起步之初,数据采集的小时数、车辆行驶区域等均受到限制,而且所有的标注全由人力操作。第一代数据集nuScenes正是如此,它采样于波士顿和新加坡,总时长仅有5.5小时。

尽管如此,这已经包含大量信息。这短短数小时的素材获取了1000个场景,同时涵盖北美洲和亚洲城市不同的路况和天气,也同时覆盖了左行和右行交通规则,其中,多雨的新加坡给数据标注带来了相当大的挑战。

nuScenes也是全球首个全感应的数据集,这意味着它并非仅依靠相机或激光雷达采集数据,而是结合了二者以及雷达、GPS和IMU(惯性测量单元)数据。这个数据集最终包括140万张图片,其中在4万张关键图片中包含140万个标注框。

从2016年到2019年,全球不同机构采集均使用人工方法为自动驾驶数据集进行标注,nuScences的标注量已经足够说明,人工方法下的数据集建立有场景数量天花板(通常不超过1000个),而且开发时间长、人工培训成本高。尽管如此,初代数据集的开发令自动驾驶研发打开了局面。

第二代数据集nuPlan是全球第一个大规模的规划型数据集,这一代数据加强了标注阶段的自动化,将数据集的小时数从5小时水平提升到1000小时以上。数据最终采集自波士顿、匹兹堡、拉斯维加斯和新加坡,包含1282个小时的行车数据。使用如此大的训练量,将数据集能力从感知(perception)提升到了规划(planning),也意味着将自动驾驶技术从低等级的辅助驾驶进一步提升到了自动驾驶能力。

和上一代数据集不同的是,nuPlan将离线和实时数据进行了结合,利用离线感知(offline perception)进行了场景标记和交通灯模拟,更适合用于自动驾驶规划(planning)和预测(Prediction)。

然而,底层离线感知系统仍然需要人力标注,这仍然导致数据集昂贵且耗时。

目前,Holger 设想第三代数据集将几乎不需要人类标注工作,这样可以极大降低数据集开发成本,并进一步提升可拓展性。“目前,全球仅有少数超大公司可以负担自动驾驶数据集开发,我希望能将AI开发进一步普及化,激发小公司和创新公司利用AI的能力。”Holger称。

第三代数据集利用主动学习(active learning)、自监督学习(self supervised learning)、基础模型(foundation model)和语言模型(language model)等技术,这些方法可以将人力标注工作降低数个数量级,大约是上一代技术标注量的1/20至1/100。它还能灵活地适应新车辆、新城市等变量,未来可以开发有关自行车、火车和船只的新数据集。

“未来,数据集开发方法还可以进一步应用到机器人、无人机、卫星、安防等领域。”Holger表示,这意味着自动驾驶领域的又一新技术将带来新的行业革命。

人工智能令从业者兴奋

人工智能为自动驾驶解决了一个又一个难题,令后者不再只是一个封闭场景里的幻想,而更可能在未来于广阔世界里成为现实。作为从业者,从2022年下半年开始的人工智能浪潮令他感到兴奋,同时新格局变化也令他产生了一些警惕。

首先是基础模型经由“转换器(transformer)”改造以来,变得更加强大,适应大规模的神经网络模型建立,并产生了不少震撼市场的大语言模型和多模态模型。“Transformer的到来让人惊叹,它把数据集提升到了一个高得多的量级,分析能力也更强劲了。”Holger指出。

Transformer是一种新型神经网络,大众熟知的ChatGPT、GPT系列模型、BERT模型等正是基于transformer开发的。

目前,全球基础模型仍在不断开发,而这给数据标注带来了更多便利。Holger表示,这是因为基础模型能让图片训练适用于所有条件,也就是说,当天气、城市、摄像头等条件变化时,模型仍能自动训练。

随着大语言模型在全球范围的流行,Holger认为这也可以给数据标注行业带来更多便利。“设想使用自然语言进行数据标注,例如对一张图片进行所有车辆标注,还能进一步修改标注目标,例如将图片中的卡车排除标注,这会令数据标注更加方便。”Holger称。

除此以外,数据集训练也在更趋人道、环保和节能。由于在第三代数据集中使用自监督学习和主动学习,标注量成倍缩小。“从算力的角度,这更加高效,也意味着更节能环保。”Holger称,另外,数据标注行业从前几乎等同于“低薪高压”工作的代名词,未来也可能缩小这种工作量,转而增强职业训练技能。

此外,新的模型训练也将覆盖更多的“边界情况(corner case)”,即那些不常见但对自动驾驶安全至关重要的场景,令自动驾驶真正从实验室里走到现实道路中。“在第三代技术中,我们正试图通过结合无监督学习去抓捕混合的车辆等,从而覆盖更多的‘边界’。”Holger称。

不过,部分人工智能科技的发展正在悄然改变行业格局,这给从业者带来了一些关于未来的隐忧。

算力硬件设备明显变得更加昂贵、供不应求,这是因为超大型人工智能公司正在囤积算力芯片,而部分公司拥有供应相关芯片的垄断地位。“未来的算力市场上,应该有更多公司供应算力芯片,而非只有一两家。”Holger表示。

此外,“尽管基础模型的通用性非常强大,但这可能导致技术掌握在个别超大公司手中,这对于其他也在开发基础模型的创新机构不利。”Holger称。

不过,Holger对大学和创新型研究机构在人工智能中的角色保持信心。“大型商业机构并不总是关心人工智能技术发展,因此这是我们(大学)发挥创新之处,我们也将把现有商用人工智能变得更加高效节能。”Holger称。

商用AI可能会追逐周期浪潮,资金总是在行业高峰期进行堆积,但在行业低谷期撤退。Holger认为,人工智能发展也应该更加理性,一些热潮还需要时间验证。