200PB数据:Mobileye的自动驾驶“秘笈”

通过强大的计算机视觉技术和自然语言模型,行业领先的Mobileye数据集成为自动驾驶的“训练”金矿。

Mobileye在CES 2022上宣布,目前已采集了200PB的数据,这意味着Mobileye拥有了一个虚拟的驾驶数据宝库。这些数据配合Mobileye一流的计算机视觉技术和强大的自然语言理解(NLU)模型使用,即使是罕见条件和场景下的“长尾”事件,仍可以在几秒钟内输出数千个结果。而这有助于自动驾驶汽车和一流的计算机视觉系统处理边缘情况,从而让自动驾驶汽车实现超高的平均故障间隔时间(MTBF)。

Mobileye总裁兼首席执行官Amnon Shashua教授表示:“数据和处理数据的基础设施是为自动驾驶技术实现带来了复杂性。Mobileye花了25年时间一直在收集并分析我们认为是业界领先的,包含了现实环境和模拟驾驶体验的数据库,通过实现强大的自动驾驶解决方案脱颖而出,这些解决方案能够实现超高的平均故障间隔时间。”

Mobileye拥有全球公认庞大的汽车数据集,包含了过去25年中超过200 PB的真实环境驾驶视频素材,共1600万个1分钟视频片段。

Mobileye数据集拥有超过200PB的真实环境驾驶视频素材

对自动驾驶所需的强大计算机视觉引擎而言,大规模数据标注是核心。Mobileye拥有丰富且相关的数据集,由2500多名专业标注人员手动标注或自动标注。该计算引擎依靠云服务器中的50万个峰值CPU内核,每月处理5000万个数据集——相当于每月处理由50万小时的驾驶素材所生成的100 PB数据。

数据的价值在于能够被解读的同时并投入使用,这需要对自然语言的深入理解以及先进的计算机视觉算法,而这一直是Mobileye的优势。

每个自动驾驶公司都面临“长尾”问题,即自动驾驶汽车会遇到从未见过或经历过的情况。这些长尾问题包含了庞大的数据集,但许多企业不具备高效理解这些数据集所需的工具。Mobileye先进的计算机视觉技术与强大的自然语言理解模型配合使用,能在几秒钟内查询长尾数据集并返回数千个结果。随后,Mobileye可以使用这些结果来训练计算机视觉系统并使其更加强大。Mobileye的方法大大加快了开发周期。

Mobileye团队使用内部搜索引擎数据库,其中包含数百万张图片、视频片段和场景。其内容覆盖面极广,从“被雪覆盖的拖拉机”一直到“夕阳下的交通信号灯”,所有这些都由 Mobileye采集并馈入其算法(参见样本图像)。

Mobileye数据集包含数百万张图片、视频片段和场景

通过业内最高质量的数据和专业人才,Mobileye的驾驶政策可以确保做出合理、明智的决策,这种方法消除了人工智能决策的不确定性,并在统计上实现了超高的平均故障间隔时间。同时,数据集加快了开发过程,让自动驾驶技术“挽救生命”的承诺可以更快地成为现实。