VLAM会是自动驾驶的黑盒解药吗?

机器之心PRO · 会员通讯 Week 38

---- 本周为您解读 ⑤ 个值得细品的 AI & Robotics 业内要事 ----

1. VLAM会是自动驾驶的黑盒解药吗?

VLAM 是什么?VLAM 是谁开发的?VLAM 和 LLM、VLM 有什么关系?VLAM 有什么技术特点?VLAM 跟自动驾驶有什么关系?VLAM 和数据问题有什么关系?...

2. 「大一统」的多模态大模型赛道有何变数?

OpenAI 又被曝在训模型了?通用多模态大模型又是谁在做?谷歌 Gemini 有新消息吗?此前还有谁发了多模态大模型?多模态大模型有哪些特点?...

3. OpenAI 招募 LLM 攻防安全专家

「红队」网络是做什么的?OpenAI 为什么要组红队?OpenAI 会招募哪些专家?「红队」测试和 LLM 什么关系?Open AI 对 LLM 有哪些安全保障?...

4. 前深鉴科技创始人清华汪玉再创业

汪玉新公司要做什么?为什么都在做大模型一体机?大模型一体机能卖给谁?大模型一体机可以满足什么需求?有哪些公司在做大模型大模型一体机?各家一体机产品有何特点? …

5. 工信部拟筹建元宇宙标准化工作组

为何要筹建元宇宙标准化工作组?业内有哪些问题亟待解决?「筹建方案」里有哪些信息值得重点关注?该组成立后会做些什么?...

...本期完整版通讯含以上 5 项专题解读 + 30 项本周 AI & Robotics 赛道要事速递,其中技术方面 10 项,国内方面 8 项,国外方面 12 项...

本期通讯总计 23522 字,可免费试读至 8 %

消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元)

要事解读 ①VLAM会是自动驾驶的黑盒解药吗?

时间:9 月 14 日

事件:伦敦的自动驾驶 Wayve 近期于技术博客提出了基于视觉-语言-动作模型(VLAM)开发的自动驾驶交互模型 LINGO-1,可通过语言解释自动驾驶系统的行为逻辑。

基于 VLAM 的自动驾驶模型了解一下?

1、LINGO-1 是基于 VLAM 开发的自动驾驶模型,基于各种视觉和语言数据源上训练所得,能够执行视觉问答(VQA)任务,并且能对驾驶行为和推理进行描述。

① LINGO-1 能够生成自动驾驶车辆行为背后的原因,Wayve 称其为「开环驾驶评论器(open-loop driving commentator)」

② VLAM 是 Wayve 在视觉语言模型(VLM)基础上的进一步探索,包含三种信息,即:图像、驾驶数据和语言。

2、开发 LINGO-1 的关键在于采用了一项「可扩展且多样化的数据集」,其内容包括了专业驾驶员在英国各地驾驶时的解说,涉及图像、语言和动作数据。

① Wayve 称,这种解说的模式类似在驾校与教练学开车的场景,教练会不时评论视野中的场景,并解释自己为什么会有相应的驾驶行为,方便学员举一反三。

② 当诸如「前方车辆/信号灯有变,请减速」、「现在该变换车道了」等语句和感官图像、底层驾驶动作在时间上同步,研究者就得到了丰富的视觉-语言-动作数据集来训练用于不同任务的模型

3、在具备生成驾驶行为评论和解说能力的同时,LINGO-1 还能够回答用户提出的有关驾驶场景的问题,帮助用户用自然语言理解模型的场景理解能力和推理逻辑。

4、与人类水平相比,LINGO-1 的准确率约为 60%。

VLAM 为自动驾驶带来了哪些机会?[17] [18]

1、以往在机器人训练(尤其是自动驾驶领域)中,很少有工作会用到自然语言。Wayve 在 LINGO-1 中结合了自然语言、视觉与动作,对自动驾驶基础模型在感知、推理和行为规划上能够带来更好的解释和和训练效果。

① 可解释性:驾驶模型不再是神秘的黑盒,通过语言阐明 AI 系统的决策逻辑能够帮助人们深入了解模型,而乘客和自动驾驶系统的对话能够提高透明度,使人们更容易理解和信任系统;

② 规划和推理:集成语言和驾驶模型的关键在于,语言模型准确解释各种输入模式场景的能力,驾驶模型则将中层推理转化为有效底层规划的熟练程度;

③ 长尾场景处理与新场景学习:在模型训练中,一段文字可以节约上千图片,用少量示例配上简短的文字说明即可教会模型联系场景中元素和动作间的关系,方便应对 corner cases;

④ LLM 本身已从互联网数据集中掌握了大量人类行为知识,因此能够理解识别物体、交通法规和驾驶操作等概念,VLAM 使用更广泛的信息对图像数据进行编码,提供了更好、更安全的自动驾驶的潜力。

2、英伟达高级 AI 科学家 Jim Fan 于 X 评论 LINGO-1,表示以往的自动驾驶系统是「感知 -> 驾驶操作」,以后则会是「感知->文字推理->行动」,其中增加的显示推理步骤将带来一系列好处:

① 可解释性:驾驶模型不再是一个神秘的黑盒。

② 反事实情景:它能够想象出训练数据中没有的场景,并推理出如何正确地进行处理。

③ 长尾编程:驾驶中存在大量边缘场景,要对所有场景进行良好的数据覆盖是不可能的。与其收集成千上万的示例来对一个案例进行「神经编程」,不如让人类专家编写提示(prompt)来解释少量的示例,从而指导系统如何处理特定或复杂的情景。

3、Jim Fan 在推文中补充,LINGO-1 同样有机会影响到游戏人工智能(game AI)领域的研究,如 MineDojo 和思想克隆(Thought Cloning),两者都是 AI 智能体。

① MineDojo 可以学习一种奖励模型,把评论文本和「我的世界」(Minecraft)游戏视频像素关联起来。

② 思想克隆能够实现「像素->语言->行动循环」的链路。

VLAM 或许会让事故定责多方不再纠结数据共享问题?[19] [20]

在改善自动驾驶系统能力之上,LINGO-1 对驾驶行为和推理进行描述的能力或许同样有潜力应对当前自动驾驶商业化所面临的定责问题。若能够实现参考自动驾驶系统所提供的思维链完成责任归因,或可解决当下事故定责过程中面临的道德、隐私、责任归因等一系列挑战。

1、在辅助驾驶、自动驾驶等技术落地过程中,事故定责是亟待解决的第一要务。而导致自动驾驶事故定责困难的原因主要可以归结为两方面:

① 技术问题:即黑箱问题,自动驾驶系统的内部决策过程和推理机制不容易被直接理解和解释。

② 立法问题:当前法律法规体系与自动驾驶技术的发展尚未完全适应,导致自动驾驶事故中难以明确各方责任界限。

2、自动驾驶事故定责往往涉及到车辆使用方、主机厂和执法部门等,导致责任主体判断复杂,容易牵扯道德问题。缺乏合理数据分享机制的问题则牵扯了所有相关主体。

3、保险公司作为定责中的重要主体,在赔付、产品设计、风险管理方面汽车数据同样有极大需求。但出于道德、隐私等多方面因素,主机厂和车主并不愿意分享数据,导致保险公司理赔处理难以落实。

4、当前,国内外立法机构已开始探索针对自动驾驶的数据共享机制,但未来数据将由主机厂提供,由国家建立数据平台,或是通过跨行业的数据分享机制仍处于探索阶段。

5、如果未来车险赔付定责能参考自动驾驶系统的 CoT 完成,则保险行业中数据分析师的当前所负责的数据处理工作和相关工具和基础设施或许将不复以往。