斯坦福为机器人提了个醒

作者 | 山竹

出品 | 锌产业(公众号:xinchanye2021)

傅盛说,“2023年是人类历史上第三个奇迹年。”

这一年,大模型盛行,人工智能爆发,尤其是在具身智能领域的突破,让机器人有了更大的想象空间。

整个机器人产业都在摩拳擦掌,希望能在这样的利好背景下做些什么,才不至于错失良机。

迈过2023年,也就是在刚刚进入2024年的第一周,斯坦福大学的研究团队又对外公开了一个开源项目,一个名为「Mobile ALOHA」的机器人开源项目。

在这个开源项目中,一台配备了双臂的“机器人”能够叠被子、做家务,甚至还学会了烹饪。

尤其是在其公布出的几个忙起来像模像样的视频,一经短视频大肆传播,让不少人惊叹,这不妥妥就是我们梦寐以求的保姆机器人吗?

然而,和当年跑酷、蹦迪的波士顿动力超能机器人一样,在如今失焦的媒体视角下,斯坦福研究团队的这一项目的魔力再次被神话。

面对大家如此始料未及的反响,就连Mobile ALOHA项目联合负责人Tony Z. Zhao都亲自在Twitter上放出Mobile ALOHA执行任务失败的视频,并称,“机器人还没有准备好接管世界!”

一波热度将Mobile ALOHA推上风口,一番闹剧让这一项目又面临质疑。

实则,如果花些时间看完这篇论文,就会发现,Mobile ALOHA是一个不错的开源项目,也是一个和现在主流视野中的具身智能略有不同的机器人项目。

从短视频中看到过它的人都知道:

Mobile ALOHA是一个会收拾家务,又会煎蛋煮饭的机器人,而这台机器人能完成的这些工作,正是家庭保姆机器人所需要的技能。

正因如此,Mobile ALOHA一度被认为是保姆机器人的原型机,甚至被人认为是未来几年内推动机器人保姆出现的关键。

实际上,论文的作者们,并没有想这么多。

在这篇论文中,Mobile ALOHA在硬件上被定义为「一种用于收集双臂运动数据的低成本全身远程操作系统」。

这台机器人,也就是这套系统,主要由以下几个部分组成:

移动底座——一台AGV机器人;

供电系统——一块1.26kW·h、14kg重的电池;

控制系统——一台配备英伟达3070显卡和英特尔i7-12800H的笔记本电脑;

运动系统——两个机械臂;

视觉系统——3个分辨率为480x640、频率为50Hz的摄像头。

如此硬件配置打造出一台如前文所述能在家庭环境下实现诸多功能的机器人,最为关键的其实是两点:

第一,机器人移动能力。

看过锌产业此前文章的人应该都了解,在机器人领域,除去工业机械臂外,还有两类机器人已经相当成熟:

一类是用在家庭地面清洁场景中的扫地机器人,另一类是用在仓储搬运场景下的AGV。

实际上,正是关乎机器人移动能力的定位导航、路径规划等技术的成熟,推动了这两类产品在上一个十年逐渐普及。

就移动底盘而言,Mobile ALOHA直接选用了市面上成熟的AGV产品,解决了机器人在家庭环境下的移动能力。

第二,机器人的运动控制能力。

这里主要是指机械手臂的运动控制,也是Mobile ALOHA这一开源项目的独特性和技术含量所在。

和现在通过强化学习模型、大模型等驱动机器人自主认识(感知)环境、执行(决策)任务不同的是:

Mobile ALOHA采用的依然是更直接的「模仿学习」——通过人类操作机器人,机器人学习模仿人类行为,构成机器人的行为逻辑。

在这一项目发布的视频中,我们看到的人类操作机械臂运动的场景,其实就是模仿学习中人类示教的过程,也是机器人模仿学习中最为关键的一步。

正是凭借这样一套方法论,Mobile ALOHA仅需要人类通过50次演示的训练,在处理日常家务时,就能够达到80%以上的成功率。

在这篇论文中,作者一共对Mobile ALOHA进行了7项任务的训练和研究,分别是擦红酒、炒虾仁、冲洗平底锅、收纳平底锅、呼叫电梯、推椅子、击掌。

在最终呈现出来的演示视频中,最让人惊讶的是,Mobile ALOHA竟然能很好地做出让不少猛男少女都挠头的滑蛋虾仁。

然而,要让机器人做出这样一道菜,其实并没有想象中的那般容易。

除了需要人类示教,让机器人模仿学习外,作者还为Mobile ALOHA导入了一个静态数据集,这个数据集包含了825个任务的双臂执行数据。

不过,这825个任务的双臂执行数据与Mobile ALOHA要执行的任务不同,甚至产生这些数据的机器人原型与Mobile ALOHA双臂安装位置也不同。

科研是一条漫长的道路,所有成熟的技术最终能够顺利应用,都是众多科学家不断积累,一代代不断基于前人研究成果推陈出新的结果。

而基于已有数据集,再加上模仿学习,能否让Mobile ALOHA掌握更好的操作能力,也是这篇论文尝试解释的一个重要问题。

在实际实验过程中,通过为原有数据集加入模仿学习的方法,在执行「推椅子」、「擦红酒」任务时,明显有很好的能力提升,有更强的泛化能力。

具体而言,在将一排5把椅子收到桌子下时,当推到第4、第5把椅子时,这一方法的成功率分别提高了15%和89%。

从试验中整体任务执行成功率来看,在进行50次示教(击掌20次)后,擦红酒、呼叫电梯、击掌、收纳平底锅、冲洗平底锅、推椅子6项任务的成功率分别达到了95%、95%、85%、85%、80%、80%。

然而,最惊艳的滑蛋虾仁这项长达75秒的的艰巨烹饪任务,实际上,Mobile ALOHA的任务执行成功率只有40%。

也就是说,我们看到的Mobile ALOHA完美地做好一道滑蛋虾仁,同样是一个概率没有那么大的事件。

看来,“虾仁炒蛋”,不仅让人类挠头,如今也还在让机器人挠头。

“虾仁炒蛋”做不好没关系,毕竟,这也不是斯坦福这一个研究团队,以一己之力能够完美解决的问题。

实际上,他们想要解决的也并不是这个问题。

他们想要解决的是,能否将现在双臂机器人运动控制的研究方法再往前推一步——验证静态数据集与不同模仿学习算法联合训练的可行性。

从这一点上来看,他们做到了。

在一系列试验中,他们验证了ACT、Diffusion Policy(扩散策略)、VINN三类重要的模仿学习算法在Mobile ALOHA上任务执行的成功率都得到了明显的提高。

更重要的是,他们打造的这套平台,成本只有3.2万美元(约合22.7万元)。

在此之前,类似Mobile ALOHA的双臂机器人平台PR2、TIAGo,价格普遍在20万美元(约合142万元)以上。

也就是说,斯坦福这一研究团队,为机器人双臂运动控制的研究验证了一个思路、提供了一套更便宜的研究平台。

虽然没有大家想象的直接搞出一个厨师机器人,甚至保姆机器人来得炫酷,但这样一套开源平台和算法展现出来的效果,尤其是在大模型被神话了的现在,让大家再次意识到了模仿学习对于机器人的重要性。

同时也为接下来机器人,乃至人形机器人的上肢运动控制研究,提供了一个新的思路。

而且,这又是一个由华人科学家团队开源的项目。