机器人“图灵时刻”何时到?四名创始人答曰:五年内见真章丨最前线

作者丨邱晓芬

编辑丨苏建勋

在2024年的云栖大会上,作为AGI的一项重要支线,具身智能也成为了其中一大讨论焦点。

在“机器人的图灵时刻”论坛上,阿里特意邀请了四家当前炙手可热的人形机器人厂商——宇树科技、星动纪元、银河通用、逐迹动力,针对今年的机器人热潮的本质、发展历程、如何落地、技术难点等关键问题展开了讨论。

不过,不像AI的论坛那么针锋相对,四位创始人对于机器人赛道的判断基本一致,大家认为:

以下是星动纪元创始人陈建宇、银河通用创始人王鹤、宇树科技创始人王兴兴、逐迹动力创始人张巍的交流整理(略惊摘编)

主持人:通用机器人一定要做成人形吗?

王兴兴:好几年前有投资人问我,我们做不做人形机器人?我说我坚决地反对做人形机器人,我当时在大一,09年、10年的时候,我自己就做过小的人形机器人。做过好以后,我发现全球当前的人类技术其实没办法驾驭这么复杂的机器人系统。

但是2016年开始,新的AI技术诞生了,在差不多在22年的时候,整个的大语言模型的效果已经非常惊艳,整个AI技术发展是远超我自己预计的,所以我们在23年初正式开始做人形机器人,目前取得的效果也非常惊艳。

机器人整个发展节奏,无论是硬件和软件,都是超过我自己预计的节奏 。

张巍:我觉得一定要做成人形,而且是有两条腿的人形机器人。

我简单说一下我对通用机器人的理解。我首先觉得机器人和AI的使命是不同的,AI是代替人来思考决策的,而机器人本质上要代替人来运动。

大家看到各式各样的机器人非常多,本质上就在做两件事情,一件事情是要移动(Mobility),空间中从 a 到 b;另一件事情是,操作。

所谓的通用机器人,在这两个能力上都能达到跟人一样的环境适应能力和任务的泛化性。值得一提的是,通用的移动能力其实是不太需要双臂的,但是通用的操作能力反而是需要双腿的,不然你可能都没法到人能到的地方去干活。

我觉得 AGI 的发展最相比上一代最大的区别,就是从专用到通用的变化,在大模型出来之前,我感觉通用这个词是个贬义词,通用,就是证明它是没啥用。

但是大模型出来以后,大家发现,以前我们这种在专业领域里收集数据,去做专项任务的训练方式是有很大局限性的,反而我们要忽略专项的能力,要先构建通用的基础模型能力,再在上面长出专用的能力,这才是系统化解决泛化性的关键。

我觉得软件算法的通用性,就靠大模型技术;机器人跟物理世界交互的通用性,就靠人形机器人。

主持人:您怎么定义人形机器人形态?

王鹤:我们公司叫银河通用,我们从建立的第一天就是要达成通用机器人。当然通用有一个过程,他先做到单一场景、多任务、可移动,然后再做到多场景、多任务,最后做到全场景、全任务。在这个过程中,形态上在不同阶段也有它最适合、最经济、最稳定的载体。

通用机器人这个万亿市场刚刚开局的时候,我们选择了先从几个场景里头的多任务做起,比如零售商超场景上货下货,在工厂里去抱箱子,其实我们发现如果它是平地的话,轮子是够用的,也不能说我们没有腿,我们是把两只腿并在了一体。

那为什么要有双手呢?因为我们发现,比如说你在超市里头一只手拿篮子,一只手拿货,也是要两只手,所以我们的形态目前是360度轮,双腿并成一条腿,站直一米七三,够到二米四,蹲下来可以摸地,用最便宜的价格、最稳定的机器人技术率先实现可以落地的机器人。

主持人:具身智能和人形机器人,大家讨论的时候,总是把两个词语放在一块,您怎么看?

陈建宇:这个确实是比较容易混淆的两个概念,但是他们的侧重点是不太相同的。

对具身智能来说,我们主要关注智能性和软件。具身智能其实对形态其实是要求不高的,可以是人形的、四足的、轮式的、单个机械臂的,甚至就是一个桌子、椅子,只要它能动,都可以给他赋予具身智能,是一个更广泛的概念。

人形机器人顾名思义一定是人形的。

主持人:机器人现在有很多种类,怎么判断它的技术含量?

陈建宇:非常粗略的把人形机器人相关的技术分成三大块的话,其实就是大脑、小脑和本体。

我觉得这里面最关键的是小脑,它是最基础的部分,就如果你只有一个本体、大脑,缺了小脑的话,其实你只能成为一个会思考的一堆烂铁。

小脑是承接大脑思考、规划的,同时也是技术不确定性最高的,最没有收敛的。 但是我们是有蛮多的产业可以去借鉴,包括我们的工业机器人产业、电动车的产业。

对于小脑来说,我们发现大部分的机器人用的还是十几年前,甚至几十年前的扫地机这一类的技术去做。

王鹤:我认为人形机器人的技术含金量可以从这两个地方总结:

一,他的泛化性到底有多强?是不是真正能通向未来的通用?

二,它能不能跟人之间用自然语言来沟通,然后实现零代码的部署?不仅能干活,还能交流。

张巍:机器人就看两个关键词,一个叫泛化,一个叫通用,这是本次变革最关键的两个词。

我提供个我的角度,我觉得咱们先看腿,人形机器人之所以是一个新的物种,它不是一个传统机械臂公司的延续,它的本质就是要长出两条腿来。

那看腿也要看什么呢?主要看两点,一个就是腿,他能不能完成他本能的一些本职的工作,就是地形的泛化能力。第二点是看他能不能支撑双臂去完成全身协同的通用操作,这也是腿存在的一个重要的价值。

主持人:机器人到底什么时候能干活?

陈建宇:如果说我们不是特别严苛的定义,就是说它能初步去用起来的话,那我认为不管是工业还是商用,甚至是家用,一两年的时间就能有,根据罗杰斯的那个创新扩散的模型,都有一些早期的一些使用

工业的场景会更快一些,因为它是有边界的,你可以人为的制定一些规则,所以在它的图灵时刻还没到来之前,机器人可能就能逐步应用起来。

王鹤:以零售场景为例,现在的技术已经达到了产业化的边界了,我们预测就是从明年开始将会是商用的元年。

5年,我们的目标是在这样的场景和车厂的抱箱子里头达到一万台;10年,是我认为安全性可以进入家庭标准的;15年,我预计可能会产生千万乃至大千万级别的市场。

王兴兴:我个人的话相对比较乐观,我觉得到明年,像一些工业场景,明年基本上该问题不大,我觉得三年左右至少全球范围内有通用型的 AI 出来,因为跟过去十年不一样了,现在整个机器人AI人才资金投入是巨量的,都是几百倍甚至上千倍的投入。五年应该会有天翻地覆的变化。

张巍:我认为用时间去衡量它,是一个比较难的事情,我管这个赛道的产业的发展叫事件驱动,而不是时间驱动。它更关键的是看这个 AI 技术、关键的开关什么时候能找到,而不能用时间去具体的衡量它。

我也是相对乐观的。只不过我也说,我们要避免过早的去做商业化,比如说在大模型ChatGPT 2.0、3.0的时候你要做个超级应用,那肯定要打一堆补丁,因为上一代人工智能和机器人落地的过程中也遇到了很多这种挑战,大家都调侃说“人工智能等于智能不够靠人工”,所以是靠很多这个增加了部署的售后成本,最终商业逻辑还是挺难跑通的。

主持人:大模型对人形机器人的发展,起到了什么样的影响?

张巍:我觉得机器人这一波的发展不是自我革命,发展是靠大模型技术和大模型技术背后的技术,我甚至认为具身智能将会是多模态大模型的一个killer APP。当然我把无人驾驶也算在我们具身智能赛道里边来了。

我觉得这几年由于受到大模型技术发展的一个启发,机器人领域的发展也经历了从规则驱动、到算法驱动、再到数据驱动的一个跳变啊。

以前你可能看你有什么算法,然后根据算法的需求来收数据来解决问题。现在的思维变了,我们要首先看你有什么数据,然后你获取新数据的方式和成本是怎么样?数据的分布是什么样的?

这就直接的决定了你采用什么样的算法去训练,所以我们公司有个口号叫,软件定义硬件,但数据定义软件。

王兴兴:我一直感觉,通用人机器人算是大模型的最好的一个落地的载体,二者是非常好的一个组合关系

王鹤:我觉得就是现在的通用机器人,几乎都是分立的小模型,所以大模型赋能技能有几步?

第一步是,大模型可以作为一个agent来调用这些 API ,进行长程的任务规划;

第二步是大模型可以作为一个monitor,看小模型执行过程中有没有出任何错误,及时的去终止、挽救这些错误,比如药盒子掉在地上了,他立马说你也给他捡起来;

第三步是最有想象力的,就是端到端的vision language action,把动作作为大模型输出的模态,像自动驾驶一样,做一个把通用感知、通用规划和通用执行融为一体的大模型。

陈建宇::我认为大模型这边带给我们最重要的启发就是,告诉我们有 scaling law的存在,启发我们去思考怎么样去做机器人的scaling law。

同时它也带着我们来一些语言模型领域的一些技术,比如说 Transformer的架构。算法层面、模型层面,还是数据层面,其实都有很多的不同,需要我们去探索。

end