对话宇树科技创始人王兴兴:人形机器人大模型,还没走到“大力出奇迹”阶段
随着人形机器人逐渐成为创投领域的热门赛道,宇树科技也越来越多地受到市场关注。
这家成立于2016年的公司,起步阶段是专注于四足机器人的开发。2023年初,宇树科技立项人形机器人产品,并在同年推出了首款通用人形机器人产品宇树H1。2024年2月,宇树科技完成了近10亿元B2轮融资,美团成为该公司的最大股东。
8月21日,世界机器人大会期间,宇树科技发布了人形机器人G1的量产版本,起售价为9.9万元,这是双足人形机器人价格首次下调至10万元以内。宇树科技方面称,G1人形机器人,身高约127厘米,体重约35公斤,小跑速度超过2m/s ,拥有23至43个关节,可执行如动态站起、坐下折叠、舞棍等动作。
“宇树科技入局人形机器人赛道,基本上是遵循顺势而为的逻辑。如果做的太早或太晚,其实都是不好的。”
宇树科技创始人王兴兴表示,大语言模型出来以后,AI的技术产生了质变,大家已经看到AI赋能机器人带来的潜力。对于人形机器人而言,基本就是四足机器人站起来的另一个版本。
王兴兴认为,在过去的一到两年内,国内很多人形机器人公司之所以可以跑出来,是因为大家用了大量开源的四足机器人技术,包括控制算法、硬件等。但是,人形机器人想要继续发展,单纯靠大语言模型还远远不够。大语言模型本身是机器人模型的一部分,但它不是全部。
从ChatGPT的技术逻辑也可以看到,大语言模型找寻到了一条“大力出奇迹”的可行性路径。OpenAI通过不断地增加算力和数据,ChatGPT的人机交互能力就可以不断上升,而且目前业界还没有看到这种能力提升的“天花板”。但对于机器人大模型而言,王兴兴认为目前这个行业没有走到“大力出奇迹”的阶段。
“目前国内的大公司其实对AI和机器人都挺关注的,但他们的投入也是比较克制的。”
王兴兴对钛媒体APP表示,大公司和创业公司对于机器人大模型投入比较克制的最大原因就是,机器人模型的技术路线没有像大语言模型那么清晰。“在这模型研发没有清晰路线的阶段,如果投入大的财力和人力,其实会有点使不上劲的感觉。这条路你都不太清楚,你拼命往里面跑也跑不了。”
王兴兴称,在人形机器人领域,通过增加算力和数据可以提升机器人某一方面的能力。机器人通用的AI模型,全球范围内大家做得都不够好,目前没有人可以真正将AI机器人做到极致。“全球都没有人做出来的情况下,你可以认为这件事情需要靠运气,或者看某个天才式的人物来推动了。”
以下是王兴兴与包括钛媒体APP在内的交流内容,略经编辑:
从目前人形机器人研发的角度看,大模型可解决哪些技术问题?主要应用在哪些方向?大模型和人工智能的应用有望降低研发成本吗?
王兴兴:大家说大模型的时候,一般是在说大语言模型或者多模态模型,这部分肯定是可以给机器人用的。但真正的机器人大模型发展下去,单纯的大语言模型还是不够的。大语言模型本身是机器人模型的一部分,但它不是全部。
举个最直观的例子,比如在工厂里做事的一个机器人,他完全可以不说话,他只要能干活就行了。而对于干活这个点的话,这部分的训练其实跟大语言模型没多大关系,更多的是一些模仿学习。而且这个模型结构跟大语言模型结构也会偏差比较大,目前整个体系没有那么成熟,不像大语言模型整个的风格结构、数据对齐那样清晰的。
在ChatGPT模型出来以前有非常多的语言模型结构,但大家现在已经忘了,因为后来大家发现GPT模型的架构是更加有价值的,就把其他模型淘汰了。现在人形机器人具身智能有点像ChatGPT出来前的一两年,大家已经发现了要往这个方向做,但实际上没有哪家敢保票,说我这个方向是绝对正确的。
今年国内很多外人形机器人公司都宣布“进厂打工”,您怎么看这个现象?宇树科技的人形机器人的落地现状和未来规划是怎样的?
王兴兴:这是一个趋势。我们过去几个月也跟蔚来的汽车工厂有合作,现场部署了人形机器人去做搬运,包括国内别的一些人形机器人也跟汽车工厂有些合作。这个目前基本上还是处于试点阶段,还没有到真正的商业闭环,比如一台机器人它产生的商业价值是正向的,比人工更便宜。
目前宇树科技的四足机器人营收占比是怎样的?人形机器人的快速发展,对于四足机器人来说是机遇还是挑战?
王兴兴:目前消费端产品可能占了整个机器狗营收的1/3。
大家可能一直觉得我们做了人形机器人,会不会四足机器人顾不过来。但实际上,我们四足和人形机器人的两个业务,很多人员是共用的,因为两个领域的硬件、电控系统、软件、OTA升级平台和AI算法等共用的地方非常多。
通用人形机器人领域什么时候会出现一个iPhone时刻?AI大模型为机器人领域带来了哪些明显的能力的提升,还存在哪些挑战?
王兴兴:人形机器人离iPhone时刻还有很大距离。iPhone的出现,并不是说有一个特别技术突破了,更多是一个综合性的技术突破。比如说原本已经有触摸屏了,有很好的CPU,或者还有一些图形界面。然后,乔布斯把终极产品的构想给提出来了,把这些技术都整合在一起。
在具身智能或者机器人AI这个领域,我觉得在今年年底之前,至少全球有一家公司或有个实验室能把通用型的机器人AI模型给做出来。但这也不是iPhone时刻,因为iPhone时刻标志着这个行业的出货量暴增。人形机器人真正的iPhone时刻会更远一点,但是我觉得不会超过5年。
您之前提到过会考虑在机器人上面增加足够多的触觉感知,你认为现在触觉的重要性在哪里以及瓶颈又是什么?
王兴兴:我一直觉得触觉是非常重要的一件事情。
对于一个人来说,假设你全身皮肤的触觉丧失了,你可能抓一个东西都抓不住。再比如,如果你贴一张胶带在猫的身体上,这个猫会发生很奇怪的动作。触觉对整个哺乳动物来说,都是非常重要的一件事情。
但是,目前人形机器人触觉的进展确实非常糟糕,机械臂上基本没有触觉传感器。原因也比较简单,触觉传感器非常不好做,因为它要非常小且足够的敏感,但敏感和可靠性天然存在矛盾。一个非常敏感的传感器,就意味着非常容易坏,一旦受到碰撞,就会导致操作变形。
在您看来目前人形机器人发展最大的瓶颈是什么?
王兴兴:当下的所有机器人最大的瓶颈,还是基层AI的能力在全球范围内都没有达到一个像初代GPT或者初代通用AI的能力。
目前双臂机器人或者一个工业机器人,如果加了AI以后,它产生的人效比人低,比如速度比较慢,精度比较差,能干的活比较少,它其实很难替代工业上面人的价值,这样的话整个的商业闭环没办法跑通。
另外,当然目前可能硬件还是有些问题,比如硬件的机械臂的负载能力不够,精度不太够,成本有点高,但实际上这只是工程上的问题。如果现在机器人AI哪家公司能做一个突破,我们年底前就可以直接量产10万个机器人。
您如何看待现在智能机器人的行业的竞争格局?您觉得中小公司的机会在哪?
王兴兴:中小公司目前最大的点,就是你得对前沿技术保持足够高的敏感度,你得看到未来,你得足够灵活。如果能预估未来1年2年,甚至是5年以后的整个技术路线,整个产品格局,你提前做布局,能不能做第一不太清楚,但你肯定死不了。
对于大公司而言,要做到这一点比较难。大公司内部的流程,内部团队的相互竞争,然后资源和沟通的顺畅性都不如中小公司。
另外,我们一直非常关注商业化。我们做人形机器人最主要也是我们冲着商业化去的,有客户我们才去做的这个方向。目前我们的人形机器人客户比较杂,有个人的、科研教育的、AI公司的、科技公司的,还有一些工厂的项目落地等。我们基本的策略还是希望给大家提供本体,无论是个人买来玩也好,工厂里面做一些应用也好,或者学校做一些研究,我们都完全欢迎。
现在机器人都还在投入期,您有没有预估它什么时候能到盈亏平衡,然后什么时候能到一个市场爆发的时候?
王兴兴:盈亏平衡具体要看怎么算了。其实我们公司还是保留了合理的利润,相对来说最大的点还是希望有更多的机器人出货量,有更多的人能使用机器人,这可能是更重要的。
还有一点,如果你投入大量的AI与人力,你可能很难盈亏平衡或者亏损会比较严重,因为AI太费人了,烧钱也会比较严重一点,因为算力比较贵。其实每家公司不太一样,如果你AI投入少,可能就比较容易实现盈亏平衡,你如果AI投入大可能就很难实现。
所以,在人形机器人领域是不是不太存在“大力出奇迹”的可能性?
王兴兴:情况是这样的。
如果一家大公司有财力和人力,我还是建议他可以多投入一点的。但是对我们这样的创业公司,可能就不太合适,我们还是比较保守一点。因为机器人的AI模型,其实不像大语言模型的技术路线没有那么清晰。
所以,在这个模型没有清晰的阶段,你如果投入大的财力和人力,其实你有点使不上劲的感觉。就是这条路你都不太清楚,然后你拼命往里面跑,你也跑不了,对吧?
OpenAI当时投入大量精力去做ChatGPT的提前是,他们内部已经验证了模型是ok的。他们做了一个ChatGPT模型出来,然后给他喂了不少的算力和资源,发现效果其实非常明显,然后再继续加算力和资源发现效果依然很明显。而不是,他们在模型还不太清楚的时候就乱投入。
大家如果去看一下OpenAI早期的发展经历,可以看到他早期几年做的事情很杂,机器人的AI模型他们也做过。后来他们发现GPT这个模型可以大力出奇迹以后,把资源都给汇总起来,专门做GPT。
但现在像机器人这个领域,目前你要说哪个方向特别正确,还比较难判断。目前相对公认的是,特斯拉要搞的就是这个方向,通过堆数据是有效果的。不过,堆数据也只是针对单个的细分场景,更大范围的验证效果如何,目前还不太确定。(本文首发于钛媒体APP, 作者 | 饶翔宇 编辑 | 钟毅)