完成亿元级融资,「自变量机器人」实现全球最大“具身智能操作基座模型”|36氪首发

文|周鑫雨

编辑|苏建勋

近期,36氪获悉,具身智能创业公司“自变量机器人(X Square)”连续完成Pre-A与Pre-A+轮融资,总金额达到亿元级。投资方包括德联资本、基石资本、啟赋资本、南山战新投,老股东九合创投持续加注,一苇资本担任独家财务顾问。

据了解,融资将用于下一代统一具身智能大模型的训练与场景落地。

自变量机器人成立于2023年12月。公司致力于通过研发具身智能通用大模型的路径,实现通用机器人。2024年4月初,36氪曾报道过其完成数千万元天使轮及天使+轮融资。

自变量机器人的创始团队,兼具Robotics Learning(机器人学习)和大模型的双重背景。

创始人兼CEO王潜毕业于清华大学,是全球最早在神经网络中引入注意力机制的学者之一。博士期间,王潜在美国顶级机器人实验室参与了多项Robotics Learning的研究,研究方向覆盖了机器人的多个前沿领域。

联合创始人兼CTO王昊是北大计算物理博士,在粤港澳大湾区数字经济研究院(IDEA研究院)期间担任封神榜大模型团队算法负责人,发布了国内首个多模态开源大模型“太乙”,首批百亿级大语言模型“燃灯”以及千亿级大语言模型“姜子牙”。

当前,“脑”(不论大脑还是小脑)日益成为具身智能赛道的热门话题。

在海外,两位前卡内基梅隆大学教授成立的Skild AI,在2024年7月完成了3亿美元的融资,成立仅一年估值就达15亿美元;由前Google研究员,Stanford与Berkeley教授成立的Physical Intelligence(PI),估值则已达到20亿美元。

“自变量机器人从成立之日起就坚定选择了‘统一大模型’的技术路线,与这两家公司后续公布的不谋而合。”王潜表示。

但目前,具身智能大模型领域还存在不少无人区。在国内,首批百亿级大语言模型和机器人的结合还较浅,常常只局限在简单的语音互动与感知规划。

与此同时,全球范围内尚未出现能真正解决物理世界复杂的操作问题的通用大模型。传统机器人通常基于特定场景和任务,很难根据环境和任务的变化自主调整策略。长远来看,作为“脑”的模型泛化性不足,也会给具身智能的规模化造成阻碍。

王潜对36氪表示,训练具有高泛化性的具身智能通用大模型,也就是统一大模型,是目前真正的解法。

为具身智能接入一个通用的底层模型,意味着机器人有了一个学习了所有任务之间的通用架构的大脑,比如物理世界的规律、物体的特性、机械臂的控制力度等。

相较于适用于特定任务或场景的垂直模型,具身智能通用模型所具有的任务泛化性,能够让开发者不用根据每个新任务从0-1训练模型,减少模型微调所需训练数据量的同时,所得模型还能根据任务和环境变化自主调整策略。

成立以来,自变量机器人在具身智能通用操作模型的研发上进行了快速迭代。成立仅2个月,自变量机器人就训练出了第一版具身智能操作模型,可实现切菜、倒水等步骤长且复杂的操作任务。在2024年中,模型在特定任务上已显现出少样本学习和自发的跨任务迁移能力。

近期,自变量机器人实现了全球目前最大参数规模的具身智能通用操作大模型:Great Wall系列(GW)的WALL-A模型,采用的技术路线为“统一具身智能大模型”。王潜表示,该模型在多个维度上达到或超过了SOTA水平。

据王潜介绍,WALL-A模型的特点在于,实现了两个维度的“统一”:

一,实现了所有步骤“端到端”的完全纵向统一。输入最原始的视频、语言、传感器信号,输出最后的机器人的速度、位姿、力矩,用一个模型完全解决,中间没有任何切分的步骤;

二,实现了不同任务的横向统一。所有的任务放在同一个模型训练,推理用同一个模型进行操作。也就是说,一切操作任务,只用这一个模型,就解决所有问题。

王潜对36氪提到,端到端的纵向统一,可以避免人为干预所引入的噪声和信息损失;任务的横向统一,则让机器人像人一样从不同任务中获得可相互借鉴的经验。

“新一代的具身智能技术的突破体现在泛化性、通用性、自学习、处理复杂任务的能力上,这一切在统一大模型均有体现。”王潜表示。

他透露,自变量机器人已经实现了一系列创新,既包括底层算法、框架的创新,也包括数据工程、训练工程的整体系统级创新和优化。

以下是投资人评价: