深圳教授,入局具身智能

文/杨松编辑/鄢子为

8月底,在北京一家餐厅,《21CBR》记者见到跨维智能创始人贾奎。科研、教学、创业……他的日程表排得满满当当。

“晚上10点前,我都有事情做。”他创业后,工作量大增。

贾奎是学者型创业者。他毕业于伦敦大学,获得计算机科学博士学位,曾在多家高校执教,是人工智能、计算机视觉等领域专家,发表论文百余篇,在TIP、TMLR等学术期刊担任副主编。

2021年6月,贾奎创立跨维智能。从学者到创业者,从技术到产业,贾奎称,转型有两个原因:

一是,近年来,AI“大厂”以丰厚的算力、数据资本发力,学界有滞后于产业界的趋势。

二是自己也想尝试新方法。“学术上,只要论证长期有用就行了,而企业的创新,要产生真正的社会价值,要考虑针对的人群,满足的需求,产品的功能、性价比等因素。”

贾奎带领的跨维智能团队,研发人员占比达70%以上,核心团队成员多拥有顶尖高校人工智能专业博士、硕士学位。

以自研的DexVerse™具身智能引擎为技术底座,跨维智能已形成包括纯视觉空间与具身智能传感器、新一代机器人控制器、PickWiz软件、高精度通用移动操作机器人等在内的产品矩阵,并实现商业落地。

贾奎坦言,每天都在思考,产品如何卡准位置,实现商业化。

以下为其自述,经整理:

归国创业

2016年,我启程回国,进入华南理工大学,做计算机视觉方面的研究。

彼时,在人脸识别、图像理解领域,国内“AI四小龙”做得很好。

我选择了一条小众赛道,将人工智能技术应用于三维空间。图像是一个二维平面,三维就像一个杯子,是曲面、不规则图像。如何处理这样的信号?

这需要运用机器学习、计算机视觉、图形学、机器人等交叉学科的知识。直至2015年,学术界才开始研究此类问题。

早期,团队成立了“几何感知与智能实验室”。当时,大厂尚未涉足这一领域,我们是国内最早将AI应用到三维空间的团队。

文本、图像,是二维的,互联网上有现成的海量数据。三维空间,是立体的,包含位置、角度、尺寸等信息,需要精准标定,不能采用之前的方式获取数据。

举个例子,如果目标是让机器人抓取世界上任何一个鼠标,团队就需要集合成千上万、甚至世界上所有鼠标的数据。这意味着,实验室需要从早到晚,去不同的环境里采集数据。

Sim2Real是适合空间智能、具身智能、机器人的范式,借助物理引擎、物理仿真,它能够自动计算、自动生成数据,来训练大模型。

就是说,鼠标上面的颜色、纹理、材质,全部是解耦的。在引擎空间,你只用改变材质空间参数,就可以把一个木头鼠标变成金属的。

到了2020年,我发现,做AI研究,需要足够多的算力、数据以及场景,高校能做的事情有限,不如大厂。

随着技术逐步成熟,我于2021年开启创业之路。创业三年多,我逐渐适应了企业家身份。

初期,我像一个学者;现在,更看重商业化场景,解决客户痛点才是最重要的。

创业艰难,我每天都在踩坑。碰到问题后,在实践中学习。

经过多年历练,我的能力变得更综合、全面,脸皮厚了。有些性格弱点,克服不了的,可以通过其他人弥补,认清自己,有所不为,有所不能。

沿途下蛋

团队研究的技术方向,跟具身智能、空间智能有关。

我们一开始就是按照Sim2Real(simulation to reality,从仿真到现实)的方式,希望通过智能的“眼睛”,感知空间,实现通用的技能。

一家公司的CEO,需要具备技术洞察力,选择恰当的技术路径,针对某个场景或痛点,拿出解决方案。在走访一系列应用领域后,我选择从智能制造开始。办公司、在大厂上班与教书,是三种完全不同的生活。我既要找准商业化场景,也要找到合伙人。

跨维智能联合创始人吴迪,是相机硬件专家,曾在华为、腾讯等公司工作,拥有十余件发明专利。依托原有经验及技术积淀,跨维推出了一系列3D成像和感知设备。

做销售业务,需要找有经验的。联合创始人解锐,是一名连续创业者,曾担任动视云科技联合创始人,为通信、云计算与人工智能领域专家。

几人组团创业,致力于给机器人安装智能“眼睛”,提升空间感知能力,锤炼智慧的“大脑”,习得“具身智能”技能。

沿着这条路径走,我们逐步实现了规模化商业落地。

目前,在多个商业场景中,跨维智能已经实现了利用100%合成数据,在毫米/亚毫米的操作精度要求下,达到99.9%以上的任务成功率。

在虚拟空间层面,我们不断锤炼“大脑”——底层自研的DexVerse™具身智能引擎。这是公司的技术底座。

在工业和一些商业场景中,我们已实现了无需研发人员介入的自动化操作。只需输入一个操作对象,系统就能自动生成数据、标注计算,并在线传递给相应的AI模型进行训练。

整个过程无需存储数据,高效且精准,是当前实现具身智能通用化技能的最佳路径之一。

我们还持续升级“眼睛”——纯视觉空间智能传感器。

传统的3D相机,需要光线投射,才能获得3D信号,作用距离有限,且容易受环境光的影响而跨维自研的纯视觉空间智能传感器,利用两个相机从不同角度捕捉图像,可以在复杂或半室外强光条件下成像,提升视觉系统的稳定性。

其最快可以实现每秒30帧频率,接近人眼感知世界的方式。

这套3D成像和感知设备,可以安装在机器人身上,适配主流机械臂与机器人,指挥其在工业和商业场景里运作。

以终为始

上一代的控制器,做一个从A点到B点的简单动作,都需要机器人工程师单独写一个程序。它没有眼睛,通过特定程序,精确地做动作。

新一代机器人控制器,像人一样有大脑、眼睛,可以指挥胳膊和手的动作,理解自然语言。

我们在研的新一代机器人控制器,有眼睛,还能通过自然语言的方式沟通,自动理解任务,并将其转换成机器人可以执行的代码。

其将会落地两个场景:工业柔性装配和室内清洁操作。

在工业柔性装配领域,即使要抓取的东西是无序的,Ropilot也可以指挥机械臂去完成动作。

如果机器人需要做好几个动作,比如把内存条插入电脑,中间有几根线挡着,其也能灵巧地拨开线,完成任务。

举个例子,目前室内扫地机器人没有胳膊,只能在地上操作。基于Ropilot产品,其在酒店场景下,可以完成清扫马桶、更换牙刷等复杂动作。

终端客户不关心技术路线,重视价格。

市场上存在着大量人不愿意干或者不能干的场景。现在,年轻人宁愿送外卖,也不去工厂干活。这种情况下,客户有强烈的需求,将机器人变得自动化、智能化、无人化。

这是一个不可逆转的趋势。

商业变现上,跨维智能出售成像感知套件,供应给集成商,安装到机械臂、灵巧手上,再应用到家电、汽车零部件等行业。

随着能力的增强,公司未来能够支撑更多机器人的技能,这个市场会越来越大,工业、农业、商业……人类总是希望智能体在生活中辅助我们。

为什么用具身智能的范式做传统的事?因为它是刚需,是痛点。

公司预计,今年营收可达数千万元人民币,下一年有望过亿。

对一个CEO来说,最重要的是具备洞察力,选择合适的技术路径,找到志同道合的人,把产品做出来。

对一个企业来说,永远的话题是:下一个利润增长点在哪里?要找到有决定价值的商业场景,在关键时间节点,找清自己的生态位,每一步都要看准。