联想集团副总裁毛世杰:大模型在AI PC端可以构建专属私人助手

毛世杰:AI大模型驱动的行业元宇宙(来源:本站科技频道)

文/赵芙瑶

12月22日,第十届以“智能涌现·发现未来”为主题的本站未来大会,在杭州正式启动。本次大会由杭州市人民政府和本站公司联合主办,杭州市经济和信息化局、杭州市商务局、杭州滨江区人民政府、北京本站传媒有限公司及本站(杭州)网络有限公司承办。

此次本站未来大会包括主论坛、AGI论坛、汽车科技论坛、灵感论坛、思想之夜、未来局等环节,大会广邀顶级学者、产业专家和行业精英一道,为您作答未来科技、人文艺术、时代个人在下一个十年无限精彩变化。

在12月22日的AGI论坛上,联想集团副总裁、联想上海研究院院长毛世杰带来了名为《AI大模型驱动的行业元宇宙》的主题演讲。

首先,毛世杰强调了行业元宇宙在数字经济与实体经济融合中的重要角色,解释了它作为下一代物联网发展的高级形态。通过构建数字世界、进行仿真和推演,行业元宇宙旨在提升真实世界中人和机器的决策能力和协作效率。

毛世杰指出,联想集团的AI策略主要聚焦在三个方面:提供AI内嵌的智能终端,构建AI导向的基础设施,以及提供AI原生的方案服务。这些策略共同支撑着“全栈智能AI For ALL”的愿景,旨在为不同客户群体提供定制化的AI解决方案。

在演讲中,毛世杰特别强调了AI大模型在提升行业元宇宙交互体验、增强感知能力和内容生成能力方面的应用。例如,通过利用大模型,可以改善XR设备的交互体验,提高机器人设备的理解和学习能力,以及使用视觉大模型来解决工业环境中的复杂检测问题。

此外,联想集团还展示了如何使用AI大模型来重构三维空间,并成功地将这些技术应用于多个实际案例中,包括工业检测、文化遗产保护和数字工厂建设。这些案例不仅展示了AI大模型的广泛应用潜力,也证明了其在提高生产效率和降低成本方面的巨大价值。

最后,毛世杰强调,尽管联想不是大模型技术的直接开发者,但通过与行业领先的大模型供应商合作,联想致力于成为智能化时代的引领者和赋能者。这一战略将有助于推动物理世界与虚拟世界的更紧密融合和协同发展。

以下为毛世杰演讲节录:

各位来宾下午好!感谢本站的邀请有机会跟大家分享这么一个话题,今天下午的场合各位专家的演讲我都听得非常仔细,我觉得非常有意思,尤其是林院长今天下午的开场,提的第一个问题就是大模型在To C行业应用比较多,To B行业现在面临很多的困难。

我今天分享的题目就是讲To B,我分享的题目是“AI大模型驱动的行业元宇宙”这个行业元宇宙显然不是指我们游戏领域的元宇宙,而是真正的面向工业的具体问题。前面的另外一位嘉宾也提到了,工业客户要的是行业大模型的降本增效。从有到有用到有作用,是我们所面临的挑战。所以接下来这个部分,我就跟大家分享一下我的团队在这方面的探索。

我来自于联想集团,联想集团的技术我们锚定在两个锚点,一个是AI,一个是算力,我们提供的是“全栈智能AI For ALL”,大家会很好奇联想集团是不是百模战的一员,我自己定义我们不算是百模大战的一员,我们跟各位的大模型的厂商有非常大的互动,联想集团做的是什么事呢?主要是三个。

第一,提供AI内嵌的智能终端,尤其是最近几个月大家看到AIGC的新闻非常热,大家在PC来了以后的变革产生巨大的期盼,越来越呢?大模型的数据在云端,但是我们每个人PC上有非常多的数据,如何用大模型在本地端就可以运行起来,构建每一个人自己的一个私人助手,这是第一部分。

第二,AI导向基础设施,反复提到算力。

第三,AI原生方案服务,最终我们有大模型用给不管是2B还是2C的客户来改变实际的生活。

我报告题目分为三个部分:

第一,行业元宇宙切入,它非常重要,它是产业升级新载体。

第二,行业元宇宙过去几年曾经非常热,现在非常冷,由于AI大模型让很冷的问题得到解决,所以我会分享AI大模型到来对于元宇宙、AI有哪些实际关键技术解决,让它的感知能力、决策能力能提升。

第三,我会简要给一些我们做的实际案例,大家感受一下2B企业应用什么状况。

第一个话题,我们受行业元宇宙怎么理解?大家想到元宇宙就是游戏?实际上几个月以前,工信部联合五部委发布了《元宇宙产业创新发展三年行动计划》,其实是数字经济与实体经济融合的高级形态,是下一代物联网的发展,目标是加速制造业的高端化、智能化、绿色化升级,支撑现代化产业的建设,具体来讲就是形成标杆的工厂、园区等。

从工信部发的文第一能够看出国家推出元宇宙这些领域是非常务实的,基本上是以需促实,以需强实的领域,和大家想象游戏的场景是不同的。

另外看左边的图,我们可以看到过去企业都是在做数字化,后面是网络化然后有一个基础,把万物连通在一起,今天更想用场景化,需要根据某个场景提供智能化的解决方案,不管是检测还是巡检还是什么样企业某方面的任务或者仿真、计算,这方面是我们今天元宇宙面临的问题。

元宇宙不管怎么说它首先要构建一个数字世界,我们构建数字世界的目的是什么呢?一定是在虚拟的世界里去进行仿真和推演,来实现在真实世界难以实现或者成本非常高的应用。但是后面一句话非常重要,我们最终的目标是提升真实世界人和机器人的决策能力和协作效率。

同样是在刚才的《行动计划》给出了三个清晰的路径。

(1)我们可以构建产线元宇宙,在产线里把人、机器、数据进行融合,进行三维自动化质检、远程协作等应用。

(2)更扩展一步我们可以面向工厂做工厂的工业信息集成、物流、资金流、信息流的融合以及实现智能巡检、远程协作等。

(3)扩展到园区提升园区的建设模式,这就是产业元宇宙的愿景图。

实际上我们做过不少元宇宙的项目,大家经常会说元宇宙是面子工程,有人说只能展示一下没什么用,总体来看我们总结了元宇宙的问题其实就是四个。

(1)好看不好用。

(2)构建元宇宙成本很高,目前构建虚拟工厂都是要派模型师的团队驻厂,要把很多细节建模。

(3)感知能力非常弱。

(4)交互联动。

我们排除第一个后面的,这三个其实都是跟AI大模型有密切的关系。AI的模型可以在三维重建里面提供一个自动构建的方式,可以大大提高它的物理感知能力,也能够提供新的人机交互的这种自然的交互的能力。

所以第二部分我想分享一下AI技术如何解决这几个问题。从一个框架来讲,我们构建元宇宙无非是人、用户、机器、新型设备、环境、数字空间以及和数据、知识、经验这些东西大的环境里去打交道。AI大模型不仅是语言大模型,我们还有视觉大模型、3D大模型,感知是对物理环境的感知,交互是人机提供新型交互方式以及构建它去创建三维的数字资产。

所以接下来我围绕这三个方面给大家看一下具体的案例。比如说第一个案例就是用大模型提高XR的交互体验,我们知道AR设备非常大的愿景是它解放双手,但是解放双手以后发现有一个问题,你怎么和设备交互呢?那其实主流的方式是用手势,用手势的准确性和各方面体验是非常差的,后来有人用语音,后来我们用自然语言模型来非常方便控制XR设备,当然除了XR设备PC、手机都可以用这种方式,因为XR设备是解放双手所以应用空间会更大一些。

另外我们也碰到客户很明确用多模态大模型接入到已经有的行业知识库或者专家知识库,这前面嘉宾也多次提到了。还有一种设备跟大模型相关就是机器人设备,因为数字化时代除了PC以外我们为什么重点看XR和机器人呢?XR是虚实融合的设备,机器人是虚实联动的设备。

首先,我们也是可以用大模型的Function core解决让机器人在指令层面非常容易理解的话,比如说告诉往前走十米,这个楼梯爬上去,这样的指令完全在大模型时代机器人可以理解的。

第二个能力让机器人去技能学习,很大程度上我们叫具身智能,比如说机器人多次爬楼梯以后根据每次爬楼梯机器人能够得到反馈,根据得到的反馈训练他下一次爬楼梯的效能。

第三步,更长远我们希望机器人对我要去做的任务进行解析,今天的机器人不行,今天的机器人任务全部都是预设的,比如说一个巡检任务从A点到B点检查任务都是预设的,但是我们觉得大模型下一步可能有机会让复杂人物的理解和动作序列的拆解这两个部分能够由大模型来完成。

第二部分是视觉大模型增强感知,原来我们由AI是小模型,小模型解决了哪些问题呢?比如说状态识别、行为动作识别、异常检测等,这些应用无数个案例都是过去这些年蓬勃发展的阶段,今天视觉大模型出来以后对三个问题都有质的突破。

第一个案例就是用视觉大模型解决Few-Shot的监测技术,这是我们视频就是真实的案例给吉利路特斯汽车做的检测项目,它其实像这样框出后视镜或者框出前面的Logo,只要一张照片用视觉大模型就可以在后面各种车型、各种灯光环境下把这个找出来,如果用传统AI的方式,这样算法的能力是需要几百张图片去处理这个算法的,但今天用视觉大模型它可以非常精准提取它的特征点,然后彻底解决了one-shot和few-shot的检测,所以对于算法的这种硬性程度有极大的提高效率。

第二个案例也非常有意思,是我们用视觉大模型去解决缺陷样本生成,在2B领域我们去用视觉做一个缺陷检测,面临最大的困难不是算法不够好,而是副样本不够多,因为出现故障的场景其实是比较少的,所以客户很难提供足够训练小模型的样本数据,那我们就想到一种非常有意思的方式。

右边的图这里面有很多缺陷的图,但其中只有2到3张是客户给的真实缺陷的图,剩下的图我们全部用Stable Dffusion这样的大模型去创建各种各样缺陷的数据,不光是灯光、破裂、颜色变化,然后再训练小模型,这个阶段小模型的价值在工业领域仍然是不可替代的,但是我们用了非常巧妙的方式引入了大模型的能力来支持小模型的算法,这是非常成功的实践,我们目前广泛用这种方式解决一些缺陷检测的问题。这个阶段小模型的价值在工业领域仍然是不可替代的,但我们用一种非常巧妙的方式引入大模型的能力来支持小模型的算法,这是一个非常成功的实践,我们目前已经广泛的用这种方式去解决一些缺陷检测的问题。

第三个案例,也是物理感知。就是异常检测,异常检测,我们发现用传统的计算机视觉的方式,比如这样的停车场,里面的东西很多,我也不需要事先标注哪个地方是异常,我只要给它20多张照片或者视频,让它看多了这样的场景。这时候当地上有一滩水时,今天的大模型是立刻能把它捕捉到、报警的。所以今天大模型来解决这种小目标、弱对比度、形状变化、光照变化等异常检测,是有非常巨大的空间和能力。

这是第二个部分,提高它的感知能力。

第三个部分,就是内容生成能力。我们之前三维重建,构建一个数字世界传统就是用三维重建方式,用SFM的重建。这样重建的效率其实是非常低的,我们去扫描空间,已经恢复空间所需要的代价都是非常高。AIGC出现以后,大家可能非常清楚,AIGC来产生图片,实际上AIGC在2020年左右出现了NeRF算法,是用来做三维空间建模的。三维空间建模以后,让我们对于空间建模的成本有数量级的下降,而且产生的数据,比如中间这些视频也非常的逼真。

前面也有嘉宾提到未来会不会有AI生成的3D内容,目前这个还是属于学术界研究的范畴,在工业界应用不多,我们会密切关注这个部分领域的应用,但还没有到实践当中。目前主要走到第二步,在NeRF重建这样一个阶段。NeRF重建阶段,NeRF产生的模型是一个神经网络模型,它如果用来构建数字工厂或者数字产线的话,是有很多工程问题需要解决的。

我这里给了一些过去一两年解决的一些问题。包括与传统三维模型进行融合渲染,大家仔细看在这个模型里,这是一个NeRF神经网络的模型,我们在这里叠加了虚拟的模型,也叠加了人的模型,所以做成融合渲染,这是一种工程能力。二是我们去现场拍摄的时候会碰到人或者移动物体对三维重建的干扰,这部分也有技术手段去除掉。三是NeRF模型是一段段扫出来的神经网络,这个视频是我们把在北京扫的和上海两个视频拼接在一起,给神经网络模型有空间、有尺寸,有这样的属性,从而实现模型的拼接和编辑等问题。

总体来说,NeRF这个领域过去这几年发展的特别快,而且它真正使用的工程上要解决的问题,都在快速解决当中。

这是我们做的其他案例,从办公室尺寸到大空间尺寸,到古文物保护,到园区的尺寸,我们都做了非常多的三维重建方式,这都是用AIGC来生成三维内容的尝试。

总体来说,AI在设备的人机交互方面,以及对外部环境的感知方面,以及产生三维内容方面,其实AIGC,尤其是大模型都取得了很多作用。基于此,我们就推出了联想晨星元宇宙的产品布局。我们觉得构建一个元宇宙就是这么三个方式:一是有新型的硬件设备,包括虚实融合、虚实联动的机器人设备和XR设备;二是需要有一个元宇宙平台,它来对物理世界进行映射、融合和联动,构建数字空间;三是结合各个行业的Knowhow形成不同的解决方案。一个正常的平台包括4个功能:空间构建、数字资产、场景编辑、业务运营,时间关系不详细赘述。

我想给大家放一个视频,非常简短,大家可以感受一下今天构建一个数字世界,让机器人去实现任务整个流程,已经做到什么阶段了。

第一步是在上海的办公室,我们用一个手持设备做一个环境的扫描。扫描之后迅速形成一个三维空间,并且在这个三维空间可以编辑的,我们拖了一个数字机器人进来,对这个机器人进行任务的分发,告诉他要去巡检什么点位,要跑什么样的算法,什么是正确的,什么是错误的,这里什么路径,并且把算法下发到机器人,现在就是由机器人在真实环境里和虚拟的机器人联动,你既可以在虚拟世界里操控这个机器人,也可以在真实世界操控这个机器人,让虚拟环境跟着变化。上面是机器人的第一视角,这是机器人现场,这是数字环境。现在它在执行一个监测任务,我们在上面贴了各种各样异常的照片,让他判断这个环境是正确与否,最后通过应用生成各种各样检测的报告,这就是一个完整的新形态用AI构建元宇宙应用的场景。

最后我给三个案例:

1.我们第一次在国内真正做到全地形全覆盖的变电站机器狗巡视,就是用我们所提到的应用,构建一个场景,让机器狗能够过鹅卵石、爬云梯,云台引导走到位置,清楚拍到它所需要看到的照片,并且通过算法对照片进行自动判断,如果出了问题还会有应急的操作。这个项目非常有意思,它真正实现了机器代人非常典型的案例,对于工作成本的降低是极其明显的,所以我们也获得南方电网很多视频、文章、报纸的报道。

2.前面提到了一些,这个视频还是很有意思,这就是一整套AI所构建的汽车产线出厂状态,每一辆路特斯汽车都是定制的,一辆汽车里有300多个检测项,根据客户要选择。之前要确认这300多个选择项非常困难,我们就把机械臂上装了各种各样摄像头,有各种相机。汽车生产完成之后,通过传送带,从里面出来这么走一圈,基本上300多项检测任务,这个报告就自动全部出来了,包括各种各样的轮胎、LOGO,各种各样检测任务都分享出来。这就是我刚才提到的,必须要使用大模型,尤其是图像大模型的技术,去解决样本少、解决One short等问题的综合应用。

3.这个案例是非常有意思的,我们和清华大学合作的山西应县木塔的保护。我们做了两个事情:一是三维重建,做了非常逼真的现场重建,并且叠加了一些虚拟的信息,把游览应县木塔场景变成一个游戏化场景,用户可以在里面和这个场景互动。同时我们也挑战了一下仿真的极限,清华大学对于所有木质结构进行CT的探测,对于木质机理进行分析,从而推导这个木头今天的表现形式在一百年前是什么样,甚至在两百年以后是什么样,这样我们就用元宇宙手段复现了它今天非常丰富的交互环境。并且可以推广它过去什么样,以及未来怎么样,这是一个非常有意思的探索类项目。

总体而言,联想集团的目标就是促进物理世界与虚拟世界的映射融合与联动。我们觉得两个大问题:成本太高、好看不好用。这两个问题的解决都是依赖于大模型相关的技术,构建的问题通过NeRF算法、AIGC方式去解决。智能化的问题,我们通过图像大模型、语言大模型、视觉大模型等方式去解决。最终,联想集团不是大模型的出品者之一,但我们用自己的实力,用自己的设备应用,跟各位大模型厂商联手合作,一起成为智能化时代的引领者和赋能者。

谢谢大家!