对话面壁智能李大海:AGI是一场马拉松,我们不急于当破风者
文|武静静
编辑|苏建勋
“AGI是一场马拉松”,在2023年的一次晨跑中,这句话突然闪现在面壁智能CEO李大海的脑海中。
作为一名马拉松爱好者,李大海知道,长跑关键不在起跑,而是在节奏控制和体力分配。彼时,百模大战愈演愈烈,更多人关心的是“爆发力”和“速度”,所有科技公司都以百米冲刺的劲头,往GPT-3.5乃至更远的方向狂飙。
“我们不急于一开始当那个破风的人。”李大海曾和身边的人谈起他的思考,“而是要从全局出发,考量整个系统的优化,和过程中节能的策略,跑到最后才是胜利。”
2023年底,面壁智能的一次总结会上,一个词语被频繁提起——“高效”。
面壁智能首席科学家刘知远和CTO曾国洋对这一关键词已司空见惯。
刘知远团队是中国探索AI大模型的第一波人,当时训练和应用大模型极其烧钱,让很多研究者望而却步——如何从零开始,建立训练、微调到推理应用的全流程,如何把每一块显卡、每一个参数的作用都发挥到极致,这些都是卡在眼前的一道道难关,而提升“效率”成了当时大模型研究起步的关键点。
这样的情况下,刘知远团队将大模型这块硬骨头啃了下来,2020年12月,通过全栈自研的技术,刘知远、黄民烈与韩文弢带领的团队发布了全球第一个中文开源大模型「CPM」——这是面壁CPM大模型的前身,也是中国第一个大模型项目“悟道”大模型的前传。
2021年初,在智源研究院筹备“悟道”大模型项目过程中,刘知远团队也作为主力参与,并围绕更“高效”的方向预训练大模型。
可以说,在面壁创立之前,“高效”就是烙印在这支团队骨子里的印记。
那次总结会上最末的提炼环节,刘知远脱口而出:“高效和通用就是AI可持续发展和应用的本质,也是面壁做大模型的核心。”
团队一拍即合,将“高效”作为面壁构建大模型的第一性原理。李大海回看认为,这场AGI马拉松长跑中,面壁也真正厘清了自己节奏和步调。
所以,面对日益激烈的竞争,当下的李大海反而多了些笃定。对于面壁是谁,要做什么,往哪儿去,也有了更多信心。
在和李大海的对谈中,我们感受到另一种“现实主义”的样本和叙事视角——在这场以大模型之名搭建的硕大棋局中,不只有最快拿到大笔融资和疯狂烧资源的大玩家才能参与对弈,焦点之外,一些低调务实的创业公司亦坐于牌桌——他们未能拿到最顶级的钱和资源,但仍在精心布局“攻防策略”,努力把每一颗“棋子”发挥出最大的价值,下出别具辨识度的招式。
在与「36氪」一个多小时的聊天中,相比AGI终局这样的话题,李大海更乐意谈论大模型的落地和实践,他说了22次“落地”和“高效”,提了16次“市场”,谈及最近令他有成就感的事:“有人自发在国产芯片上跑面壁新的‘小钢炮’系列端侧大模型,还有人把模型跑在了手机上。”
在当下的大模型创业浪潮中,面壁希望兼顾技术理想和现实主义,“高效”成了贯穿始终的关键词,用李大海的话,就是“让大模型用更快的速度,更低的成本,同等的数据量跑出更好的效果。”
如今,各家公司都在如何实现AGI的实现路径上给出不同的解题思路,在2023年和36氪的对话中,月之暗面创始人杨植麟就强调,长文本将是制约大模型落地的关键因子;在今年2月和阶跃星辰CEO姜大昕的对谈中,他给的思路是“单模态—多模态—多模理解和生成的统一—世界模型—AGI(通用人工智能)。
对于Scaling Law,面壁加了一重“效率”层面的理解,“在同样的时间、同等参数量的条件下实现更优的大模型 Scaling Law,比如把模型知识压缩的效率做到极致,把更多的高质量数据压缩进一个更小更优的模型中。”
在落地层面,目前面壁围绕“更经济”“更高效”这条路,选择优先在to B场景挖掘大模型的落地机会。公司已携手招商银行、金山办公、知乎等合作伙伴,将大模型与Agent技术部署落地于金融、教育、政务、智能终端等应用场景。
李大海不认可所谓的技术信仰派和市场信仰派论调,他觉得“太极端了”,面壁要走的也不是某一条路,而是如何做好市场和技术这道乘法题,打造“更高效、更经济的AGI”。
让AGI更高效和更经济是个诱人的方向,但实现起来非常艰难,就连OpenAI也在想方设法解决这些难题。OpenAI CEO奥尔特曼在最近一次和OpenAI COO布拉德·莱特凯普的对谈中提到,他们可以将非常高质量的 AI 技术成本降至接近零,但不确定因素依旧很多,“没有足够的计算资源,世界供应和需求失衡,工程化问题导致计算成本非常高等都是问题”。
对于面壁和知乎的关系,李大海也不讳直言,“外界对我们和知乎的关系有误解”,他透露,双方只在数据层面有深度合作,但双方的产品都由各自的团队进行设计和研发,面壁会给予更多如何用好模型的建议,但不介入具体的业务。
多年的创业经历也让他有足够的心力去面对更多的质疑和不被理解。“不被理解很正常,这也代表着面壁走在技术前沿。假如一个新路线,刚提出就得到一致认同,那这个idea该有多平庸!”
以下是36氪和李大海对话实录,经编辑整理:
面壁智能炼大模型第一性原理:打造更“高效”的AGI
36氪:当下,有很多在探讨技术信仰派和市场信仰派这两种主张,面壁站哪边?
李大海:我觉得不能走极端,所谓的“技术信仰派”和“市场信仰派”,只是两个重心。纯粹的技术信仰派,本质上就是个研究院,纯粹的市场信仰,会类似一个“特别薄皮没有馅儿”的公司,两个都不可取。
哪怕OpenAI也不是纯技术派,虽然他们的技术积累深厚、对技术方向的把握很好,但同时也非常关注市场,ChatGPT在产品体验上是非常好的,是否推出Sora以及什么时候推,时机把握也都很有火候。
面壁肯定是一个更以技术为内核,但同时要非常关注市场的团队。做大模型一定是要有一个重心,重心是技术,但是不能没有对市场和对用户的敬畏。需要边打磨技术,同时格外重视PMF。
36氪:面壁一直是这种“两条腿走路”的发展路径?
李大海:“两条腿走路”这个词不太准确,好像是说我不知道哪一边是对的,就两边都往前走,看哪边是对的。
我们的理解是,技术和市场的结合是一个乘法关系,你有技术,但也不能藐视市场,否则做出来就是个研究院,没有哪个公司是靠研究院成功的。
但如果你没有核心技术,光想着做市场也不行,现在的大模型时代里,技术就是公司最核心的东西。
36氪:面壁对AGI的理解和其他家有什么不同?
李大海:如果谈的是AGI的终态,大家差别不会特别大。AGI最终是一个通用的人工智能,它能在现实世界和虚拟世界里的大部分任务上都比人类做的更好。
不同的地方在于每家公司通往AGI的实现路径上,哪个事情先做,哪个事情后做,每家公司都有自己的认知、理解和选择的不同。
面壁现阶段的选择就是“高效”,沿着这条路径,能够更快、更可持续地向AGI发展。尤其,今天大家普遍认为,现有人类积累的训练数据将接近枯竭,接下来的竞争在于谁的合成数据更多。从我个人角度来看,现有的数据已经足够培养出全球各行各业的人才,关键问题不在合成数据,而在于更高的模型学习效率。
宏观来看,如果沿着当前的主流思路进行AGI探索,不仅需要海量的高质量数据,还会很快遇到能源供应方面的瓶颈。中国是过去十年世界上少有的电力供应持续增长的国家,这为我们做大模型带来了优势,但环境压力对全人类社会的影响巨大。在这种背景下,要广泛落地AGI,技术对环境带来的作用力,会让环境形成反作用力最终会回到企业身上。
36氪:面壁对Scaling Law的理解跟其他家有什么不一样?
李大海:我们在探索一条更加“高效”的Scaling Law增长曲线,让大模型用更快的速度、更低的成本,同等的数据量跑出更好的效果。
Scaling Law表达的是,大模型的智能会随着模型规模、训练算力、和数据的扩大而提升。在Scaling Law中,相对于“把模型做大”,我们更关心如何让模型“有效训练更多数据”,这才是更本质的东西。
模型训练本质上是一个知识压缩的过程——把大量优质数据压缩到模型里,形成一定的“智能”。给定同样多的数据,如果用更高的压缩比,更小的训练算力,把数据中蕴含的知识压缩到一个更小的模型里,那就是更“高效”的训练。
我们相信,这个知识压缩的过程是否高效与优质,会成为验证模型公司技术实力的重要指标。
36氪:压缩比更高带来的具体价值体现在什么地方?
李大海:它意味着更高的训练迭代效率,更低的推理成本,完成相同的模型推理能力。
压缩比更高对大模型落地、真正地实现AGI至关重要。在to B的私有化部署实践中,模型大小对于客户的决策的影响很大,因为机器会成为模型采购之外很大的成本。
在to C业务中也是一样,因为GPU推理成本较高,导致,大模型原生产品的单个DAU的技术成本是传统移动互联网业务技术成本的十倍以上,这对于追求ROI的业务模式是很大的挑战。
另一个例子是端侧。端侧是大模型规模化扩展和应用落地的关键场景,比如把大模型部署到手机、汽车和PC上。但因为终端的算力和发热、续航能力,模型必然会在尺寸和计算量上受限,所以我们必须在端侧模型中压缩大量知识,并在模型上集成更多适配端侧场景的模型能力。
从技术发展的角度来看,在通往AGI这条路上,更高的压缩比也能帮助我们在更短的时间内实现赶超GPT-4目标,让AGI到来的成本降下来,速度提上去。
36氪:怎么理解你前面所说的“高效”的Scaling law路径,具体指的是什么?
李大海:我们对“高效”的理解有三个方向。第一是高效的训练。几个月前发布的MiniCPM,实际上是完全验证了面壁高效模型训练模式的彻底跑通。
过去一年,我们在“高效”这条路上进行了大量的工作,进行了上千次“模型沙盒”实验,对大模型训练过程进行精准建模、预测,实现同等参数性能更优、同等性能参数更小效果。最终,以2B的参数量,实现了超越 Mistral-7B,越级比肩 Llama2-13B,乃至更大的几十倍规模模型的模型性能。要达到同样的效果,国外其他模型用了远比我们的多得多的训练语料。
36氪:另外两个方向是什么?
李大海:另外两个是高效的落地和高效的推理。
高效的落地方向,面壁主要以Agent技术为核心,同行都评价面壁是大模型公司里最懂Agent的公司。2023年,我们就对外强调Agent很重要,并发布了大模型驱动下的Al Agent单体智能、群体智能和智能体应用框架产品,我们的ChatDev智能体软件开发平台今年也得到知名人工智能学者吴恩达的点赞,在红杉大会上做了特别推荐。
高效推理指的是目前面壁在前沿探索的端云协同的技术。
为什么端云协同很重要?因为终端拥有大量分散的计算资源,比如手机、汽车等终端设备。把这些计算资源用起来,让云端和终端,一大一小的两个模型协同工作,共同为用户提供完整的服务,可以大大降低推理成本,解决能耗大、可靠性低、时延长、用户隐私安全等等问题。
36氪:除了“高效”之外,大模型还有很多工程化的难题,也有公司现在不考虑高效,先想法设法达到OpenAI的水平,这也是一种选择。
李大海:大模型是一项系统工程,AGI实现的过程会角逐出最优解决方案。我们想挑战难而正确的事。
36氪:把高效提到公司的战略层面,这个决策是在碰撞中形成的,还是最早这么规划的?
李大海:面壁创始团队在day one就非常关注效率。2021年初,我们团队就一直围绕高效做很多事情。随着工作的展开,从外部的视野观察,发现确实相比其他模型团队的AGI方法论有比较明显的特色,逐渐形成了更清晰的自我认知。
36氪:当时“高效”这个方向是谁最先提出来的?
李大海:是知远。从一开始的“悟道”大模型项目,他领衔的方向就一直强调“高效”。
36氪:你和刘知远做决策时各自分工是什么?
李大海:经营战略方向主要是我来制定,比如现阶段的商业化方向和节奏等,技术战略方向主要由知远决定。
Agent能帮助大模型解决落地最后一公里难题
36氪:为什么面壁要押注Agent,Agent为什么重要?
李大海:在当前这个阶段,大模型落地还有最后一公里问题,Agent可以解决这个问题,更准确的说,Agent不一定能完全解决,但能非常显著地提升大模型落地的效率。
在具体落地中,Agent能够更好地与企业客户的环境相结合,它们可以调用客户的工具,并与客户的私有知识更好地结合,而无需进行微调。其次,这些技术还能进一步挖掘出模型能力,反哺模型性能提升。Agent这两个方面的价值,让大模型得以更高效地落地。
我们开始做Agent研究比斯坦福小镇还要早,那时候还没有“Agent”这个提法,我们就在讲,如何让工具自主学习并去使用工具。2023年初,团队就发表了一篇Agent相关的论文《ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs》。
36氪:目前市场上,大家对于Agent的认知和它能做的事情的理解已经形成共识吗?
李大海:对Agent的理解在“是什么What”层面上在慢慢的形成共识。但是在“怎么做How”的层面,大家的认知差别还蛮大的。
36氪:差别在什么地方?
李大海:比如多智能体协同这些技术怎么往下去落地,这个层面上现在还处于很早期。
在单体智能方面,通过RAG与外部知识库交互、使用既定流程进行工作已经逐渐形成了收敛的最佳实践,也是相对容易做到的。但我们认为多体智能才是未来,单体智能的基础不是单个的Agent,而是Multi Agent(多Agent)背后的模型,未来他们在场景中价值会被逐步放大。
36氪:过去一年融资过程中,投资人提出了哪些不一样的观点?
李大海:现在市场上,行业里有很多非共识。我不去评论其他人的观点。但从整个人类探索AGI的角度上,这是好事,百家争鸣,大家有不同的路径去试错,效率更高。
现在所有人距离AGI都很远,还在马拉松的前几公里,这个阶段不需要追求整个社会的共识。我们希望选择一条更高效的路径,为AGI提出一个成本更低的方案。
36氪:你怎么面对不被理解和质疑的声音?
李大海:当走得足够前沿的时候,不被立即理解是正常现象,做创新首先要有一颗大心脏。假如一些阶段性的不理解我们都消化不了,那这家公司可能压根也不配参与AGI的角逐。
面壁一直是个喜欢打先手的团队,走得很靠前。前行者不应该寻求大多数人的理解,但我们希望寻求历史的验证结果。譬如,我们对技术路线的选择,每次都在很早的时间选对了正确方向。
我们是中国真正最早做大模型的团队,先kick off了“悟道”大模型的前身项目,2020年就发了国内首个中文大模型;2022年,ChatGPT还没火之前,团队已经在B站上开设了专门的公开课讲解大模型,那个时候根本没人看,到2023年观看人数已经超100万;2023年我们又开始探索Agent,理解的人也不多,但你看,后面大家都越来越认同了。越来越有信心,因为结果说明一切。
这个市场上其实还是有很多懂技术的投资人,他们很认可我们的价值。投资本来就是在早期非共识中找到有价值的公司的过程。一定是少数人的选择。如果是共识,就不是一个能够得到超额回报的机会了。
大模型商业化:B端优先级更高,更关注PMF
36氪:目前面壁整体的商业化的进展情况怎么样?
李大海:整体项目进展顺利,效率比较高。
2023年,我们和招商银行、金山办公、知乎的合作持续加深,并成功拓展了更多客户,服务了更广泛的客户群体,包括义乌小商品市场集团、易慧智能(易车网)等。今年我们将更加专注于与这些合作伙伴的深入合作,推动大模型更深入地融入客户场景。
36氪:这些都是B端客户,我们C端和B端商业化的优先级是什么?
李大海:B端在给我们持续贡献收入,我们希望能把优势场景打透,把模型高效、低成本落地给扎实做下来。
C端会先探索,目前大模型PMF远未找到成熟方向。在移动互联网时代,当移动手机首次出现,经过了2-3年时间,才真正出现成功的大规模用户产品。新产品都需要经历技术与用户需求理解、相互匹配的过程。尽管这个过程可能需要两到三年,但那些最终成功的公司都是在一开始就进行了相关的努力。因此,我们在C端也在持续进行探索。
36氪:你之前有很多搜索等互联网产品方面的经验,对于大模型原生的超级应用,是如何理解的?
李大海:AGI未来超级应用可以向两个方向发展:首先是虚拟数字世界,未来会出现类似元宇宙那样的开放世界,在这里AI应用将发挥巨大价值;在现实世界,AGI技术与机器人的结合是重要方向,机器人会超越手机,成为一个全新的、强大的超级终端。
AGI原生应用将极大地改变以AI为代表的机器与人的交互方式,甚至改变人与机器之间的关系。目前,人们使用机器的方式更像在使用工具,我相信未来机器将不仅仅是工具,更是聪明的伙伴,甚至会担任我们的导师。这种从工具到伙伴的转变,标志着人机关系本质上的变化。
36氪:Sora发布的时候,我们团队对这个技术的理解和当时的态度是什么?
李大海:Sora是文生视频技术,是在研究怎么生成更好的可被消费的内容,我们认可这个技术,但它跟我想要走的方向不是一个方向。我们希望聚焦。
36氪:用其他大模型公司产品时,发现回答中信源有三条文章都来自知乎的,面壁跟知乎之间这种深度合作是排它的吗?
李大海:知乎是中国最高质量的内容平台之一。在大模型训练方面,面壁获得了知乎的正式授权,知乎把全量的不涉及用户隐私的公开数据都独家授权给我们了。所以在训练模型的第一天,面壁就拿到了中国最高质量的数据,这个是我们模型训练的优势。
我们跟知乎的合作是深入的,在模型训练上有很多合作,不过对于模型如何应用到产品中,则有各自的规划。目前知乎App也上线AI搜索的功能,搜索质量也还不错。
36氪:面壁和知乎的深度合作中,如果面壁把知乎中某些应用排在优先级更高的位置,是否影响面壁整体的节奏?
李大海:我们的合作主要集中在模型的开发上,知乎内部的应用是由知乎团队自己负责。知乎本身具备强大的技术实力,他们有能力把模型用好,面壁并不会介入到知乎产品的研发中,这种合作对面壁的模型研发节奏并没有影响。
36氪:国外的开源技术进展会导致整体中国技术相对落后吗?
李大海:在OpenAI完全闭源之前,AI行业已经建立了一个基于开源和开放的繁荣社区,这种开源精神极大推动了行业快速发展。
开源不仅促进了相互学习和借鉴,还加速了技术水平的整体提升,是一种技术层面的互相切磋和促进。历史上,如Google发布的Bert模型,被广泛应用并促进了技术的提升。OpenAI的一系列工作,也是建立在Google的Transformer等工作基础上的,这证明了开源开放的重要性。
面壁智能也会坚定地拥抱开源。我们最近两个月连续研发了MiniCPM 1和2,并且非常开放地分享了我们的心得,也希望这些知识能够促进整个行业的发展。这种开放的精神最终将惠及所有人。
36氪:举一个例子,万一Meta下一个开源的产品强于GPT4了,那岂不是之前国内公司很多都白做了?
李大海:竞争是残酷直白的,没有特点的模型确实没有价值。但训练模型的一时落后不代表的团队的一世落后。
中国工程师们既聪明又努力,一时一刻的落后,都是暂时的,在训练模型过程中积累的数据处理能力和基础模型能力对于公司来说极其珍贵,它们都能够有效地促进应用的实际落地,成为这些公司宝贵的资产。
接下来更重要的是,每个公司都要想清楚自己的模型和产品的差异化,真正给用户或客户带来价值,才能一直留在通向AGI的牌桌上。
36氪:接下来面壁最重要的事情是什么?
李大海:之前行业谈论自动驾驶的时候,有一个词叫“沿途下蛋”,大模型技术也一样,不同的是,大模型就是一个随时可以沿途下蛋的事物,我们的目标虽然是AGI,但从day one开始就可以有产品。
所谓的超级应用,就是杠杆最大的那个产品。还它还没有出现之前,还有很多事可做。面壁一方面技术要不断地往前滚,一方面也要下几颗“金蛋”让大家看到AGI孵化出壳前长什么样子。
36氪:大模型相关的领域,你还有哪些困惑或者是最想得到解答的问题?
李大海:相比困惑,我更愿意说兴奋。在这个伟大的技术与文明变革周期,会将最值得探索的Big Question送到我们面前,让所有这个时代最聪明的头脑一齐提出自己的思考和解法。你不知道哪一天,哪个人,提出的哪个想法,就会深刻改变未来技术与人类的发展走向,伟大的想法也许就诞生在你的团队、你的朋友之中。太多的问题需要思考,但每分每秒都令人振奋。
具体有几个,比如,是否还有比Transformer架构更好的选择?比图灵测试更有效的测试大模型智能的方式是什么?以及我们正在思考的关于“高效训练”的问题:世界拥有的所有数据是否足够训练出 AGI水平的智能?AGI的能耗是否能做到和人类大脑可比?这些问题都非常有趣,关键不在于谁能够给出这些问题的答案,很多时候伟大不可被计划,但我们应该与同行们一起努力,探索这些问题的过程就非常享受。
欢迎来聊~