李彦宏:未来自然语言将成为通用编程语言,开源模型会越来越落后

4月16日上午,Create 2024百度AI开发者大会在深圳召开。百度创始人、董事长兼首席执行官李彦宏发表演讲,公布了文心一言发布一周年的成绩。

据其称,文心一言去年3月16日正式发布,截至目前用户数已经突破2亿,每天API的调用量突破2亿,服务客户数达到8.5万,利用千帆平台开发的AI原生应用数超过19万。

李彦宏还表示,有文心4.0之后,百度可以根据需要,兼顾效果、相应速度,推理成本等各种考虑,剪裁出适合各种场景的更小尺寸模型,并且支持精调和post pretrain(一种预训练的模型训练方法)。

这样通过降维剪裁出来的模型,比直接用开源模型调出来的模型,同等尺寸下,效果明显更好;同等效果下,成本明显更低。

基于这种对比效果,李彦宏放话称,“开源模型会越来越落后。”

经过百度过去一年的大模型AI原生应用开发实践,李彦宏认为,大语言模型本身并不直接创造价值,基于大模型开发出来的AI应用才能满足真实的市场需求,他顺势提出了三个相关行业趋势。

首先,未来大型的AI原生应用基本都是MoE的,这里的MoE指的是大小模型的混用,不依赖一个模型来解决所有问题。

第二是小模型。小模型推理成本低,响应速度快,在一些特定场景中,经过精调后的小模型,它的使用效果可以媲美大模型。

百度已经发布了ERNIE Speed,ERNIE Lite、ERNIE Tiny三个轻量模型,通过大模型压缩蒸馏出一个基础模型,然后再用数据去训练。这比从头开始训小模型,效果要好很多,比基于开源模型训出来的模型,效果、速度和成本表现都更好。

第三是智能体。智能体机制包括理解、规划、反思和进化,它让机器像人一样思考和行动,可以自主完成复杂任务,在环境中持续学习、实现自我迭代和自我进化。

基于这些判断,李彦宏称,大模型和生成式AI将彻底改变开发者群体,“过去开发者用代码改变世界,未来自然语言将成为通用编程语言。”

比如,基于文心大模型的智能代码助手Comate,支持100多种语言和所有IDE平台,可以推荐代码、生成代码注释、查找代码缺陷、给出优化方案,还可以解读代码库、关联私域知识生成新的代码。

官方信息显示,百度每天新增的代码中,已经有27%是由Comate自动生成的;Comate还与喜马拉雅、三菱电梯和软通动力等上万家企业合作,生成的代码采纳率达到46%。

“今天,你不会写代码,也可以做出一个应用;不用编程,也可以做出一个智能体“,李彦宏表示,未来开发应用就会像拍短视频一样简单,人人都是开发者。

在发布会上,李彦宏还介绍了百度已经推出的三款开发工具,包括:AgentBuilder、AppBuilder、ModelBuilder,它们都支持开发者打包带走、开箱即用。

其中,智能体开发工具AgentBuilder基于基础模型,可以批量生成,应用在各种各样的场景。截至目前,已经有3万多个智能体被创建、5万多名开发者和上万家企业入驻。

在AI原生应用开发工具上,百度提前封装和预置了开发AI原生应用所需的各种组件和框架,大幅降低开发门槛。最快只需三步,开发者就可以用自然语言开发出一个AI原生应用,并且能够便捷地发布、集成到各种各样的业务环境中。

各种尺寸的模型定制工具ModelBuilder则是更适合专业开发者使用的工具,“它可以根据开发者的需求定制任意尺寸的模型,并根据细分场景对模型进一步精调。”