【深度】百度李彦宏炮轰大模型“打榜”乱象:登上榜单不代表没差距

如何看待大模型之间的差距和“打榜”乱象?如何衡量文心大模型的能力?百度为什么一直强调智能体?9月11日,一则百度内部讲话稿流出,百度创始人、董事长兼CEO李彦宏在回答提问时就业界对大模型的认知误区和文心大模型发展方向等问题作了解答。

对于大模型之间的竞争,李彦宏给出了自己的看法:大模型的天花板很高,现在距离理想情况还相差非常远,所以模型要不断快速迭代、更新和升级;需要能几年、十几年如一日地投入,不断满足用户需求,同时降本增效。

《财中社》了解到,李彦宏上述内部讲话稿以问答形式展开,系和百度内部员工交流内容的记录。在讲话中,李彦宏还对大模型行业存在的“刷榜”“打榜”乱象进行了炮轰:每一个新模型发布时,肯定都想说自己有多好,每次都去跟GPT-4做比较,拿测试集或者弄一些榜单,说我的得分已经跟它差不多了,甚至某些单项上得分已经超过它了,但这并不能证明这些新发的模型跟OpenAl这种领先的模型相比,就已经没有那么大的差距了。

“每一个想证明自己能力的模型都会去‘打榜’,打榜时他就要猜别人到底在测什么、哪些题我用什么样的技巧就能做对,所以从榜单或者测试集上看,你觉得能力已经很接近了,但到实际应用中还是有明显差距的。”李彦宏进一步阐释称。

李彦宏表示,当前,大家有一种印象,认为模型之间的能力差别已经比较小了,其实真不是这样。“在实际使用过程当中,我不允许我们的技术人员去打榜。真正衡量文心大模型能力的是,你在具体应用场景中到底有没有能够满足用户的需求,有没有能够产生价值的增益,这是我们真正在乎的。”

“模型之间的差距是多维度的,一个维度是能力方面,不管是理解能力、生成能力、逻辑推理能力还是记忆能力等这些基本能力上的差距。”李彦宏进一步表示,另一个维度是成本方面,想具备这个能力或者想回答这些问题,付出的成本是多少?“有些模型可能推理速度很慢,虽然也达到了同样的效果,但实际上体验还是不如先进的模型。”

对于大模型之间的能力壁垒,李彦宏提醒,我们需要看到,一方面模型能力之间还有比较明显的差距,另外一方面天花板很高,今天做到的跟实际想要做到的、跟理想状态还差得非常远,所以模型还需要不断快速地去迭代、去更新、去升级。

据李彦宏判断,不同模型之间的差距不是越来越小,而是会越来越大,只是他们不知道真实需求的时候,只去做测试集的题可能觉得差不多了。需要持续不断地几年甚至十几年如一日往这个方向上去投入,越来越能够满足用户需求、满足场景、满足提升效率或者说降低成本等的需求。

在大模型行业竞争方面,业内流行“领先12个月或者落后18个月”的判断,李彦宏也并不认同,并认为没有那么重要。“每个公司都处在完全竞争的市场环境中,你不管做什么方向都有很多竞争对手。如果能永远保证领先对手12-18个月,那是天下无敌的,不要觉得12-18个月是很短的时间,哪怕能保证永远领先竞争对手6个月,那就赢了。你的市场份额可能是70%,而对手可能仅为20%甚至10%的份额。”

对于开源模型是否正在缩小与闭源模型差距的话题,李彦宏作为闭源大模型的坚定支持者也表达了自己的看法。在李彦宏看来,一个模型除了能力或效果之外还要看效率,效率上开源模型是不行的。“闭源模型准确地讲应该叫商业模型,商业化的模型是无数个用户或者说客户在共享同样的资源,在分摊研发成本、分摊推理用的机器资源和GPU。”

“在大模型时代之前,大家习惯了开源意味着免费、意味着成本低。”李彦宏以Linux为例称,由于Linux是开源的,所有程序员都可以看到代码,哪儿做的不好可以去更新,大家众人拾柴火焰高,在巨人的肩膀上可以不断地进步。“但是这些东西在大模型时代都不成立,大模型时代大家经常讲的是GPU有多贵,算力是决定大模型成败的一个关键因素。”

在其看来,开源模型不会送算力,还得自己买设备,无法实现算力的高效利用。“开源模型解决不了这个问题。”

在内部讲话中,李彦宏也结合AI应用的演进方式,回应了“百度为什么强调智能体”的问题。

“为什么我们这么强调智能体?因为智能体的门槛确实很低。”李彦宏表示,智能体提供了一个非常直接、非常高效、非常简单的方式,在模型之上构建智能体是相当方便的,这也是为什么今天每周都有上万个新的智能体在文心平台上被创造出来。

在大模型发展演进过程中,百度如何确立竞争优势?李彦宏对此回应称,我们已经看到了智能体趋势,也有比较好的先决条件,除了模型本身的能力比较强大之外,有很好的分发通路。“百度的APP,尤其是百度搜索一天有数以亿计的人在用,用户主动向我们表达了需求。哪一个智能体能更好地去回答用户问题,去满足这些需求,这是一个自然匹配的过程,所以我们是最能够帮助开发者分发智能体的。”