WAIC观察丨大厂决胜无人区:大模型的确定方向与未知路径

21世纪经济报道记者白杨 上海报道过去几天,2024世界人工智能大会(WAIC)的火热程度像极了上海的天气。

据官方数据,截至7月6日下午2时,大会线下参观人数突破30万人次,同比上届增长90%,创历史新高。

自2018年创办以来,世界人工智能大会已经成为AI产业发展的风向标。而大模型无疑是整个行业近两年最核心的发展方向。

在2024WAIC上,中国工程院院士、之江实验室主任、阿里云创始人王坚表示,“今天的人工智能有别于过去的人工智能,跟过去五六十年都不一样。人工智能有一个非常长的过去,但是有一个非常短的历史,长到可以追溯到100多年以前,短到就是过去七八年GPT出来,而GPT的潜力还没有被完整探索。”

在他看来,未来十年将是非常激动人心的十年。

“只要有新的技术,一定会有新的大公司出现。如果一个新的技术出来,没有新的大公司出现,那它是不是颠覆性的技术是要打个问号的”。王坚相信,在这个时代一定会有新的大公司出来。

这也是许多人的共识。2022年底ChatGPT横空出世后,有公司开始用大模型重塑自家产品,也有人感到时不我待,投身新一轮创业,而他们有着相同的目标,就是争做大模型时代的弄潮儿。

正因如此,大模型也成为当前最具活力的产业领域。从去年激烈的百模大战,到今年层出不穷的各类落地产品,大模型的故事才刚刚开始,而WAIC,正是这场注定宏大的叙事中的一个缩影。

Scaling Law依然奏效

自OpenAI于2020年发布1750亿参数的GPT-3以来,大模型性能上限已发生天翻地覆的变化。尤其是去年大量中国企业的入局,进一步加速了大模型在中文领域的迭代速度。

在2024WAIC期间,许多大模型新品也首次亮相。比如商汤科技带来了多模态交互大模型日日新5.5,阶跃星辰则发布了Step-2万亿参数语言大模型、Step-1.5V多模态大模型、Step-1X图像生成大模型等三款新品。

谈及大模型未来的发展,阶跃星辰创始人、CEO姜大昕表示,探索AGI路径,“Scaling Law”和“多模态”是相辅相成、缺一不可的两个方向。

近年来,GPT系列模型的演进,客观上验证了Scaling Law (尺度定律)的有效性,即模型参数量决定模型能力的上限。虽然业内围绕“Scaling Law还能走多远”尚未形成共识,但姜大昕认为,参数量接下来再提高一个数量级是依然成立的。

“Scaling Law 目前依然奏效,模型性能仍在随着参数量、数据量和计算量的增加呈幂次方增长。在此发展过程中,万亿参数量已经成为一个基本的入门门槛。”他说。

与此同时,姜大昕也强调,多模态是构建世界模型的基础能力,是通向 AGI 的必经之路。“从算法角度看,世界模型的演进会分为模拟世界、探索世界、归纳世界三个阶段,而多模态是贯穿这三个阶段的基本能力”。

目前,全球科技巨头也都在积极推进多模态大模型的研发。腾讯集团副总裁蒋杰也表示,大模型行业正经历从单模态到多模态,再到全模态的演进。

“比如在文生图领域,最近效果比较好的是采用 DiT 架构的模型,它融合了早前主要用于文本生成的Transformer架构,并在图像和视频生成任务中展现出了显著的优势;在文生视频领域,视频生成正朝着更高分辨率、更长时长、更精细的方向发展,一些较好的模型已经能够生成长达数分钟高清的视频,带来了广阔的应用想象空间。”蒋杰介绍道。

但多模态大模型的发展仍存在桎梏。姜大昕指出,“目前视觉的理解模型和生成模型是分开发展的,其造成的结果就是理解模型的理解能力强而生成能力弱,或者生成模型的生成能力强而理解能力弱”。他认为,多模态大模型接下来面临的一项关键挑战,就是能否将理解和生成统一在一个模型里。

但整体而言,大模型未来的增长路径已然清晰可见。清华大学计算机系长聘副教授、面壁智能首席科学家刘知远表示,“摩尔定律揭示了集成电路可容纳晶体管数目约每隔18个月便会增加一倍的规律,在过去几十年中给半导体和互联网行业的发展带来了科学指导意义”。

在大模型时代,传统的摩尔定律已经失效,因此刘知远提出了一个新“摩尔定律”:大模型的知识密度(知识密度=模型能力 / 推理算力消耗)平均每8个月将提升一倍。

当然,新摩尔定律目前只能代表大模型过去的发展规律,未来能否按照这一规律继续发展,还有待观察。但不管怎样,可以确定的是,大模型距离性能天花板仍很遥远。

努力成为千万DAU产品

相比大模型能力的进化,今年WAIC更大的看点是大模型的落地应用。

蒋杰表示,场景应用会成为未来大模型的决胜要素。但他指出,当前大模型的落地主要集中在生产工具和提效方面,距离真正的业务创新还有一定距离,缺少杀手级的应用,不过行业的探索一直没有停下。

以腾讯为例,其内部已有接近 700 个业务场景接入了腾讯混元大模型,单日调用量近3亿次。此外,今年5月,腾讯也面向C端用户发布了拥有看、听、说等多模态交互能力的AI原生应用腾讯元宝。

事实上,今年以来,几乎所有头部大模型厂商都发布了面向C端用户的AI助手产品。金山办公助理总裁晁云曈向21世纪经济报道记者表示,目前来看,AI助手是比较适合大模型现阶段发展的产品形态。

去年11月,金山办公对外发布了AI办公助手WPS AI。相比其他独立的AI助手产品,WPS AI主要嵌套于WPS产品当中。今年WAIC期间,WPS AI也宣布升级到2.0版本,在原先的产品功能基础上,WPS AI 2.0新增了AI写作助手、AI阅读助手、AI数据助手、AI设计助手等功能。

晁云曈表示, AI很多能力要想落地,还是需要在用户应用场景里合理地嵌入AI,所以金山办公在走的路径就是尽量避免追求一键生成、一步到位,而是在用户习惯的环境里做嵌入。

此前,有多位业内专家均向记者表示,生产力工具或是大模型在C端最先成熟落地的场景。因此除了金山办公,钉钉、飞书等协同办公产品也都在大模型重塑产品能力,相对而言,这些办公产品的用户对于AI能力的接受程度以及付费意愿都比较高,这也让他们的大模型商业化路径变得清晰。

除此之外,其他大模型厂商也在摸索更多用户可能高频使用的场景。比如在2024WAIC期间,阿里巴巴达摩院发布的一站式AI视频创作平台“寻光”,是希望为用户提供视频创作工具;百川智能发布的AI健康顾问,则是希望去满足用户的医疗问诊需求。

据21世纪经济报道记者现场测试,在用户提出问询后,百川智能的AI健康顾问能够根据用户的问题持续提问,进而从更多维度去了解用户病症信息,然后再进行综合判断,给出诊断结果和用药建议。

有医疗行业人士向记者表示,目前大模型在医疗场景中的应用,要分清咨询和诊断的区别,现阶段,大模型扮演角色的仍然是建议者,而不是决策者。

京东探索研究院院长何晓冬在接受21世纪经济报道记者采访时指出,大模型的颠覆性、杀手应用,不可能从通用大模型的优化中产生,必然是技术进步与产业积累的结合。

今年,有多位头部大模型厂商人士在接受21世纪报道记者采访时,都提到了1000万DAU的指标。在他们看来,当下大模型应用仍存在非常严重的同质化,接下来各大厂商都要去寻找差异化优势,与其他产品拉开差距,然后扩大用户规模,而1000万DAU(日活用户),将是衡量一款大模型应用是否成功的关键指标。

产业场景是沃土

除了C端应用外,大模型在B端的落地也在如火如荼地进行中。

腾讯云副总裁、腾讯云智能负责人、腾讯优图实验室负责人吴运声向21世纪经济报道记者表示,大模型的打造只是起点,把技术落地到产业场景、创造价值才是目标。

对此,何晓冬也认为,通用大模型只是种子,产业场景才是沃土。

他指出,大模型的基础设施建设已经趋于完善,已经有巨大的资源投入,很快产业应用就会向大模型要实效。而大模型必须产生实际的产业价值、让产业愿意买单,才能长久地发展下去。

何晓冬还从数据角度谈到,GPT-4是30%的合成数据,GPT-5将会是 90%的合成数据。这说明能用于大模型训练的真实数据正在枯竭,而数据的富矿在于产业场景,只有让产业用上大模型、持续以数据反哺,才能支撑大模型对数据的持续需求。

因此,包括腾讯云、阿里云、京东云等在内的云厂商都在围绕大模型的产业场景积极布局。去年,各个厂商更多是围绕大模型研发提供服务,而今年,服务则不断深入业务当中。

据吴运声介绍,腾讯在大模型领域已经构建了一套全链路产品矩阵,涵盖从底层基础设施到顶层多元智能应用,包括自研通用大模型、模型开发平台、智能体开发平台,针对不同场景定制的智能应用解决方案等。

比如今年5月,为了降低大模型的使用门槛,腾讯云发布了“大模型知识引擎”、“大模型图像创作引擎”和“大模型视频创作引擎”三款PaaS工具。在2024WAIC期间,腾讯宣布已对这三款工具进行全面升级。

其中,知识引擎的多模态检索能力得到增强,支持图文互搜、以图搜图,并扩展了企业知识类型的覆盖面;图像创作引擎新增了商品背景生成、百变头像、模特换装、百变换装和线稿生图等接口;视频创作引擎则推出复杂舞蹈编排算法,用户上传一张图片,就可以让人物进行转身舞蹈。

相对于C端场景,B端用户对于大模型的应用要求会更为严格,而通用模型很难满足这些要求,所以结合行业场景进行模型精调,也是目前大模型产业落地的重要路径。

大会上,腾讯联合上海交通大学发布的《2024年AI大模型十大趋势》报告指出,算力底座、推理分析、创意生成、情绪智能、智能制造、游戏环境、移动革新、具身智能、开源共享、人机对齐等将是大模型的重要发展趋势。

报告称,从算力底座、智力增强到人机协作,大模型正在重塑人类社会,成为可依赖的"外脑"。未来,随着大模型与人机协作的深入,每个企业、每个人都有机会借助AI外脑实现自己的创意,实现智力平权,而这一变革将为社会各阶层带来了前所未有的机遇。

然而,大模型的发展仍面临诸多挑战。比如随着模型参数量越来越大,算力和数据支撑能否跟上?在落地过程中,大模型的准确性如何进一步提升,去满足更多产业核心业务的需要?以及大模型该采用怎样的商业模式,何时才能跑通?

2024WAIC已经落下帷幕,但大模型的前进脚步并未停止。展望未来,人们将满怀憧憬地期待着大模型在各个领域的深入应用,带来更多前所未有的变革与惊喜。