百度版“Sora”,不发模型,直接落地|最前线
文|周鑫雨
编辑|苏建勋
2024年9月,大厂发布会扎堆的一个月。而厂商发布的主要内容,都指向了多模态,和对标OpenAI Sora的视频生成模型:
9月19日开幕的云栖大会,阿里云发布了通义万相AI视频生成模型;紧接着,9月24日,字节跳动的首个视频生成模型“豆包·视频生成模型”,空降在火山引擎AI创新巡展。
在快手、阿里、字节等一众互联网大厂中,百度布局通用大模型的时间最早,但对类Sora的视频生成模型的响应,却保守的多。迄今为止,百度尚未发布独立的视频生成模型,2024年1月发布的视频生成方法UniVG,仍然留在一纸论文中。
在2024年9月25日举办的百度云智大会上,百度突然发布了一项文生视频功能——没有独立模型,而是直接在迭代到4.0版本的曦灵数字人平台上,上线了文生3D数字人、文生3D视频内容的功能。
根据用户的文字指令,生成的数字人还能改变妆容、根据落地场景调整形象风格。AI生成功能的嵌入和迭代,让几小时的3D数字人生成时间,被压缩到了5分钟。
同样压缩的还有3D数字人的成本:3D超现实数字人的单价,直接从万元降到了199元。
以“落地”为导向的发布,贯穿了整场百度云智大会。可见的是,相较于一股脑发布11款AI应用的2023年云智大会,百度云2024年的命题,已经转变成了向下游“卖水”。
Scaling Law的探索仍在进行,支撑千亿、万亿参数大模型的基础设施,已经从CPU变成了以GPU为主,集群的规模也从千卡扩大到了万卡级别。
百度集团执行副总裁、百度智能云事业群总裁沈抖认为,大模型的Scaling Law将在一段时间内持续有效,很快就会有更多的十万卡集群出现。
最新的百度百舸AI异构计算平台4.0,就是针对十万卡集群的算力管理平台。一方面,百舸4.0能够将万卡任务的有效训练时长稳定在99.5%以上,另一方面,百舸4.0将万卡集群下的万亿参数MoE(混合专家架构)模型的模型算力利用率,提升了30%。
而在模型层,持续的降低价格和使用门槛,依然是百度千帆大模型3.0迭代的重点。迄今为止,文心旗舰模型的降价幅度已经到了90%,ERNIE Speed、ERNIE Lite两款主力模型则直接免费开放。
据沈抖介绍,目前文心大模型的日均调用量已经超过了7亿次,千帆平台已经开发了超过70多万个企业级应用。
在应用层,成为B端企业用户的“卖水人”,是百度云AI应用的定位。会上,除了数字人生成,针对智能客服和代码编程场景,百度云分别迭代了智能客服平台“客悦”和代码助手“文心快码”。
更新版的“客悦”已经支持语音、视频等多模态交互,将智能客服处理复杂任务的能力提升至92%,超过了行业的平均水平(80%)。
目前,代码处理是AI模型最成熟的应用场景之一,多名从业者对36氪判断,AI对代码的理解和处理能力,比长文本更优。
“企业级代码架构解释”和“企业级代码审查”能力,是“文心快码”上新的两个功能。前者可帮助用户理解原有代码,快速上手开发,而后者则可基于对项目的理解,对代码进行勘误。
百度云在明确提供基础设施的角色,而对于下游应用层而言,百度CEO李彦宏在会上再次强调,智能体是他最看好的方向:“就像互联网时代的账号,智能体门槛很低,但上限却很高。”
欢迎交流!