☰

百度版“Sora”，不发模型，直接落地｜最前线

文｜周鑫雨

编辑｜苏建勋

2024年9月，大厂发布会扎堆的一个月。而厂商发布的主要内容，都指向了多模态，和对标OpenAI Sora的视频生成模型：

9月19日开幕的云栖大会，阿里云发布了通义万相AI视频生成模型；紧接着，9月24日，字节跳动的首个视频生成模型“豆包·视频生成模型”，空降在火山引擎AI创新巡展。

在快手、阿里、字节等一众互联网大厂中，百度布局通用大模型的时间最早，但对类Sora的视频生成模型的响应，却保守的多。迄今为止，百度尚未发布独立的视频生成模型，2024年1月发布的视频生成方法UniVG，仍然留在一纸论文中。

在2024年9月25日举办的百度云智大会上，百度突然发布了一项文生视频功能——没有独立模型，而是直接在迭代到4.0版本的曦灵数字人平台上，上线了文生3D数字人、文生3D视频内容的功能。

根据用户的文字指令，生成的数字人还能改变妆容、根据落地场景调整形象风格。AI生成功能的嵌入和迭代，让几小时的3D数字人生成时间，被压缩到了5分钟。

同样压缩的还有3D数字人的成本：3D超现实数字人的单价，直接从万元降到了199元。

以“落地”为导向的发布，贯穿了整场百度云智大会。可见的是，相较于一股脑发布11款AI应用的2023年云智大会，百度云2024年的命题，已经转变成了向下游“卖水”。

Scaling Law的探索仍在进行，支撑千亿、万亿参数大模型的基础设施，已经从CPU变成了以GPU为主，集群的规模也从千卡扩大到了万卡级别。

百度集团执行副总裁、百度智能云事业群总裁沈抖认为，大模型的Scaling Law将在一段时间内持续有效，很快就会有更多的十万卡集群出现。

最新的百度百舸AI异构计算平台4.0，就是针对十万卡集群的算力管理平台。一方面，百舸4.0能够将万卡任务的有效训练时长稳定在99.5%以上，另一方面，百舸4.0将万卡集群下的万亿参数MoE（混合专家架构）模型的模型算力利用率，提升了30%。

而在模型层，持续的降低价格和使用门槛，依然是百度千帆大模型3.0迭代的重点。迄今为止，文心旗舰模型的降价幅度已经到了90%，ERNIE Speed、ERNIE Lite两款主力模型则直接免费开放。

据沈抖介绍，目前文心大模型的日均调用量已经超过了7亿次，千帆平台已经开发了超过70多万个企业级应用。

在应用层，成为B端企业用户的“卖水人”，是百度云AI应用的定位。会上，除了数字人生成，针对智能客服和代码编程场景，百度云分别迭代了智能客服平台“客悦”和代码助手“文心快码”。

更新版的“客悦”已经支持语音、视频等多模态交互，将智能客服处理复杂任务的能力提升至92%，超过了行业的平均水平（80%）。

目前，代码处理是AI模型最成熟的应用场景之一，多名从业者对36氪判断，AI对代码的理解和处理能力，比长文本更优。

“企业级代码架构解释”和“企业级代码审查”能力，是“文心快码”上新的两个功能。前者可帮助用户理解原有代码，快速上手开发，而后者则可基于对项目的理解，对代码进行勘误。

百度云在明确提供基础设施的角色，而对于下游应用层而言，百度CEO李彦宏在会上再次强调，智能体是他最看好的方向：“就像互联网时代的账号，智能体门槛很低，但上限却很高。”

欢迎交流！

相关资讯