☰

智谱AI张鹏：视频生成是大模型对世界理解逐渐复杂的过程

本报记者曲忠芳北京报道

“凡是我不能创造的，必是我还不理解的。”这是20世纪著名的物理学家理查德·费曼的名言，大意是说真正的理解往往来自能够从头开始构建一个概念或物体，并观察它是如何工作的。自今年年初OpenAI的文生视频模型Sora面市以来，大模型的功能便不再局限于文本生成，多模态——指文本、图片、视频、音频等多种模态的信息生成以及跨模态之间的融合等，越来越成为大模型厂商的“必争之地”。

近日，在智谱AI开放日活动上，智谱AI首席执行官张鹏正式发布了AI生成视频模型“清影”（Ying），即日起面向所有C端用户开放AI文生视频、图生视频能力。张鹏向《中国经营报》等媒体记者表示，费曼的方法论放在当下AI大模型领域依然适用。“从文字、图片到视频，这既是一个模态逐渐丰富的过程，也是一个大模型对世界的理解逐渐复杂、多维化的过程。”

打出“全量开放、不限量使用”策略

记者第一时间在智谱清言App内测试体验了清影功能，用手机号码注册申请后立即可以使用，这与一些大模型工具在注册申请与试用资格之间存有时间差不同。输入一段文字（即Prompt），可以选择“视频风格”“情感氛围”“运镜方式”等不同参数，等待30秒即可生成一段6秒时长的高清视频。而图生视频功能，则支持用户上传一张不超过10M大小的图片，输入描述文字，即可让图片动起来。

需要指出的是，清影的文生视频、图生视频遇高峰时可能需要排队等待1分钟，如果想要“加速”，用户可以购买加速包，加速日包、年包分别为5元、199元。

记者观察到，免费注册体验、付费订阅加速或加量，是目前大模型产品普遍采用的产品商业化运营模式。比如，在清影之前，快手于今年6月6日上线了视频生成大模型“可灵”，截至目前总申请试用人数超过百万人，其中已有30多万人获得了使用资格。记者从可灵AI官网看到，试用者可付费成为不同等级的会员，月度、年度会员分别为33元起、396元起，相比非会员，付费会员在生成视频的数量、速度、时长、运镜方式等方面享受更多的权益。

张鹏表示，清影底座的视频生成模型是CogVideoX，参考了OpenAI的Sora算法设计，同样采用的DiT架构，通过优化比前代推理速度提升了6倍。在生成式视频模型的研发中，大模型开发的经验法则Scaling Law（大意指规模越大，性能越好）继续在算法和数据两方面发挥作用。“智谱AI在模型层面探索更高效的Scaling方式，随着算法、数据不断迭代，Scaling Law将发挥更大威力。”

毫无疑问，大模型离不开大算力、大数据的支撑。张鹏透露，智谱AI生成式视频研发得到了北京市的大力支持。当前，北京市正在以海淀区为中心打造人工智能产业高地，而海淀区是智谱AI总部所在地，因此智谱AI开展大模型研发获得了产业投资、算力补贴、应用场景示范、人才等全方位的支持。与此同时，智谱AI生成式视频研发算力支持来自北京亦庄人工智能公共算力平台。除此之外，视频网站哔哩哔哩（B站）、影视公司华策影视作为合作伙伴也分别参与到清影的研发、模型共建中。

多模态成为“兵家必争之地”

“人类对一个复杂系统认知的功能是通过各脑区相互配合完成的，不仅包括文字语言，还包括视觉理解、听觉等，因此多模态的感知和理解，同认知能力的发展有非常密切的关系。”张鹏指出，智谱AI的目标定位是一家AGI（通用人工智能）公司，因此一直以为非常重视多模态技术，自2021年开始布局文生图、文生视频的模型。正如费曼所倡导的方法论，不创造一个东西，就不会理解一个东西。

记者了解到，目前全球范围内文本、图片生成视频模型赛道上已有多家企业参与竞逐，除了OpenAI的Sora之外，还有Runway的Gen系列，微软的Nuwa，Meta的Emu，谷歌的Phenaki、VideoPoet、CogVideo等，国内入局的比如智谱AI的清影、快手可灵、商汤“日日新”模型等。从记者对各家国产视频生成模型的测试体验来看，目前视频生成的内容在高清、运动特效等方面已有惊喜，但在时长、动画呈现效果等方面仍有较大的提升改进空间。

正如张鹏在活动现场坦言，清影功能的上线是智谱AI在视频生成模型研发的阶段性成果，目前刚刚起步，并不完美，还有很大的进步空间，一些问题需要阶段性去解决。现在上线的目的是让人们体验到目前较优秀的视频生成产品，而不是将产品关在实验室里。目前，智谱AI方面已收到来自产业和客户侧的需求及反馈，涉及诸如电商产品营销、影视特效等诸多领域的具体应用场景。

大模型及生成式AI从单模态向多模态发展已成为行业共识，近两年来，2022年11月底ChatGPT“出圈”、2023年3月MidJourney V5面市、2024年2月Sora亮相，分别被业内视为大模型在文本端、图像端、视频端的生成应用典型代表，由此吸引了资本界及各个行业领域的高度关注。无论是科技大厂，还是大模型独角兽，抑或学界研究机构，都成为多模态生成的积极参与者。

在前不久举行的2024世界人工智能大会（WAIC）上，腾讯集团副总裁蒋杰公开表示，大模型行业正从最初的单模态向多模态过渡，甚至即将迈入全模态的新阶段。多模态能力是大模型从认知空间走向物理世界的第一步，文本、图像、语音甚至视频的多模态对齐和融合，已经成为主流大模型发展方向，是通往人工智能的必由之路。

（编辑：吴清审核：李正豪校对：颜京宁）

智谱AI张鹏：视频生成是大模型对世界理解逐渐复杂的过程

相关资讯