智谱AI张鹏:视频生成是大模型对世界理解逐渐复杂的过程

本报记者 曲忠芳 北京报道

“凡是我不能创造的,必是我还不理解的。”这是20世纪著名的物理学家理查德·费曼的名言,大意是说真正的理解往往来自能够从头开始构建一个概念或物体,并观察它是如何工作的。自今年年初OpenAI的文生视频模型Sora面市以来,大模型的功能便不再局限于文本生成,多模态——指文本、图片、视频、音频等多种模态的信息生成以及跨模态之间的融合等,越来越成为大模型厂商的“必争之地”。

近日,在智谱AI开放日活动上,智谱AI首席执行官张鹏正式发布了AI生成视频模型“清影”(Ying),即日起面向所有C端用户开放AI文生视频、图生视频能力。张鹏向《中国经营报》等媒体记者表示,费曼的方法论放在当下AI大模型领域依然适用。“从文字、图片到视频,这既是一个模态逐渐丰富的过程,也是一个大模型对世界的理解逐渐复杂、多维化的过程。”

打出“全量开放、不限量使用”策略

记者第一时间在智谱清言App内测试体验了清影功能,用手机号码注册申请后立即可以使用,这与一些大模型工具在注册申请与试用资格之间存有时间差不同。输入一段文字(即Prompt),可以选择“视频风格”“情感氛围”“运镜方式”等不同参数,等待30秒即可生成一段6秒时长的高清视频。而图生视频功能,则支持用户上传一张不超过10M大小的图片,输入描述文字,即可让图片动起来。

需要指出的是,清影的文生视频、图生视频遇高峰时可能需要排队等待1分钟,如果想要“加速”,用户可以购买加速包,加速日包、年包分别为5元、199元。

记者观察到,免费注册体验、付费订阅加速或加量,是目前大模型产品普遍采用的产品商业化运营模式。比如,在清影之前,快手于今年6月6日上线了视频生成大模型“可灵”,截至目前总申请试用人数超过百万人,其中已有30多万人获得了使用资格。记者从可灵AI官网看到,试用者可付费成为不同等级的会员,月度、年度会员分别为33元起、396元起,相比非会员,付费会员在生成视频的数量、速度、时长、运镜方式等方面享受更多的权益。

张鹏表示,清影底座的视频生成模型是CogVideoX,参考了OpenAI的Sora算法设计,同样采用的DiT架构,通过优化比前代推理速度提升了6倍。在生成式视频模型的研发中,大模型开发的经验法则Scaling Law(大意指规模越大,性能越好)继续在算法和数据两方面发挥作用。“智谱AI在模型层面探索更高效的Scaling方式,随着算法、数据不断迭代,Scaling Law将发挥更大威力。”

毫无疑问,大模型离不开大算力、大数据的支撑。张鹏透露,智谱AI生成式视频研发得到了北京市的大力支持。当前,北京市正在以海淀区为中心打造人工智能产业高地,而海淀区是智谱AI总部所在地,因此智谱AI开展大模型研发获得了产业投资、算力补贴、应用场景示范、人才等全方位的支持。与此同时,智谱AI生成式视频研发算力支持来自北京亦庄人工智能公共算力平台。除此之外,视频网站哔哩哔哩(B站)、影视公司华策影视作为合作伙伴也分别参与到清影的研发、模型共建中。

多模态成为“兵家必争之地”

“人类对一个复杂系统认知的功能是通过各脑区相互配合完成的,不仅包括文字语言,还包括视觉理解、听觉等,因此多模态的感知和理解,同认知能力的发展有非常密切的关系。”张鹏指出,智谱AI的目标定位是一家AGI(通用人工智能)公司,因此一直以为非常重视多模态技术,自2021年开始布局文生图、文生视频的模型。正如费曼所倡导的方法论,不创造一个东西,就不会理解一个东西。

记者了解到,目前全球范围内文本、图片生成视频模型赛道上已有多家企业参与竞逐,除了OpenAI的Sora之外,还有Runway的Gen系列,微软的Nuwa,Meta的Emu,谷歌的Phenaki、VideoPoet、CogVideo等,国内入局的比如智谱AI的清影、快手可灵、商汤“日日新”模型等。从记者对各家国产视频生成模型的测试体验来看,目前视频生成的内容在高清、运动特效等方面已有惊喜,但在时长、动画呈现效果等方面仍有较大的提升改进空间。

正如张鹏在活动现场坦言,清影功能的上线是智谱AI在视频生成模型研发的阶段性成果,目前刚刚起步,并不完美,还有很大的进步空间,一些问题需要阶段性去解决。现在上线的目的是让人们体验到目前较优秀的视频生成产品,而不是将产品关在实验室里。目前,智谱AI方面已收到来自产业和客户侧的需求及反馈,涉及诸如电商产品营销、影视特效等诸多领域的具体应用场景。

大模型及生成式AI从单模态向多模态发展已成为行业共识,近两年来,2022年11月底ChatGPT“出圈”、2023年3月MidJourney V5面市、2024年2月Sora亮相,分别被业内视为大模型在文本端、图像端、视频端的生成应用典型代表,由此吸引了资本界及各个行业领域的高度关注。无论是科技大厂,还是大模型独角兽,抑或学界研究机构,都成为多模态生成的积极参与者。

在前不久举行的2024世界人工智能大会(WAIC)上,腾讯集团副总裁蒋杰公开表示,大模型行业正从最初的单模态向多模态过渡,甚至即将迈入全模态的新阶段。多模态能力是大模型从认知空间走向物理世界的第一步,文本、图像、语音甚至视频的多模态对齐和融合,已经成为主流大模型发展方向,是通往人工智能的必由之路。

(编辑:吴清 审核:李正豪 校对:颜京宁)