AIGC的下一站:期待、警惕充斥着AI剪辑师的世界

上月底,名为“chaindrop”的 Reddit 用户,在 r/StableDiffusion subreddit 上分享了一个由人工智能生成的视频,在业内引起了不小的争议。

视频中,一个由 AI 生成的丑陋畸形的 “威尔·史密斯”,以一种可怕的热情将一把意大利面条铲进嘴里。这一 “地狱般” 的视频迅速传播到其他形式的社交媒体,数字媒体和广播公司 Vice 表示该视频将 “伴随你的余生”,美国娱乐网刊 The A.V. Club 称其为 “AI 开发的自然终点”。仅在 Twitter 上,这一视频的观看次数就超过了 800 万。

下面这段动图是其中的部分内容。每一帧都以不同的角度展示了模拟的威尔·史密斯狼吞虎咽地吃着意大利面的场景。

自从威尔·史密斯吃意大利面的视频疯狂传播后,互联网上就出现了斯嘉丽·约翰逊和乔·拜登吃意大利面等后续报道,甚至还有史密斯吃肉丸子的视频。尽管这些可怕的视频正在成为互联网中完美且 “恐惧” 模因素材,但就像之前的文生图以及每一种 AI 生成的内容一样,文生视频(Text2Video)正加速走进我们的生活。

“威尔·史密斯吃意大利面”的视频出自开源 AI 工具 ModelScope 模型,创建这一视频的工作流程相当简单:仅需给出“Will Smith eating spaghetti”的提示,并以每秒 24 帧(FPS)的速度生成。

据了解,ModelScope 是一种 “文生视频” 扩散模型,经过训练可以通过分析收集到 LAION5B、ImageNet 和 Webvid 数据集中的数百万张图像和数千个视频,根据用户的提示来创建新视频。这包括来自 Shutterstock 的视频,因此在其输出上有幽灵般的 “Shutterstock” 水印,就像视频中所展示的那样。

目前,在文生视频这一赛道,国内外大厂和研究机构也在悄然竞争。早在去年 9 月 29 日,Meta 就发布了 Make-A-Video,在最初的公告页面上,Meta 展示了基于文本生成的示例视频,包括 “一对年轻夫妇在大雨中行走” 和 “一只正在画肖像的泰迪熊”。

同时,Make-A-Video 具备拍摄静态源图像并将其动画化的能力。例如,一张海龟的静止照片,一旦通过 AI 模型处理,就可以看起来像是在游泳。

仅仅在 Meta 推出 Make-A-Video 不到一周后,Google 便发布了 Imagen Video,它能够根据书面提示以每秒 24 帧的速度生成 1280×768 的高清晰视频。Imagen Video 包括几个显著的风格能力,例如根据著名画家的作品(如梵高的画作)生成视频,生成 3D 旋转对象同时保留对象结构,以及渲染文本多种动画风格。Google 希望,这一视频合成模型能够 “显著降低高质量内容生成的难度”。

随后,Google 推出了另一个文生视频模型 Phenaki。区别于 Imagen Video 主打视频品质,Phenaki 主要挑战视频长度。它可以根据详细提示创建更长的视频,实现 “有故事、有长度”。它生成任意时间长度的视频能力来源于其新编解码器 CViVIT——该模型建立在 Google 早期文生图系统 Imagen 中磨练的技术之上,但在其中加入了一堆新组件,从而可以将静态帧转换为流畅的运动。

今年 2 月 6 日,Stable Diffusion 背后的原始创业公司 Runway 推出了视频生成 AI——Gen-1 模型,可以通过使用文本提示或者参考图像所指定的任意风格,将现有视频转换为新视频,改变其视觉风格。3 月 21 日,Runway 发布 Gen-2 模型,专注于从零开始生成视频,通过将图像或文本提示的构图和样式应用于源视频的结构(视频到视频),或者,只使用文字(文生视频)。

Make-A-Video 等文生视频模型背后的关键技术——以及为什么它比一些专家预期得更早到来——是因为它踩在了“文生图”技术巨人的肩膀上。

据 Meta 介绍,他们不是在标记的视频数据(例如,描述的动作的字幕描述)上训练 Make-A-Video 模型,而是采用图像合成数据(用字幕训练的静止图像)并应用未标记的视频训练数据,以便模型学习文本或图像提示在时间和空间中可能存在的位置的感觉。然后,它可以预测图像之后会发生什么,并在短时间内显示动态场景。

从 Stable Diffusion 到 Midjourney,再到 DALL·E-2,文生图模型已经变得非常流行,并被更广泛的受众使用。随着对多模态模型的不断拓展以及生成式 AI 的研究,业内近期的工作试图通过在视频领域重用文本到图像的扩散模型,将其成功扩展到文本到视频的生成和编辑任务中,使得用户能够仅仅给出提示便能得到想要的完整视频。

早期的文生图方法依赖于基于模板的生成和特征匹配等方法。然而,这些方法生成逼真和多样化图像的能力有限。在 GAN 获得成功之后,还提出了其他几种基于深度学习的文生图方法。其中包括 StackGAN、AttnGAN 和 MirrorGAN,它们通过引入新的架构和增强机制进一步提高了图像质量和多样性。

后来,随着 Transformer 的进步,出现了新的文生图方法。例如,DALL·E-2 是一个 120 亿参数的变换器模型:首先,它生成图像令牌,然后将其与文本令牌组合,用于自回归模型的联合训练。之后,Parti 提出了一种生成具有多个对象的内容丰富的图像的方法。Make-a-Scene 则通过文生图生成的分割掩码实现控制机制。现在的方法建立在扩散模型的基础上,从而将文生图的合成质量提升到一个新的水平。GLIDE 通过添加无分类器引导改进了 DALL·E。后来,DALL·E-2 利用了对比模型 CLIP:通过扩散过程,从 CLIP 文本编码到图像编码的映射,以及获得 CLIP 解码器……

这些模型能够生成具有高质量的图像,因此研究者将目光对准了开发能够生成视频的文生图模型。然而,文生视频现在还是一个相对较新的研究方向。现有方法尝试利用自回归变换器和扩散过程进行生成。

例如,NUWA 引入了一个 3D 变换器编码器-解码器框架,支持文本到图像和文本到视频的生成。Phenaki 引入了一个双向掩蔽变换器和因果关注机制,允许从文本提示序列生成任意长度的视频;CogVideo 则通过使用多帧速率分层训练策略来调整 CogView 2 文生图模型,以更好地对齐文本和视频剪辑;VDM 则联合训练图像和视频数据自然地扩展了文生图扩散模型。

前面展示的 Imagen Video 构建了一系列视频扩散模型,并利用空间和时间超分辨率模型生成高分辨率时间一致性视频。Make-A-Video 在文本到图像合成模型的基础上,以无监督的方式利用了视频数据。Gen-1 则是扩展了 Stable Diffusion 并提出了一种基于所需输出的视觉或文本描述的结构和内容引导的视频编辑方法。

如今,越来越多的文生视频模型不断迭代,我们可以看到,2023 年似乎将要成为 “文生视频” 的一年。

尽管复用了文生图的技术与训练集,但在视频领域应用扩散模型并不简单,尤其是由于它们的概率生成过程,很难确保时间一致性。即主要主体往往在帧与帧之间看起来略有不同,背景也不一致,这使得完成的视频看起来一切都在不断运动,缺乏真实感。同时,大多数方法都需要大量的标记数据并进行大量的训练,这是极其昂贵并难以负担的。

近日,由 Picsart AI Resarch(PAIR)团队介绍的一种新颖的零样本的文本到视频生成任务,提出了一种低成本的方法,通过利用现有的文本到图像合成方法(如 Stable Diffusion),将其应用于视频领域。该研究主要进行了两个关键修改:一是为生成帧的潜在代码添加动态运动信息,以保持全局场景和背景时间的一致性;二是使用新的跨帧注意力机制,对每个帧在第一帧的关注,重新编程帧级自注意力,以保持前景对象的上下文、外观和身份。

图|Text2Video-Zero使用(i)文本提示(见第1、2行)、(ii)结合姿势或边缘指导的提示(见右下角)和(iii)视频指令-Pix2Pix,即指令引导视频编辑(见左下角),实现零样本视频生成。结果在时间上是一致的,并严格遵循指导和文本提示。

这个方法的意义在于它具有低开销,同时能生成高质量且相当一致的视频。此外,这种方法不仅适用于文本到视频合成,还适用于其他任务,如条件和内容专用视频生成,以及视频指导下的图像到图像翻译。

实验证明,这种方法在性能上可与最近的方法相媲美,甚至在某些情况下优于它们,尽管它没有在额外的视频数据上进行训练。这项技术可以用于创作动画、广告和短片,节省成本和时间。此外,它还可以在教育领域提供可视化材料,使学习变得更加生动有趣。

然而,随着不断的技术迭代,这些文生视频 AI 模型将变得更加精确、逼真和可控。就像是恐怖的 “史密斯吃意大利面” 视频一样,这些工具很可能被用来生成虚假、仇恨、露骨或有害的内容,信任与安全等问题也逐渐涌现。

谷歌称,Google Imagen Video 的训练数据来自公开可用的 LAION-400M 图像文本数据集和 “1400 万个视频文本对和 6000 万个图像文本对”。尽管它已经接受了谷歌过滤的 “有问题的数据” 的训练,但仍然可能包含色情和暴力内容——以及社会刻板印象和文化偏见。

Meta 也承认,按需制作逼真的视频会带来一定的社会危害。在公告页面的底部,Meta 表示,所有来自 Make-A-Video 的人工智能生成的视频内容都包含一个水印,以 “帮助确保观众知道视频是用人工智能生成的,而不是捕获的视频”。但是,竞争性的开源文生视频模型可能会随之而来,这可能会使 Meta 的水印保护变得无关紧要。

美国麻省理工学院人工智能教授菲利普·伊索拉就表示,如果看到高分辨率的视频,人们很可能会相信它。也有专家指出,随着人工智能语音匹配的出现,以及逐渐拥有改变和创建几乎触手可及的逼真视频的能力,伪造公众人物和社会大众的言行可能会造成不可估量的伤害。但是,“潘多拉的魔盒已经打开”,作为生成式 AI 的下一站,文生视频的技术需要不断改进,与此同时,依然需要警惕安全与伦理风险。