行业福音?抢饭碗?点点按钮就能画中割的AI动画补帧有了新进展

作者 / 红豆饼 编辑 / Pel 排版 / 红豆饼

“ToonCrafter达到了不错的稳定性和可控性……尤其是能够处理一些复杂运动和空间遮挡,参考草图和自动上色的功能也让人看到了其真正进入动画中期制作流程的‘曙光’。”

一直以来,影视动画制作产业属于劳动密集型产业,尤其在中期生产环节需要投入较高的劳动力成本。

特别对二维动画而言,中间画的绘制环节是制约效率的重要问题。

讲述动画制作现场的动画《白箱》

中间画,日文叫做“中割”,也就是连接原画和原画之间的画,需要按照角色的标准造型、规定的动作范围、张数以及运动规律进行绘制。中间画的绘制难度相比原画来说更低,但如果要求动画足够流畅,就需要足够多的中间画来润滑整个画面。一般来说,一部24分钟的电视动画,大概需要3000-4000张中间画。

如今正处在风口的生成式AI技术,已经能在一定程度上完成特定影像创作的产业需求。(见我们此前的报道:)然而,对于二维动画补全中间画的需求,生成式AI却一度遭遇尴尬境地。

Runway、Pika、Sora等AI模型的产物主要都是接近实拍和CG动画的高保真影像,运用于二维动画补帧时,运动主体却往往会出现明显的模糊和形变,带来陌生怪异的观感。这些无法稳定控制质量的中间画,对动画中期流程是不可用的状态。

辉夜大小姐想让我告白第三季第五集ED自动补帧后的效果

而就在2024年5月底,二维动画补帧似乎有了新方案。

香港中文大学、香港城市大学和腾讯AI LAB联合发布的最新生成式动画插值模型ToonCrafter,是针对单线平涂式二维动画中间帧自动生成的创新框架。

论文链接:https://arxiv.org/pdf/2405.17933

开源链接:https://github.com/ToonCrafter/ToonCrafter

该团队在YouTube上传的效果展示视频让网友评论:

ToonCrafter的表现效果究竟如何?能否真正高效稳定地绘制中间画?还有哪些局限?让二维动画人“苦不堪言”的人力中割时代要结束了吗?本文将对这一模型的技术路线、生成效果做一定的概览。

01

是什么——生成式AI如何成为中割动画师

补帧这项技术也叫插帧、帧插值,是指原始视频的两个相邻帧之间合成多个帧。以前的AI补帧往往指的是基于卷积神经网络(Convolutional Neural Networks,CNN)、循环神经网络(Recurrent Neural Network, RNN)等深度学习模型的视频插帧方法。简而言之,即通过学习视频中的时空特征等内容生成逼真的插值帧。

生成式AI的发展为补帧技术带来了新的可能性。扩散模型的出现使得人们可以通过大规模的数据集训练文本到视频(T2V,Text-to-Video)模型,此前OpenAI一经发布便火爆全球的Sora便是此类模型的代表。

随后又出现了利用扩散模型为指定图像生成动态的模型,其主要原理是在T2V扩散模型的基础上,将静态图像和文字提示词等内容融入生成过程中,为开放域图像添加动画效果,并在过程中尝试保持其图像的原始外观。

香港中文大学、腾讯AI LAB和北京大学团队联合研发的DynamiCrafter模型就是一个例子,它也是ToonCrafter的前身。

被媒体称为“剑指Sora”的它能够处理几乎所有类型的图像,只要给定一幅静止图像和相关的文字指令,就可以生成一个逼真的动态视频,从样例来看,视频继承了图像的大部分视觉内容,并展示了隐含的和自然的动态。

DynamiCrafter生成效果图

论文链接: https://arxiv.org/pdf/2310.12190.pdf

项目地址: https://doubiiu.github.io/projects/DynamiCrafter

试用链接:https://huggingface.co/spaces/Doubiiu/DynamiCrafter

虽然生成的效果不错,但这类T2V模型仍然无法很好地直接运用于二维动画,原因在于:

首先,以上模型主要运用于真人影像等高保真影像,和动画特别是单线平涂的商业二维动画内容本质上有区别。

ToonCrafter团队认为,动画影像相比实拍最大的特殊性在于帧与帧之间的间离(frame “sparsity”)和纹理的丰富性(texture richness)。由于每一帧独立绘制,动画帧彼此之间的关系更“稀疏”,并有更多无纹理大色块,这让其所需要的数据集和模型生成路径也有所不同。在使用前述模型生成动画时,可能会意外得到真人内容。

生成内容多少有点恐怖谷。

其次,模型生成过程中的高度压缩会导致细节丢失,这在高对比度、强调轮廓、没有动态模糊的动画里更致命。

最后,生成结果较为随机,可控性差。通过单张图像与较为抽象的文字描述组合生成的内容是一种随机的艺术,其应用过程类似“打一颗子弹画一个靶”,但在本就有靶存在时却难以命中。

ToonCrafter在DynamiCrafter模型的基础上进行了改进,在生成技术的框架内,基于此前对真人视频进行自动补帧的插值模型向动画生成方向进行一定的调整,试图通过矫正学习解决目前存在的种种问题。

ToonCrafter主要由三种功能技术组成:动画校正学习、解码中的细节注入和传播以及基于草图的可控生成。

动画校正学习是为弥合动画与实拍的域间差距而引入的策略,通过构建相应的动画数据集,并且精心分配原始数据和调整数据,将现有的视频生成先验模型适应于动画域。这样既保留了真人视频的生成基础,又克服了域间差距的问题。

此外,ToonCrafter设计了一种基于双参考的3D解码器(dualreference-based 3D decoder),用于补偿由于高度压缩的潜在空间带来的细节丢失问题。该解码器利用跨注意力机制在浅层解码层中注入输入图像的细节信息,并在深层解码层中采用残差学习,确保插值结果中的细节得以保留。

ToonCrafter还设计了一个灵活的草图编码器,使用户可以通过输入稀疏的草图引导对生成的结果进行交互式控制。该编码器独立于帧,可以处理具有稀疏或密集运动结构的插值任务。简单来说,就是可以上传自己的线稿视频,让AI参考运动规律生成中间画。

02

怎么样——ToonCrafter的生成效果

首先直观地从官网展示的所有效果来看,ToonCrafter在单线平涂的二维动画中,相比于此前一些其他的模型,生成画面效果整体更加稳定,生成的运动较为自然。

ToonCrafter模型的生成方式有多种,同时也可以应用到多种领域。

在二维动画补帧方面,只要输入两张静态图片作为起始帧和结束帧,就可以得到相应的生成视频。这两张图片可以是简单的素描草图,也可以是已经上色完成的图片。

素描动画生成应用

彩色动画生成应用

在上文提到输入两张静态照片的基础上,还可以通过输入一些稀疏草图引导生成视频。

输入四张辅助稀疏草图的情况

输入三张辅助稀疏草图的情况

输入两张辅助稀疏草图的情况

输入一张辅助稀疏草图的情况

可以看到,在输入数量不等的稀疏辅助草图的情况下都能得到较好的生成效果。

同时,ToonCrafter也提供基于草图参考进行上色的功能,无论是基于单张图像生成视频并且上色,还是基于双张图像生成视频并且上色,都有不错的稳定性和可适用性。

基于单张图像生成视频并且上色

基于双张图像生成视频并且上色

在进行视频内容生成的同时,团队通过对比此前同领域的其他模型,对模型得到的训练结果进行了定量、定性等角度的评估。

定量方面,团队用弗雷歇视频距离(Fréchet Video Distance ,FVD)以及内核视频距离(Kernel Video Distance,KVD)这两种指标评估生成视频的质量。并用学习感知图像块相似度(Learned Perceptual Image Patch Similarity, LPIPS)测量其与真实视频的感知相似度。

为了评估生成的视频帧中语义的正确性,通过计算 CLIP之间的余弦相似度得到生成视频和文本之间的相似度,并采用累积概率模糊检测(cumulative probability blur detection,CPBD)来评估清晰度。

结果是ToonCrafter在多个指标上,相比于其他的插值模型赢得了更高的评估分数。

定性方面,团队也对运动质量 (M.Q.)、时间连贯性 (T.C.) 和帧保真度 (F.F.) 偏好率进行了用户研究,得到的反应均高于同领域的其他竞争对手。

此外,团队还通过对比其他模型效果,对ToonCrafter在动画校正学习效果、生成内容稳定性和基于稀疏草图指导的可控性方面的性能进行了验证。

在动画校正学习方面,不同于下面第一张图中的闪现出真人的面容,ToonCrafter生成的人脸面容是既保持了动画风格,形体也更加稳定。

而在生成相对静止的镜头时,运动主体、运动模糊和运动主体以外的其他背景的抖动明显少于其他几个模型。

在使用稀疏草图生成中间画时,通过插入中间一帧的草图进行辅助之后,生成内容也更加可控。

03

结语——二维动画创作的新纪元到来了吗?

总的来说,ToonCrafter达到了不错的稳定性和可控性,相对此前的同类模型有更好的表现,尤其是能够处理一些复杂运动和空间遮挡,参考草图和自动上色的功能也让人看到了其真正进入动画中期制作流程的“曙光”。

但同时,一些AI生成视频的通病仍然存在。例如无法理解画面中物体的具体性质,只是扩散推理生成了一种可能的运动方式。比如下图中,黑色部分应该是飞机的刚体,不能随风摇摆。

由于ToonCrafter模型建立在开源DynamiCrafter插值扩散模型的基础上,而DynamiCrafter本身的优势生成方向是接近现实的运动生成,因此尽管ToonCrafter在模型的基础上做了一定的修改,但在生成的二维动画中偶尔会呈现出一种三渲二的质感。

同样,在实际测试中,在没有草图辅助的情况下,模型可能无法正确理解画面中的大幅运动动作。实际上当物体在画面中出现或消失时,该模型可能很难产生令人信服的过渡运动。

官方测试中多为小幅运动,案例很美好,但经过一些网友的测试,明显可以看到动作幅度一大,模型就容易发生混乱。如果想要获取更好的中间帧生成结果,还是需要结合一定数量的稀疏草图进行生成引导。

ToonCrafter的技术路径被寄予厚望,但轻言颠覆行业或“新纪元到来”似乎还有些草率,当使用到实际的动画生产中,其“性价比”仍然需要进一步评估,更不用说训练数据集带来侵犯动画公司版权的隐患。

在我们看来,在其法律风险、稳定程度和返修成本均达到项目可接受的条件下,AI能否实际处理占商业二维动画最主要部分的“日常卡”,将成为“AI中割”进入动画产业最重要的标志。

— 点击图片阅读更多精彩内容 —