AIGC行业报告:从文生图到文生视频,技术框架与商业化

(报告出品方/作者:国海证券,陈梦竹、尹芮)

底层模型技术框架梳理

文生图:基于文本生成图像,Stable Diffusion开源后迎来快速发展

文生图(Text-to-Image)是基于文本通过生成式AI生成图像的模式。近3年时间,文生图的技术已实现大幅的进步,海外的Stable Diffusion、Midjourney已经能够提供较高质量的图像,国内的万兴科技的万兴爱画、百度的文心·一格也投入商用。文本生成图像的底层模型可以分为 GAN、扩散模型、自回归模型三类。目前行业内的明星模型主要基于扩散模型。

文生视频:与文生图底层技术一致,自回归和扩散模型为主流

文生视频(Text-to-Video)是基于文本通过生成式AI生成视频的模式。随着文生图技术的精进与成熟,对于文生视频的技术的发展和关注逐渐演变及增加,近3年时间,以Runway为代表的文生视频公司在不断涌现,互联网行业的巨头,比如谷歌、Meta、微软,同样投入人员和精力参与其中,国内目前文生视频技术还在初期发展阶段,目前魔搭社区(Model Scope)里的开源模型ZeroScope表现亮眼。文本生成视频模型的发展经历三个阶段:图像拼接生成阶段、GAN/VAE/Flow-Based生成阶段、自回归和扩散模型阶段。

GAN:通过生成器和判别器对抗训练提升图像生成能力

GANs(GAN,Generative Adversarial Networks),生成对抗网络是扩散模型前的主流图像生成模型,通过生成器和判别器进行对抗训练来提升模型的图像生成能力和图像鉴别能力,使得生成式网络的数据趋近真实数据,从而图像趋近真实图像。

自回归模型:采用Transformer结构中的自注意力机制

自回归模型(Auto-regressive Model)采用Transformer进行自回归图像生成。Transformer整体主要分为Encoder和Decoder两大部分,能够模拟像素和高级属性(纹理、语义和比例)之间的空间关系,利用多头自注意力机制进行编码和解码。采用该架构模型的文生图通常将文本和图像分别转化成tokens序列,然后利用生成式的 Transformer 架构从文本序列(和可选图像序列)中预测图像序列,最后使用图像生成技术(VAE、GAN等)对图像序列进行解码,得到最终生成图像。

扩散模型:当前主流路径,通过添加噪声和反向降噪推断生成图像

扩散模型(Diffusion Model)是通过定义一个扩散步骤的马尔可夫链,通过连续向数据添加随机噪声,直到得到一个纯高斯噪声数据,然后再学习逆扩散的过程,经过反向降噪推断来生成图像,通过系统地扰动数据中的分布,再恢复数据分布,逐步优化过程。

CLIP:实现文本和图像特征提取和映射,训练效果依赖大规模数据集

CLIP(Contrastive Language-image Pre-training)是基于对比学习的文本-图像跨模态预训练模型,由文本编码器(Text Encoder)和图像编码器(Image Encoder)组成,编码器分别对文本和图像进行特征提取,将文本和图像映射到同一表示空间,通过文本-图像对的相似度和差异度计算来训练模型,从标签文本创建数据集分类器,从而能够根据给定的文本生成符合描述的图像。

商业化模式及成本拆分

平均来看自回归模型成本最高,生成视频成本远高于生成图片

但在实际模型应用中,成本不仅取决于参数量大小,也取决于训练时间和用户规模。前期训练阶段,若对模型训练时间没有要求,可以通过延长训练时间降低GPU成本;若对训练时间要求较短,则需要布局更多芯片提高训练速度。上线阶段,如果用户体量很大,比如OpenAI和Midjourney规模用户体量,线上运营推理的成本可能占到整体成本80-90%,训练阶段成本只占10-20%。

人眼看到的视频是透过一连串的静态影像连续快速播放的结果,由于每一张静态画面的差异很小,因此连续快速播放时,一张张快速闪过的静态画 面在人眼视网膜上产生“视觉暂留”现象,原本静态的图像仿佛连贯运动了起来。

通常来说,人看到视频是连贯的需要帧率为每秒24帧以上,电影放映的标准也是每秒24帧以上。如果文生图一次性消耗的算力是一个单元,文生视频一次产生消耗约24个单元。实际应用可能是小于24,但不会小特别多,并且很有可能大于24,因为文生视频不仅仅是简单的把图片快速播放起来,还需要内容具备多维性和多元性。目前主流文生视频模型生成视频长度仅支持2秒~4秒。

文生图领域整体创业门槛低于大语言模型,商业模式仍存疑问

模型层看:图像生成领域已有生成质量较高的开源预训练模型Stable Diffusion,且SD具有较为丰富的开发者生态,有许多插件供选择。创业公司可基于Stable Diffusion基础版本进行进一步调优和个性化数据训练,Stable Diffusion最新发布的开源模型SDXL1.0采用更大参数量级进一步提升了生成图像质量。例如初创公司⽆界 AI 便是国内最早基于 SD 模型推出 AI 绘画⼯具的平台之⼀。

成本端看:从主流模型参数规模看,文生图参数量级多在1-10B之间,而通用大模型入门级门槛达到了70B,文生图整体参数量级较小,成本远低于通用大模型。通过调研文生图初创公司,实际小团队利用开源模型,初期在用户不到1万情况下甚至无需购买A100,通过购买RTX3040系列、IBS3060(5000~1w/张)也可以启动。用户1万左右的文生图公司,生成单张图片的成本在0.1元左右。

文生图领域虽然创业门槛低,但商业模式仍存疑问。但国内C端用户付费意愿偏低,B端则需要和场景强相关,会有较多定制化的场景,要针对不同客户的产品需求去打造相应的图片生成的引擎,对工程化能力有很高的要求,长期看大公司可能具备更强的场景和工程化能力。以无界AI为例,其用户量接 近300万,C端付费率约20%,营收主要来源于B端客户。

文生图代表模型及应用

Meta:公布基于自回归的模型CM3Leon,生成质量媲美主流扩散模型

7月16日,Meta在官网公布CM3leon,是首个使用纯文本语言模型配方改编和训练而成的多模态模型,使用了30亿文本token,并经历了大规模检索增强预训练和随后的多任务监督微调(SFT)阶段。

Midjourney:基于扩散模型的文生图龙头,用户规模超千万

Midjourney 是AI基于文字生成图像的工具,由David Holz创立于2021年。Midjourney以拥有充沛流量的Discord为载体,实现低成本获客和低成本营销,在此中拥有超过1000万人的社区,不到一年完成了1亿美元的营收,但至今未融资。Midjourney的模型是闭源的,参考CLIP及Diffusion开源模型的基础上抓取公开数据进行训练。

Stability AI:发布Stable Diffusion开源模型

Stable Diffusion是Stability AI下的一款基于生成式AI的文本生成图像的模型,于2022年8月首次推出。2022年10月Stability AI获得了由全球风险投资公司 Lightspeed Venture Partners和Coatue Management领投的1.01亿美元融资,估值突破10亿美元,是AI绘画领域的第一家“独角兽”。

Clipdrop被Stability AI收购,融入多项AI功能图像处理能力优秀,数据显著增长

公司简介:Clipdrop是Init ML公司旗下的AI图像编辑和生成应用。该应用包含超过10种图像处理工具,也加入了AI智能生成图片功能。母公司Init ML于2020年创立于法国,于2023年3月被AI图像生成模型Stable Diffusion的母公司Stability.AI收购。2022年6月,Stability.AI发布SDXL 0.9,表示其是“Stable Diffusion文本-图像模型套件”的最先进开发版本。在收购Clipdrop后,SDXL 0.9功能应用于Clipdrop中。2023年7月26日,Stability.AI发布SDXL 1.0,进一步提升Clipdrop性能。其后数据出现明显增长,2023年7月网站访问量接近1500万。

Adobe Firefly:与Adobe旗下图像编辑软件结合,具备较强可编辑性

Firefly是Adobe的一款基于生成式AI的工具,能够通过100多种语言,使用简单的文字建立影像、生成填色、对文字套用样式和效果、生成式重新上色、3D转换为影像、延展影像等。目前的 Firefly 生成式 AI 模式使用 Adobe Stock 资料集、开放授权作品和著作权已到期的公共内容进行训练。2023年9月,Adobe公布旗下AIGC工具Firefly AI的商业化方案:点数制收费,用户使用AI作图时消耗生成点数,每个点数对应一张图,每月可免费获得25点生成点数,同时可以付费购买额外点数。以单独购买Adobe Firefly的价格计算,生成每幅图像的价格大约为5美分。

文生视频代表模型及应用

视频生成模型:行业迎来小幅高潮,生成质量仍有提升空间

在一定程度上,文本生成视频可以看作是文本生成图像的进阶版技术,同样是以Token为中介,关联文本和图像生成,逐帧生成所需图片,最后逐帧生成完整视频。据量子位发布的《AIGC/AI生成内容产业展望报告》,视频生成将成为近期跨模态生成领域的中高潜力场景,其背后逻辑是不同技术带来的主流内容形式的变化。

清华CogVideo:首个开源的中文文本生成视频模型,基于自回归模型

CogVideo是由清华团队2022年发布的基于预训练的CogView2(文本生成图像模型)9B-参数转换器。CogVideo是当时最大的、首个开源的文本生成视频模型,支持中文prompt,参数高达94亿。CogVideo采用的 Transformer结构,和CogView的几乎一致,例如使用夹层范数(Sandwich LayerNorm)和PB-Relax来稳定训练。

谷歌 Phenaki:首个可生成长视频的自回归模型

Phenaki由Google Research开发制作,该模型是第一个能够从开放域时间变量提示中生成视频的模型,能够根据一系列开放域文本提示生成可变长度的视频。通过将视频压缩为离散的令牌的小型表示形式,词例化程序使用时间上的因果注意力,允许处理可变长度的视频。转换器以预先计算的文本令牌为条件,使用双向屏蔽转换器使得文本生成视频令牌,生成的视频令牌随后被取消标记化以创建实际视频。

Runway Gen-1 & Gen-2:商用文生视频的明星应用

Runway 是基于生成式AI的图像和视频编辑软件供应商,是目前面向C端客户商业化的公司,由Cristóbal Valenzuela,Alejandro Matamala 和Anastasis Germanidis创立于2018年,是福布斯AI50榜单:最有前途的人工智能公司之一,其总部位于美国纽约。公司坚持在AIGC领域,细分领域从原来的图片转换到视频的编辑与生成。Runway可以支持用户进行图像处理、文本生成图像、更改视频风格、文生视频等多项服务。