“治愈”了百万人的抖音AI绘本特效,背后是豆包大模型
国庆期间,抖音上一款名为“AI治愈绘本”的特效凭借温暖优美的画风和高还原度吸引了数百万用户投稿,采用了动态绘本的拟物玩法,“AI治愈绘本”特效首次使用了3D立体翻书的形式,巧妙地将首张用户图作为书皮呈现,玩法新颖有趣。基于该特效投稿的“成为绘本里的温暖主角”话题播放量超过11亿。
据了解,“AI治愈绘本”特效底层使用了字节跳动豆包大模型的图像生成能力,技术团队通过多项自研算法,保证了模型有更好的风格响应度、画面美观度,让风格化效果更富有表现力,并且更大程度还原了人物面部特征、服装款式、颜色、配饰等主体特征,在“美且像”的维度上取得了良好的效果。
为呈现更好的交互方式,技术团队还使用了自研的主体抹除、扩图能力,对风格化结果图进行后处理,使得多张结果图可以在端上进行切换。上述过程中应用到的IP保持技术RealCustom和AI扩图和AI消除技术ByteEdit,两项成果分别入选CVPR2024和ECCV2024。
RealCustom :生成效果又美又像本人的IP保持技术
RealCustom是一种个性化定制技术即IP保持,对于任意开放域物体或人物IP均可实现无需微调的实时定制化生成,在AI绘本中主要起到保持输入图片特征的作用。不同于以往风格化特效中用的图片特征保持方法, RealCustom不仅能够还原图片的细节特征,还具有对图片的抽象语义理解,从而可以根据文本输入自适应地做出变化,并生成更加和谐的效果。为了更好的还原主体外观,RealCustom使用了多个层次的图片信息融合,为了让视觉信息跟文本信息能更好的融合,RealCustom通过自适应模块学习了视觉条件与文本条件之间的对齐能力,并根据不同时刻的状态准确地推导出相应的视觉条件。从而能对用户多种多样的输入做出自适应的处理,在保证好看的风格化效果的同时,稳定保持图片特征。
(注:RealCustom论文已入选CVPR2024,了解详细内容见:https://corleone-huang.github.io/realcustom/,https://corleone-huang.github.io/RealCustom_plus_plus/)
ByteEdit:让填充背景更自然和谐的AI扩图和AI消除能力
特效中用到了AI扩图和AI消除的能力,其中AI消除是指消除图像中指定的某个物体或区域,并根据周围的背景来填充消除位置的内容;AI扩图则根据指定的扩展比例来延展原图像的内容。这两个任务本质上都是根据已知图像的内容去填充周围的区域,重点在于如何让填充的内容和原图没有违和感。
为了达到这个目的,首先,技术团队增大了训练数据量级,让模型「看到」更多泛化场景,此外,ByteEdit提出了一种创新的框架,利用反馈学习来增强生成性图像编辑任务。ByteEdit通过集成图像奖励模型来提升美学质量、图像与文本的一致性,并引入密集的像素级奖励模型以增强输出的一致性,让希望填充的区域和非填充区域更加的和谐。此外,提出了一种对抗性和渐进式反馈学习策略,以加快模型的推理速度。
除此之外,“AI治愈绘本”特效可以支持用户上传多张图,在做能力部署时,技术团队针对该场景单独做了一套多服务并行逻辑以及性能加速策略,最大程度保障了在流量高峰期时,能够在最短时间内将风格化结果图、后处理结果图等顺利返回到端上。端上获取多张结果图后,技术团队依托自研的书本3D运动和阴影跟随算法,对书内各个物体的运动曲线进行参数自动化调整,在模拟书本翻页以及内页跳出的过程中,阴影效果可以随书页自然移动,更大程度保留了书页翻动的立体感与自然感,边缘的阴影过渡相对流畅。
近期,抖音特效团队还在国庆期间上线了同样是温暖治愈系的“金秋绘本风特效”,特效投稿量已超百万,相关话题播放量超过1.8亿次。
豆包大模型是字节跳动自研的大语言模型,通过字节跳动旗下云服务平台火山引擎面向企业开放服务。目前豆包模型家族已全面覆盖语言、语音、图像、视频等全模态,全方位满足不同行业和领域的业务场景需求。(资讯)
上游新闻 马亮