腾讯混元文生图开源模型上线三款插件,ControlNet生态直追Stable Diffusion
(原标题:腾讯混元文生图开源模型上线三款插件,ControlNet生态直追Stable Diffusion)
8月15日,腾讯混元文生图开源大模型(开源项目名称为“HunyuanDiT”,以下简称为“混元DiT”)联合社区发布了最新的三款可控制插件ControlNet,包括tile(高清放大)、inpainting(图像修复与扩充)、lineart(线稿生图)等不同类型,与此前官方插件一同形成混元DiT的ControlNet矩阵,组合使用可以覆盖包括美术、创意、建筑、摄影、美妆、电商等80%案例和场景。
这意味着,全球的企业与个人开发者、创作者们,都可以基于丰富混元DiT模型的ControlNet生态更加精准地生成图片,创造更具个性化的专属模型,进行更大自由度的创作。
腾讯混元DiT ControlNet矩阵,实现多样化场景创作
AI生图领域的可控制插件ControlNet是一种应用于文生图领域的可控化生成算法,它允许用户通过添加额外条件来更好地控制图像的生成。
Tile(高清放大)可以为画面扩充信息,用于增加细节辅助超清放大,将画面清晰度变成4K甚至8K,连毛发都清晰可见,非常适合对于图片有极致细节追求的场景使用。
使用tile模型将人物写真画面放大八倍
适当调整使用方法的情况下,tile插件也可以对画面进行其他操作,比如通过如衰减权重后把下面图中的真人写真变成一个可爱的动漫人物。
Inpainting(图像修复与扩充)插件的能力类似于部分图像处理软件的AI涂抹重绘、AI扩图,该能力可以将图片中被涂抹和斑驳褪色的部分,根据创作者的需要进行填充。通过该插件可以实现图片背景、人物主体改变、局部修改画面等需求,能处理高达70%面积涂抹重绘。
通过腾讯混元DiT Inpainting插件改变图片背景
通过腾讯混元DiT Inpainting插件实现多点重绘,将原来的深色猫咪改变为黄色猫咪,并保持四肢和脸部毛发的一致性
通过腾讯混元DiT Inpainting插件实现局部细节修改,将原来的睁眼的人物变成闭眼
通过腾讯混元DiT Inpainting插件实现扩图
Lineart(线稿生图)则可参考各种不同类型线条,创作真人、动漫和建筑图片,既可用户建筑行业效果图的生成,也可以给手稿上色作为创作参考。
Lineart插件可以接受由原有混元DiT插件canny提取的线稿,也能兼容预处理模型 anyline输出的线稿,根据线稿生成精致的场景。
在建筑设计场景下,用lineart生成建筑设计效果图后,还能搭配inpainting模型更换内容、调整材质,最后使用tile模型放大输出最终效果图。在动漫创作场景下,将原有动漫图片稍加反色处理输入给模型,就能通过提示词为角色上色。
使用腾讯混元DiT lineart插件生成建筑设计效果图
使用腾讯混元DiT lineart插件给动漫手稿上色
此前,腾讯混元DiT官方发布了能提取与应用图像的canny(边缘)、depth(深度)、pose(人体姿势)等条件的三个首发ControlNet模型,开发者可直接使用其进行推理。该三个ControlNet插件能实现通过线稿生成全彩图、生成具有同样深度结构的图、生成具有同样姿态的人等能力。同时,混元DiT也开源了ControlNet的训练方案,开发者与创作者可以训练自定义的ControlNet模型。
腾讯混元DiT官方上线的三个ControlNet插件效果演示
本次腾讯混元DiT新增的三款可控制插件ControlNet由混元DiT联合社区模型制作者调参训练,选取了创作者最为常用的场景方向进行制作。
三款ControlNet模型的加入,将扩充混元DiT已有的ControlNet插件矩阵,并可互相组合搭配进行创作。随着腾讯混元DiT ControlNet生态的完善,并在ComfyUI等多种工具支持下,混元DiT模型的绘图质量、多样性和可靠性大大提高,将更能激发使用者的创意,产出更多优秀视觉作品。
众多开发者关注,成最受欢迎国产DiT开源模型
今年5月,腾讯混元文生图大模型宣布全面升级并对外开源,可供企业与个人开发者免费商用。这是业内首个中文原生的DiT架构文生图开源模型,支持中英文双语输入及理解。
作为首个中文原生DiT开源模型,混元DiT自全面开源以来,一直持续建设开发者生态。
6月,混元DiT发布的专属加速库,可将推理效率进一步提升,生图时间缩短75%;并进一步开源了推理代码;发布LoRA和ControlNet等插件。
与此同时,模型易用性大幅提升,用户可以通过Hugging Face Diffusers快速调用混元DiT模型及其插件,或基于Kohya和ComfyUI等图形化界面训练与使用混元DiT。
7月4日,腾讯混元文生图大模型(混元DiT)升级至1.2版本并宣布开源小显存版本,仅需6G显存即可运行,对使用个人电脑本地部署的开发者十分友好;并新增对Kohya图形化界面的支持,让开发者可以低门槛地训练LoRA模型。
目前,在众多开发者的支持下,混元DiT发布仅3个月,Github Star数已经超过3.1k,成为最受欢迎的国产DiT开源模型。