腾讯开源最大MoE大语言模型!3D大模型同时支持文/图生成,晒混元模型及应用全家桶
智东西作者 ZeR0编辑 漠影
智东西11月5日报道,今日,腾讯宣布开源MoE大语言模型混元Large、腾讯混元3D生成模型Hunyuan3D-1.0正式开源,并全面披露腾讯混元的全系列多尺寸模型、C端应用、B端应用版图。
腾讯称混元Large是业界参数规模最大、效果最好的开源MoE大语言模型,采用7T训练tokens,总参数量389B,激活参数量52B,上下文长度高达256K,技术报告也同步发布。
混元-Large包括三款模型:Hunyuan-A52B-Pretrain,Hunyuan-A52B-Instruct和Hunyuan-A52B-FP8。
与有相似激活参数量的业界开源模型Llama3.1-405B、Mixtral-8x22B等相比,在多学科综合评测集、中英文NLP任务、代码、数学等9大维度,混元Large实现全面领先。
混元Large包含高质量合成数据、专家特定的学习率缩放、KV缓存压缩、长上下文处理能力、广泛的基础测试等主要技术创新,具体可参见技术报告。
腾讯混元3D生成大模型则是业界首个同时支持文字、图像生成3D的开源大模型,不仅在定量指标上达到开源模型的先进水平,而且轻量版生成高质量3D资产只需10秒,标准版也将文/图生成3D资产的耗时缩至45秒内。
两个模型均属腾讯自研,均已经在腾讯业务场景中落地应用,经过实践的检验,是面向实用场景的应用级大模型。
新开源模型支持企业及开发者精调、部署等不同场景的使用需求,可在HuggingFace、Github等技术社区直接下载,免费可商用。腾讯云TI平台和高性能应用服务HAI也开放接入这两个模型,为模型的精调、API调用及私有化部署提供一站式服务。
混元Large Hugging Face地址:https://huggingface.co/tencent/Tencent-Hunyuan-Large
混元Large GitHub地址:https://github.com/Tencent/Tencent-Hunyuan-Large
混元3D生成模型GitHub地址:https://github.com/Tencent/Hunyuan3D-1
混元3D生成模型Hugging Face地址:https://huggingface.co/tencent/Hunyuan3D-1
一、最大开源MoE大语言模型:六大关键技术,将开源企业卷轴数据集
MoE即混合专家模型,是目前国内外主流的大模型结构。据腾讯机器学习技术总监、混元算法负责人康战辉分享,相较密集模型,MoE模型在相同成本下效果更优,在相同规模下训练/推理成本更低,而且容量大,可训练更多数据。当前MoE的挑战有训练稳定性差、专家负载不均衡等。
一些应对方案包括:1)Scaling Law探索,设计基于中小模型簇的MoE Scaling Law实验机制,探索最优的模型参数设置;2)路由机制,探索高效的专家路由策略;3)训练稳定性,涉及特有的训练schedule,loss收敛更快更稳定。
混元Large模型有六大关键技术:
1、MoE Scaling Law探索:混元团队投入大量成本,全面探索了专家个数、激活参数量和训练tokens量的Scaling Law。在MoE Scaling Law的指导下,混元-Large在算力预算内合理选择模型最佳激活参数量以及训练token数。
2、路由和训练策略:1)共享专家路由策略,共享专家负责处理共享的通用能力和知识,特殊专家负责处理任务相关的特殊能力;2)回收路由策略,有效激活每个专家的能力,使每个专家保持相对均衡的负载,充分利用训练数据,保证模型的训练稳定性和收敛速度;3)专家特定学习率适配策略,根据学习率和Batch size的缩放原则,为不同专家适配不同的最佳学习率,以提高模型训练效率。
3、高质量的合成数据:混元团队在天然文本语料库的基础上,利用混元内部系列大语言模型构建了覆盖数十个类目的高质量、高多样性、大量级的中英文合成数据,显著提升模型效果,其中数学和代码效果提升超过10%。
4、长文能力优化:针对长文领域测评数据集缺乏、方法不够客观等问题,腾讯混元Large基于公开数据,自研企鹅卷轴(PenguinScrolls)数据集,覆盖各种深度阅读理解、长文推理任务。为了填补行业真实长文评测集不足,腾讯混元即将开源企鹅卷轴评测集。
腾讯混元Large模型专项提升的长文能力已应用到腾讯AI助手腾讯元宝上,最大支持256K上下文,相当于一本《三国演义》的长度,可一次性处理上传最多10个文档,并能一次性解析多个微信公众号链接、网址,使腾讯元宝具备独有的深度解析能力。
5、推理加速优化:为了提高推理效率进行KV Cache压缩,使用Grouped-Query Attention (GQA)和Cross-Layer Attention (CLA)两种KV cache压缩策略,从head/layer两个维度联合压缩KV Cache,并引入量化技术,进一步提升压缩比,最终将模型的KV Cache压缩为MHA的5%,大幅提升推理性能。
6、Post-train优化:针对SFT难获取高质量数学、代码等数据的问题,构建百万量级合成数据,分门别类提升数学、逻辑推理、代码等能力;针对RLHF泛化性弱的问题,在离线DPO的基础上引入了二阶段在线强化策略,实现整体效果处于业界头部水平,文本创作、知识问答、数理逻辑及代码能力相较竞品有一定优势。
二、业界首个同时支持文字、图像生成的开源3D生成大模型
无论是游戏创作,还是工业设计、建筑设计等专业建模,抑或是一些社交娱乐、电商、数字孪生、PCG/UGC创作领域,都会用到3D。
传统3D资产制作存在建模门槛高、制作周期长、制作成本高等痛点,单模型制作平均要1~7天、成本耗费百万到上万元。腾讯混元3D生成大模型则能将单个3D模型制作成本降低至不到1元。
腾讯混元3D生成大模型首批开源模型包含轻量版和标准版,轻量版仅需10秒即可生成高质量3D资产,已在技术社区公开发布,包含模型权重、推理代码、模型算法等完整模型,可供开发者、研究者等各类用户免费使用。
本次开源的是1.0版本,后续还会有更完善、更先进的模型陆续发布。
3D生成是一个较新的领域,今年学术界相关论文开始涌现,工业界3D模型的效果越来越好,但大多数是闭源。
此次腾讯混元开源的3D生成大模型Hunyuan3D-1.0 ,解决了现有的3D生成模型在生成速度、泛化能力、生成质量上存在不足的问题,可以帮助3D创作者和艺术家自动化生产3D资产。
该模型可重建各类尺度物体,大到建筑,小到工具花草。
Hunyuan3D-1.0采用DiT架构,与混元DiT生图联合,支持原生中文,支持风格定制。
其技术架构引入多视图扩散,借助二维数据优势提升3D泛化性,改进点包括:
1、持续扩展数据规模、类目、质量、渲染方式,提升泛化性。
2、精细度提升:升级时空自适应CFG引导方式,针对不同去噪步数、不同视角,设置不同权重,平衡可控性与多样性,不牺牲生成质量且提升生成清晰度。
3、输入角度鲁棒性:兼容任意输入视角,通过学习到的俯仰角度矫正,提升多视图准确性与一致性。特征平面超高特征分辨率和引入任意视角的输入图进一步提升了3D生成精度。
经过定性、定量多个维度的评估,Hunyuan3D-1.0兼顾快速和高质量生成,已达到开源模型的先进水平。
在两个公开的3D数据集GSO与OmniObject3D上,腾讯混元Hunyuan3D-1.0效果优于主流开源模型,整体能力属于国际领先水平。
从定性角度评估,Hunyuan3D-1.0与行业领先的开源模型的3D生成效果表现对比也显示出较高水平,包括几何细节、纹理细节、纹理-几何一致性、3D合理性、指令遵循等评价维度。
从生成结果可视化来看,Hunyuan3D-1.0能够更加真实地恢复出3D资产的几何形状和纹理细节,泛化能力出色。其文生3D能力支持在45秒内基于文本生成3D资产,图生3D能力支持在30秒内基于文本生成3D资产。
文生/图生3D内网接口已上线。
根据演示,混元3D能够根据提示词快速生成一个万圣节的南瓜灯,还能将其更改成乐高风格,操作很方便。
应用方面,3D生成相关技术已经开始应用于UGC 3D创作、商品素材合成、游戏3D资产生成等腾讯业务中。
此前,腾讯元宝App上线了“3D角色梦工厂”玩法,支持个性化的UGC 3D人物生成。只需上传一张照片,就能生成个人专属3D角色,将3D个性定制建模费用降到0.2元。这有助于玩具制作、3D打印等行业的技术革新。
腾讯地图基于腾讯混元3D大模型,发布了自定义3D导航车标功能。用户上传一张图,就能生成个性化的3D导航车标,比传统3D车标重建方案提速91%。
后续,混元3D模型团队将持续探索多视图生成、3D扩散模型、自回归生成等3D生成路线,最终目标落地3D管线。
三、腾讯混元这一年:升级高性能MoE模型,发布原生大模型应用
康战辉回顾了腾讯混元大模型过去一年多的发展。他谈道,腾讯混元不急于为了开源而开源,在内部业务打磨好后再开源,开源模型与公司内应用模型同宗同源。
模型效果持续提升,建立在全栈自主可控的能力。腾讯混元Large模型的训练和推理均基于腾讯Angel机器学习平台。
其中,针对MoE模型通信效率问题,Angel训练加速框架AngelPTM实现了多项技术优化,性能是主流开源框架DeepSpeed的2.6倍;针对模型推理加速,腾讯Angel机器学习平台和腾讯云智能联合研发AngelHCF-vLLM框架,在最大限度保障精度的条件下,可节省50%以上显存,相比于业界主流的框架BF16吞吐提升1倍以上。
腾讯混元模型包括领域模型和通用模型,有1B、3B、7B、13B、70B等不同尺寸,覆盖六大BG多场景业务。
腾讯混元大模型PaaS平台开放支持包含混元Large模型在内的十余种混元API服务调用,可满足文生文、图生文、文生图等不同模态以及角色扮演、FunctionCall、代码等不同专项的模型需求。
2024年年初,腾讯混元就宣布在国内率先采用MoE架构模型,总体性能比上一代密集模型提升50%。此后,腾讯混元推出基于MoE架构的多模态理解大模型以及基础模型”混元Turbo”,在性能、效果、速度等多个领域表现优越,第三方测评居国内大模型第一。
相比同构MoE腾讯混元Pro,今年9月发布的异构MoE混元Turbo将推理效率提升1倍以上,成本下降50%,解码速度快20%。
多模态理解大模型混元-V也在持续升级,解锁文字、图像、3D、视频等更多模态,今年8月在SuperCLUE-V多模态理解评测基准总榜中排名第一。
文生图方面,今年5月,腾讯混元全面开源业界首个中文原生DiT架构文生图大模型,评测结果国内领先。还有今天宣布开源的文/图生3D模型,单张图30秒可生成3D模型,效率与质量均在业内领先。
混元已全面接入腾讯业务,并通过腾讯云向合作生态进行赋能。腾讯内部有超过700个业务接入混元。
面向C端,微信读书的AI大纲、AI问书功能,腾讯元宝的AI搜索、AI阅读、AI角色对话等功能,都接入了腾讯混元的能力。
混元原生大模型应用腾讯元宝的AI搜索会提供可溯源引文,引文数量多、时间新、信源优质;通过延伸阅读,来满足用户对周边信息的获取需求,还会列关联问题,以引导追问学习。
其AI阅读功能具有强大的文档处理能力,可处理多格式、多文件、长记忆文档;AI精读支持图文输出、知识图谱总结、延伸阅读推荐,有助于提升学习深度和广度。
此外,腾讯元宝提供了角色对话、剧情互动、剧照cos等更多玩法。例如智能体应用AI角色对话成为了腾讯视频剧集宣发的新亮点,长相思AI角色对话的总热度达到近2亿,“相柳”单角色热度打到1.7亿,人均对话prompt数为167.3,衍生角色“毛球”的对话率超过90%。
面向B端,腾讯旗下SaaS协作产品全面接入混元,包括腾讯文档、腾讯会议、企业微信等。
混元大模型还帮助腾讯广告多场景提效,比如生成创意爆量素材、辅助内容商业价值理解、广告推荐结果生成。
结语:坚定拥抱开源,预告多款后续模型
随着自研大模型技术强大的和应用实践经验的丰富,开源已成为腾讯混元大模型的一个战略选择。
据康战辉分享,混元未来的模型开源战略是“拥抱开源,自主可控,坚持协同”。
腾讯在今年5月开源业界首个原生中文DiT图生文大模型混元DiT,今日又开源混元Large大语言模型,并将陆续开源混元AnglePTM和AngelHCF等大模型工程框架,未来还将陆续推出混元-M、混元S等模型。
全面开源的混元3D生成模型,面向企业、个人开发者提供商用品质的3D开源模型,可直接部署,降低3D资产的生产周期、成本;面向科研学者提供更大的3D基础模型,以加速新方法研究探索。未来混元3D原生大模型、混元3D自回归大模型等更多开源模型将陆续上线。
腾讯混元计划后续推出更多模态、更多尺寸的开源模型,将更多经过腾讯业务场景打磨和检验的模型开源,促进大模型技术进步和行业生态繁荣。