国产GPU万卡集群终于来了!摩尔线程CEO张建中:做难而正确的事
智东西作者 ZeR0编辑 漠影
“AI主战场,万卡是最低标配!”
在2024世界人工智能大会开幕前夕,摩尔线程创始人兼CEO张建中抛出一句掷地有声的断言。
为什么必须是万卡?大模型行业变化很快,客户希望两周内结束战斗,最迟也得在1个月内训练完。假设训练一个5000亿参数模型,有15TB数据,如果只有1000P算力,3年都训不完;如果将时间锁到两周或1个月,10000P是最低保障。
在海外,拥有1.8万亿参数的GPT-4大模型需要用25000张A100 GPU训100天,折算成H100则需要1000张;Meta今年推出2个24576张H100集群,用于训练Llama 3等新模型;本周马斯克自曝新版Grok 3训练用了10万张H100 GPU。
在国内,万卡集群建设高歌猛进。去年7月,华为昇腾AI集群规模扩展至16000卡;10月,科大讯飞宣布启动万卡集群算力平台“飞星一号”;今年3月,天翼云上海临港国产万卡算力池启用;4月,中国移动宣布今年将商用3个自主可控万卡集群……一众云大厂更是囤卡攒算力专业户,将大模型训练集群规模卷向10万卡量级。
但基于国产GPU的万卡方案,还是刚新鲜出炉。
就在昨日,国产GPU公司摩尔线程宣布其人工智能(AI)旗舰产品夸娥(KUAE)智算集群解决方案实现重大升级——从千卡扩展至万卡规模。
这是其首个万卡万P万亿国产全功能GPU大模型预训练平台,树立了国产GPU技术的新标杆:
总算力超过10EFLOPS,目标是做到有效计算效率超过60%、稳定性达99%,能支撑万亿参数级大模型训练。
3个万卡集群项目(青海零碳产业园万卡集群、青海高原夸娥万卡集群、广西东盟万卡集群)在现场进行了战略签约。
两家清华系AI Infra合作伙伴(无问芯穹、清程极智)、两家大模型大厂合作伙伴(360、京东云)、一家具身智能合作伙伴(智平方科技)的代表先后登台,对夸娥智算集群助力其在大模型训练、推理及具身智能的创新赞誉有加。
加速一切大模型,只是第一步。
张建中说,夸娥万卡集群不仅是加速AI,而是想要为美好世界加速。
一、大模型训练呼唤万卡集群,国产GPU企业坐上牌桌
大模型竞赛轰轰烈烈,从研发到应用,从训练到推理,一切都在疯狂消耗着算力。
智算中心是大模型训练的“超级加工厂”,数据量够多、参数量够大,训练出的大模型才有市场竞争力。对此,张建中总结出三大算力核心需求:
一是Scaling Law持续奏效,假设按线性比例成长,参数规模从百亿到万亿有100倍增长,处理数据量从TB到10+TB有10倍提升,两者相乘,那么所需算力至少增长1000+倍,需要建立一个单节点超大规模算力集群来做训练。
二是算法持续迭代,Transformer架构不能实现大一统,从稠密到稀疏模型,再到多模态模型的融合,多元架构持续演进并共存,面向特定领域设计的专用芯片难以适应未来算法,通用型算力才具备更强的抗风险能力。
三是AI、3D、高性能计算(HPC)跨技术与跨领域融合加速,推动空间智能物理AI和AI for Science、世界模型等领域的边界拓展,使得大模型的训练和应用环境更加复杂多元。
这些趋势对智算集群提出了多重要求:既要规模够大,又要通用性强,前者负责支持顶尖大模型巅峰对决,后者顺应多元计算融合发展的趋势,进而催生出对万卡GPU集群的迫切渴求。
大模型训练,唯快不破。
海外头部AI大厂都步调激进,OpenAI单点集群有超5万张H100,谷歌打造了2.6万张H100组成的AI超算,Meta到今年年底将囤35万张H100。国内大厂固然也愿意豪掷巨资,但被美国一纸限令推入“有钱买不到新算力”的僵局。
而如果没有万卡集群做训练,好比国产大模型拼命蹬着朴素的三轮,想跟开跑车的海外龙头同场飙车,逆袭的几率不能说没有,只能说极低。
甲之砒霜,乙之蜜糖。英伟达入华受阻,给了国产AI芯片备胎转正的机会。摆在前方的是一座名为智算需求的金矿,算力供应商们在摩拳擦掌,期待英伟达腾出的大单能落到自己头上。
摩尔线程则以一家国产GPU企业的身份,率先坐上了建设万卡集群的牌桌。
“这是一件难而正确的事情。”张建中说,“我们不能只是一家GPU的公司,一定要成为一家系统平台公司。”
创办于2020年10月的摩尔线程,甫一成立就组建云计算团队,设定了建集群的大方向和策略,并构建了MUSA体系架构,花了大量时间去研究集群建设中的各种问题,攻坚克难。在大模型潮起后,这一路线更加明确与坚定。
从千卡到万卡,集群建设的复杂度指数级增加,是一项超级系统工程。大集群≠大算力,多卡互联也绝非简单的“1+1=2”算术题,非常考验算网存系统级优化的功力。
暴力堆卡虽然能带来理论算力总和的暴涨,但如果不能解决技术及工程挑战,即便手握10000张卡,实际能发挥的算力可能还不及2000卡。而且卡连的越多,出故障的概率也会越大,从硬件设计到集群研究都要解决稳定性难题。
这就好比带兵打仗,单人武力值高不等于团队战斗力强,胜败关键看排兵布阵的策略和高效无缝的配合。每位士兵要骁勇善战,调兵遣将时需确保通信无阻,后备粮仓和医药资源也都得跟上。
对应到万卡GPU集群,则是算网存管每一环节都不能有短板,单卡算力要强,组网拓扑结构要设计得效率足够高,即能有效提升单位功耗的算力,还要有敏捷的故障排查和及时恢复能力,才能确保训得多、算得快、用得方便,跑得够稳。
因此,这项系统工程必须翻越六座大山:超大规模组网互联、集群有效计算效率、训练高稳定性与可用性、故障快速定位与可诊断工具、生态Day0级快速迁移、未来场景通用计算。
万卡集群造价极高。据张建中分享,几万P的智算中心成本高达几十亿,更大算力规模则需投资上百亿。如此大的投资,要求集群不仅拥有强大算力,而且必须具备多年持续服务的能力。设计智算中心时至少要考虑到两三年后的扩容程度,否则一旦空间和能源受限,规模就很难扩展。
在接受采访期间,张建中分享到目前智算中心投资回报率是5年左右,而国内芯片研发费用大致相当于美国公司的1/10,在国内可以得到更好的回报,他相信在国内的发展潜力非常巨大。
那么要打造“国产万卡万P万亿大模型训练平台”的摩尔线程,具体是怎么做的?
二、千人团队耗时四年,构筑夸娥万卡集群的三道护城河
计算效率、高度稳定、生态兼容,构成了摩尔线程夸娥万卡智算集群的三道护城河。
摩尔线程之所以将智算中心全栈方案命名为“夸娥(KUAE)”,是希望它像传世典故《愚公移山》中的夸娥氏二子那般不畏艰难,持之以恒,将一块块GPU加速卡垒成一个强大的计算集群。
这是一套以全功能GPU为底座,软硬一体化、完整的系统级算力解决方案,包括以夸娥计算集群为核心的基础设施、夸娥集群管理平台(KUAE Platform)以及夸娥大模型服务平台(KUAE ModelStudio),旨在以一体化交付的方式解决大规模GPU算力的建设和运营管理问题。
张建中将夸娥万卡集群称作“新超级工程”。摩尔线程有1000多人、耗时近4年完成了这项工作,希望能够搭建首个中国本土通用型的万卡集群。
首先有自研全功能GPU,基于GPU做出计算加速卡,再组建成服务器,放进超融合一体机,然后将这样的4台机器整合到一个机柜里,形成一个小集群,小集群连成大集群,大集群的线性加速比高于91%。有了这样一个灵活组合的集群,客户就能根据自身建设规划去扩容每个计算集群。
软件也是关键落子。把万卡集群管理、调试、使用好,做到高效的训练和推理,需要一个全栈AI软件。摩尔线程夸娥智算集群的软件栈提供了一系列的加速引擎和便捷的管理平台,并支持用户进行7×24小时的随时远程监控。
“我们建议客户不要太多DIY,而是采用整体解决方案,这样可以避免风险,集群买回去之后马上就可以用起来。”张建中在接受采访时谈道,自建集群很有挑战性,如果专业性不足,从建设到稳定运行都会受影响,而KUAE夸娥是一个“交钥匙”工程,用户拿到就能开箱即用。
KUAE夸娥万卡集群有五个核心优势:
1、超大算力,万卡万P:单集群超万卡,浮点运算能力达到10Exa-Flops,显存总容量、卡间互联总带宽、节点互联总带宽均达到PB级,实现算力、显存和带宽的系统性协同优化,从而支持万亿参数级大模型的训练。
2、超高稳定,月级长稳训练:平均无故障运行时间超过15天,最长稳定训练30天以上;目标周均训练有效率逾99%。
稳定无故障,意味着每一位用户在集群中的每一秒没有被浪费,有助于降低计算中心运营成本,并满足大模型训练长期迭代的需求。实现软硬件故障自动检测,无需人工干预,则有助于实现大型智算中心的无人职守,降本增效。
这得益于摩尔线程自研的一系列可预测、可诊断的多级可靠机制:软硬件故障的自动定位与诊断预测功能可实现分钟级故障定位,Checkpoint多级存储机制可实现内存秒级存储和训练任务分钟级恢复,高容错高效能的万卡集群管理平台能实现秒级纳管分配与作业调度。
3、极致优化,超高MFU:在系统软件、框架、算法等层面进行一系列优化,希望MFU(集群有效计算效率,评估大模型训练效率的通用指标)最高可以达到60%,让用户买到的算力能真正发挥效力,而不只是买了一堆硬件。
摩尔线程在系统软件层面采用计算和通讯效率优化等技术手段,大幅提升集群的执行效率和性能表现。其自研卡间互连技术MTLink已经到2.0版本,目前用行业里的交换机芯片来搭建集群,后期也会考虑与合作伙伴共同研发下一代大规模交换机,持续发展卡间通信。
在框架和算法层面,夸娥万卡集群支持多种自适应混合并行策略与高效显存优化,可根据应用负载选择并自动配置最优的并行策略,大幅提升训练效率和显存利用;针对超长序列大模型,通过CP并行、RingAttention等优化技术,能有效缩减计算时间和显存占用,大幅提升训练效率。
4、计算通用:为通用场景设计,可加速LLM、MoE、多模态、Mamba等不同架构、不同模态的大模型,能够紧跟技术演进。
5、生态兼容:过去大部分软件都是在CUDA平台上开发,换到新平台,如何实现来了就能用?这意味着不仅要与国际主流生态兼容,还要扩展中国本土生态,两条腿一起走路。
因此夸娥智算集群提供了摩尔线程自研MUSA编程语言,完整兼容CUDA,开源社区和官方网站均可下载Torch MUSA源代码,并提供自动化迁移工具Musify,以便用户能在短期内迅速将模型和迁移到MUSA平台。
“对于目前国内的大模型用户来看,我们最大的优势就是生态兼容性很好,基本上当天或者是第二天就可以完成生态迁移并应用起来,对客户就非常方便,从投入成本来讲大大节约了用户的资源,同时也节约了我们的资源。”张建中说。
据摩尔线程CTO张钰勃分享,开发者移植到夸娥集群上,几乎不需要修改代码,迁移成本接近0,几小时之内就能完成迁移工作,调优性能可能花费数天。
除了自研全功能GPU外,摩尔线程也在与国产CPU、操作系统合作,并联合打造了一个基于中国自主创新技术的PES完美体验系统联盟。在张建中看来,这是国外GPU公司无法做到的产品兼容性。
“目前几乎所有的CPU企业都和我们的GPU完成了适配,我们一个驱动可以支持几乎所有的CPU,”他谈道,“我们希望完美体验系统让国内的CPU、操作系统和我们的GPU工作在一起的时候,可以为客户提供一个完整且很好的体验。”
三、AI Infra、大模型、具身智能代表站台,认证夸娥智算集群性能高、稳定好用
从实战经验来看,摩尔线程也的确赚得了口碑。无问芯穹、清程极智、360、京东云、智平方等五家合作伙伴登台,分享摩尔线程夸娥智算集群如何助力其在大模型训练、大模型推理、具身智能等不同场景和领域的创新。
今年5月,无问芯穹和摩尔线程完成基于国产全功能GPU千卡集群,合作训练出的MT-infini-3B是行业内基于国产GPU从0到1预训练并开源的第一个大模型,训练总用时13.2天,在同等参数规模模型中性能跻身前列。这也是双方合作的起点。
在合作初始阶段,无问芯穹还主动设置了一些“为难”摩尔线程的门槛,故意做了很多在算子或模型结构上的特殊修改。结果,摩尔线程的底层生态兼容性能够非常快而好地支持这些修改,最终全程稳定训练不中断地完成了模型训练。
无问芯穹正在打造大规模异构混训系统,实现多元芯片异构混合训练。摩尔线程是第一家接入并已支持千卡混训的的国产GPU公司。
清程极智创始人、董事长兼CEO汤雄超提到万卡大模型训练集群面临三大系统级挑战:1)算子性能优化,充分发挥单卡计算性能;2)大规模集群训练,高效协调多机分布式计算;3)新兴模型架构,灵活应对模型动态需求。
针对这些挑战,清程极智智能编译器IntelliGen和高效并行训练系统FastMoE均已适配MUSA,取得大幅训练加速,并实现0代码改动。汤雄超称赞摩尔线程的GPU硬件架构、指令集、编译器、MUSA软件栈等设计都非常优秀,清程极智有信心与摩尔线程一起攻克中国AI超大规模训练集群的难题,共同建设世界水平的训练集群。
360集团早在2021年就与摩尔线程产品进行技术合作验证,并启动360与GPU相关产品的适配。继去年与摩尔线程实现一体机合作、适配及技术验证后,360企业大模型产品在今年与摩尔线程扩大合作,希望共同打造一个基于国产算力加国产大模型的联合解决方案。
在摩尔线程夸娥千卡集群上,360分别部署70亿、700亿参数大语言模型,全程软硬件即插即用,工作有效训练时间占比100%;全程稳定无软硬件故障,集群有效训练时间占比100%。
京东基于摩尔线程夸娥集群完成Chatglm2-6B、Qwen-14B、baichuan2-13B的大模型推理测试,性能超过一些国际主流计算卡。
在Chatglm2-6B推理测试中,S4000的单卡推理性能是RTX 4090D性能的1.26倍,其他两个模型中,基于S4000性能均能达到RTX 4090D性能的90%左右。
智平方科技是一家机器服务公司,致力于将多模态模型的能力赋能给不同类型的智能终端与智能机器人。这家通用智能代表企业与摩尔线程共同探索了基于国产算力的多模态大模型高效训练,并合作研发了一些特定的算子和优化卡间通信、弹性调度的方案。
国产万卡集群的落地有望对AI行业产生许多积极影响,从缩短模型训练周期、加快商业落地到降低创业门槛,最终催化整个生态的繁荣。
在张建中看来,要挑战英伟达,难点主要在市场的推广、用户的生态适配和生态发展,需要全行业生态合作伙伴的共同努力,包括算力供应商、建设方、软件服务以及做增值服务的合作伙伴。但他相信,给客户极致性价比、先进的技术、最优质的服务,一定会让客户满意。
结语:GPU成为加速新技术浪潮的创新引擎
在加快形成新质生产力、开展“人工智能+”行动等战略指引下,我国AI落地进程正在提速,推动更多行业迈向数字化、智能化转型升级,并带动以GPU为核心的智算中心的建设与发展。
张建中坦言,GPU在整个计算服务器中的占比依然很低,不到10%,但未来这一占比将会提升。今年很多统计报告都显示新增加的算力来自于GPU,足见GPU算力的需求量非常强劲。
“我们正处在生成式AI的黄金时代,技术交织催动智能涌现,GPU成为加速新技术浪潮来临的创新引擎。”在他看来,此刻正是历史性的创造进程,而摩尔线程矢志投身,为融合AI和数字孪生的数智世界打造先进的加速计算平台。
据他分享,摩尔线程是国内唯一一家用全功能GPU去实现各方面通用加速计算能力的公司,用4年时间将GPU的3D/2D图形图像、视频编解码、科学计算、物理仿真、数字孪生、AI训练及推理能力都做了提升,能为客户提供一个更好的、可选择的国产化工具,并使得智算中心能支持更广泛的应用场景,提高长期抗风险能力。
随着夸娥智算集群从千卡向万卡无缝扩展,摩尔线程的全栈AI战略正在填上一块重要拼图。
“一旦我们把Scaling的问题解决了,这个对行业来说就解决了最难做的事情。”张建中说,在建好万卡集群后,摩尔线程将建设更大规模的集群,希望通过全功能通用加速计算平台,给行业提供更多的选择,催生开发者更多的想象力和创意。