摩尔线程张建中:在AI战场,万卡已成最低标配
“在AI主战场,万卡是最低标配。”
随着Scaling Law(规模越大,性能越好) 成为行业共识法则,国内百模大战仍在冲击更大的目标,摩尔线程CEO张建中作出了上述判断。
而参数量和数据量的不断增加,意味着对算力的需求也在增加。在此趋势下,国产厂商都在加紧建设更大规模的AI智能算力数据中心。去年发布并落地多个千卡(显卡,即GPU)智算中心集群后,GPU厂商摩尔线程近期又推出了首个万卡集群方案。
当前训练AI大模型离不开GPU,各公司拥有GPU的数量已经成为衡量算力规模的基本依据。相比OpenAI、谷歌、Meta等国际巨头成批采购几十万张英伟达显卡搭建数据中心集群,国内公司大多数还只能采购几千张,只有字节等少数头部厂商拥有上万张卡规模的算力集群。
卡的数量直接决定了训练一个大模型所用的时间。张建中提到,去年国内“百模大战”开打后,几乎每个月都有新的模型发布。而现在,一家AI大模型公司训练迭代一次大模型的时间已经缩短为两周,超过两周就跟不上同行的速度。
去年英伟达的H100以及后续的高端GPU对华出口遭禁后,国内一度出现严重的算力紧缺。张建中告诉界面新闻记者,从国际巨头计划采购英伟达显卡的订单变化来看,今年市场对算力的需求有增无减,万卡,甚至超万卡集群,是这一轮大模型竞赛的入场券。公司的目标是在国内市场“占位”,努力保证训练大模型时“有卡可用”。
今年也是行业广泛热议的大模型应用落地之年。除传统的ChatGPT聊天机器人外,像上半年爆火的Sora、国内对标Sora的快手“可灵”,以及更多的AI手机、智能驾驶端侧模型等,都在寻找落地场景。这背后都需要更多的算力支持。
在张建中看来,当下“Scaling Law”法则在AI大模型行业依然奏效,即为了追求更好的性能,规模做大的同时,算力需求也越来越大。
公开信息显示,2020年左右,OpenAI使用约1万块英伟达GPU来训练GPT-3.5模型,当时的模型参数量只有1750亿。到了2023年,OpenAI推出1.8万亿参数的GPT-4时,市场调研机构 SemiAnalysis估测其已经拥有近3万块英伟达GPU。
虽然GPT-5迟迟未面世,规模还是一个秘密,但外媒曝光了OpenAI与微软正在合作的“星际之门”计划。这是一个包含百万张GPU的超级数据中心,计划在2028年建成。
国内的AI算力市场也从去年开始不断扩容,全国各地掀起了智算中心“基建潮”。北京、上海、深圳、安徽、江苏五地,目前已公布未来几年内智能算力中心建设的具体方案,青岛、贵州、南昌等超过30个地方城市正渐次加入。
据行业自媒体“中国IDC圈”不完全统计,到2024年5月下旬,我国共建设有智算中心283座,其中已投产运营的达到89座,超过一半处于开工或在建状态。
界面新闻此前从多位行业人士处了解到,各地建设智算中心正处于“跑马圈地”的阶段。一方面,国内需要建设更多智算中心,将“盘子”做大,从而保证算力供应;另一方面,由于英伟达显卡遭禁,国产AI芯片的单卡性能与之相比存在较大差距,国产厂商普遍选择走集群化、规模化路线,将多个小型单点算力节点通过高速网络互连技术建成一整个超大规模的算力集群。也因此,落地的智算中心越建越大。
一家头部国产服务器厂商在一场活动上提到,去年国内建智算中心都以万卡为目标,今年整体需求水涨船高,开始以5万卡作为新的目标。眼下能够满足AI公司训练模型的GPU是市场上的硬通货,基本上是“谁有GPU,谁能建智算中心”。
但在张建中看来,智算中心从千卡到万卡,不只是简单的“堆卡”。规模变大的同时,难度也呈指数级倍增——既要实现智算中心扩容,也要兼顾质量。这对厂商而言是一项极其复杂的系统工程。
算力利用率与稳定性是行业衡量智算中心质量的两项重要指标。目前,摩尔线程的千卡智算中心的算力利用率已达到50%,未来推动万卡集群智算中心落地时,目标是达到60%的算力利用率,同时保证99%以上的稳定性。这与国际巨头已十分接近,但要达到领先仍存在较大挑战。