智算需求20年增长百亿倍,算力中心朝“万卡”规模演进

红星资本局9月29日消息,9月27日-29日,2024中国算力大会在河南郑州召开。会上发布的《中国综合算力指数报告(2024)》显示,从人工智能模型角度看,过去20年间(2003年-2023年),智能算力需求大概增长超过百亿倍,构成算力增长的最主要驱动力。

红星资本局在采访中了解,在智能算力需求快速爆发的同时,国产算力仍长期面临两大问题:第一,国产GPU缺乏生态支持,难以替代英伟达的GPU;第二,如何在国产GPU单卡性能有限的条件下,通过其他技术手段提升整体算力水平。

万卡集群加速布局

在大模型领域有一个著名定律Scaling Law(尺度定律),指模型性能会随着参数、算力、数据集的规模增加而提高。在该定律作用下,全球的算力中心朝着万卡规模方向演进。今年以来,中国移动、联通、电信三大运营商均在加速推进超万卡集群智算中心的建设。

本届算力大会上,河南投资集团总经理朱红兵透露,目前,河南已经建成投产了240P的英伟达H800智算中心。他表示,接下来,河南将打造中部最大的万卡智算集群,明年年底实现2000P的算力供给。

万卡集群是指由一万张及以上的加速卡(如GPU、TPU或其他专用AI加速芯片)组成的高性能计算系统,用以训练基础大模型。这种集群可支持千亿级甚至万亿级参数规模的大模型训练,有助于大幅压缩大模型训练时间,以实现模型能力的快速迭代。简而言之,万卡集群成为这一轮大模型基建军备竞赛的标配。

摩尔线程副总裁马鉴表示,万卡集群首先难在超大规模的组网,关键在于能不能把上万块GPU联在一起解决一个问题。1万块以上的GPU在一起训练的时候,如果每天都有GPU掉线就非常痛苦。没有用户愿意用这样的GPU,所以超大规模的万卡以上集群的稳定性是大家面临的重要挑战。

中国信息通信研究院院长余晓晖认为,与美国相比,我国算力芯片生态比较碎片化,有几十款算力芯片,不同的芯片,对应不同的开发框架、软件栈以及算子库等。“这是一个非常大的挑战,异构算力之间的协同稳定问题亟需解决。”

余晓晖表示,万卡不等于万卡集群,如何打造如此规模的集群也是下一步要面临的挑战。“有了万卡、10万卡,不一定就能把万卡、10万卡的能力完全发挥出来,卡越多,故障的概率越高,怎么能够打造大的、稳定的算力集群,是一项全球面临的挑战,需要非常多的技术创新协同。”余晓晖强调。

2024年至2027年中国算力规模会进一步增长

紫光股份董事长、新华三集团总裁兼CEO于英涛表示,在“算力即国力、智能即未来”的时代背景下,智算已经成为全球高科技角逐的主要赛道。他指出:“今年,全球生成式人工智能的投资比去年增长接近10倍,我们预测2024年至2027年中国算力规模会进一步急剧增长。”

虽然我国的智算技术不断突破,但产业发展仍有一些问题待解。

于英涛指出,多地针对算力基础设施赛道进行超前部署,但也存在一些问题。他认为,在行业热度高涨的背景下,需要给行业提一个醒,要保持“冷思考的定力”,客观测算算力需求,统筹安排智算中心布局,“小步快跑”,不断健全完善试错包容的机制,避免出现投资浪费。

他认为,相比于投资建设,算力中心的运营和管理更为重要。“算力中心,投资建设是容易的,但是算力运营模式探索和创新是更重要的话题,如何提高智算中心利用率,防止出现算力的空置、空转,保持投资的良性循环是必须解决的问题。”于英涛表示,开放、务实和应用导向是算力产业高质量发展的关键所在。

朱红兵谈到,目前算力产业发展在场景端的需求尚未完全释放。以化工、能源、制造、交通运输、物流等为代表的场景类实体企业算力应用大多停留在尝试阶段。前期投入大,降本增效不明显,企业投入积极性不高。

同时,他提到,智算GPU还是面临着“卡脖子”的问题。他认为,近年来国产GPU企业虽然取得了显著进步,但在单卡性能、万卡互联、生态建设上,与国际先进水平仍存在一定差距,短期内难以实现国产体,导致国内人工智能尤其是大模型的产业落地、市场普及更加困难。

年度8项重大成果发布

大会主论坛上,“算力中国·年度重大成果”正式发布,分别由中国移动、联通数科、国家超级计算无锡中心、阿里云、天翼云、超聚变、郑州大学国家超级计算郑州中心、联想集团牵头申报的8项成果荣获“年度重大成果”。

具体来看,分别是:“九州”算力互联网、中国联通超大规模智算中心服务及大模型行业实践、太湖之光A+、基于端云融合计算架构的无影云电脑、国产液冷单集群万卡公共智算中心、FusionPoD for AI新一代全液冷整机柜GPU服务器、量超融合先进计算平台以及联想万全异构智算平台。

成果之中也有破纪录的创新。比如“九州”算力互联网的原创G-SRv6技术体系得到全球多个头部企业的积极署名支持,是我国近年来首屈一指的互联网核心协议国际标准突破。

红星资本局了解到,上述成果已有部分投入使用并取得良好社会经济效益。其中,中国联通超大规模智算中心服务已形成超过35个行业大模型和100余个标杆应用;太湖之光A+国产智算加速卡已形成我国自主研发的业内最高密度一体化服务器机柜方案,为超算、智算、科研、企业研发等关键领域提供强而有力的基础算力平台;基于端云融合计算架构的无影云电脑已惠及18万名中小学生和教师等。

红星新闻记者 王田

编辑 肖世清