供需错配、重复建设,国内算力中心探路智能化升级丨算力网风云②
编者按:
在数字经济潮涌与大模型井喷的时代,算力正如水、电一般,正在逐日成为现代社会赖以生存的稀缺资源。可以说,谁拥有了算力的主导权,谁就捏住了面向人工智能的头等船票。
这样的时代巨浪下,我国的算力也正在已步入高速发展新阶段。截至2023年底,我国提供算力服务的在用机架数达到810万标准机架,算力总规模居全球第二位。
在这个过程中,构建全国一体化算力网更是应对新一轮科技革命和产业变革的重要举措。2022年2月,“东数西算”超级工程的启动,尝试拉开下一个时代的序幕。今年的《政府工作报告》明确指出,2024年要适度超前建设数字基础设施,加快形成全国一体化算力体系。
在“东数西算”工程公布两年之际,当前我国算力网体系建设现状如何?如何进一步强化全国一体化算力体系?在推进全国一体化算力体系建设的过程中,存在哪些难点堵点?就此,21世纪经济报道推出“算力网风云”系列报道,围绕中国算力一体化体系建设现状、难点与堵点、产业链机会等进行全方位解读。
专题第二篇聚焦算力结构性不足及因地制宜问题。未来人工智能应用将成为信息应用的主流,对智能算力有较高需求,然而目前智能算力规模占比不足三成。同时,现在全国多地在抢建算力中心,如何警惕算力产业重复建设和潜在的低端产能过程问题,也值得考量。
21世纪经济报道记者张梓桐上海报道
AI热潮下,中国智能算力需求及市场规模正在快速扩张。而智算中心作为智慧时代承载算力的关键基础设施,在政策、市场的双重驱动下,进入了高速建设周期,应用前景及赋能潜力逐步凸显。
据21世纪经济报道记者不完全统计,截至2023年底,全国带有“智算中心”的项目有128个,其中83个项目有规模披露,超过7.7万P;这些智算中心标准不一、规模各样,算力规模一般在50P、100P、500P、1000P,有的甚至达到12000P以上。
而工信部发布的《算力基础设施高质量发展行动计划》表明,2023年智算中心达到30个,算力规模达到220 EFLOPS,其中智能算力占35%,相当于7.7万P。预计到2028年中国智能算力规模将接近2800 EFLOPS(EFLOPS是指每秒百亿亿次浮点运算次数),显示出智算中心行业的广阔前景。
然而,当前我国算力建设仍然面临着供需错配、价格昂贵、重复建设等结构性难题。其中,算力成本的昂贵成为行业面临的最为急切的难题。
“目前偏大规模的算力需求以B端和G端为主,算力降本需求十分迫切,要利用有限资金获取更多元的算力,同时优化算力资源配置和利用效率。”毕马威中国数字化赋能主管合伙人张庆杰接受21世纪经济报道记者采访时表示,在计算资源方面,大模型的训练需要大量的计算资源,包括CPU、GPU、TPU等。虽然中国算力具备一定的基础,但在计算资源方面还存在一定的短板,各行各业在底层计算资源上存在缺乏,这会限制大模型的训练和优化。
而从全国宏观层面来看,算力产业建设要以需求为引导,立足生成式AI和人工智能产业的未来,综合考量大模型技术在千行百业的落地进展,再根据各地发展需求,谋定算力建设方案。“以公有云的方式纳管多地不同的智算中心,协同提供智能算力服务,通过算力服务的精细化运营提升对算力的利用效率,可有效减轻可能的投资浪费和供给过剩。”受访专家说道。
智能算力供需错配
生成式AI带来的智能时代已经成为看得到的未来。但与此同时,技术的演进也对智能算力水平提出了更高的要求。
从国内实践来看,目前国内模型规模还是千亿级的参数,要达到ChatGPT4的级别,需要大量增加智能算力的供给才能训练更大参数量的模型,就训练来说算力仍然存在较大缺口;而有观点认为,到了推理时代,产业对智能算力的需求会是目前的四倍。
北电数智战略与市场负责人杨震在接受21世纪经济报道记者专访时表示,当前我国算力供需结构方面主要面临“智能算力占比低、算力利用率较低、国产算力利用程度不高”三大难题。
根据中国信通院发布的《中国算力发展指数白皮书(2023年)》显示,在目前的算力规模中,通用算力规模占比达74%,智能算力规模占比达25% 。“当前训练时代对智算消耗就相当巨大,当未来AI进入推理时代,更无法满足当前市场需求,且目前智能算力资源紧张,算力成本高企。与此同时,大多数智算服务仍是‘裸金属租赁’的粗放式经营方式,无法精准满足不同企业的多元化需求,造成算力浪费。”
此外,杨震指出,由于国内算力产业链企业相对分散,国产算力利用效率并不高,国内存在多家芯片厂商和大模型企业,各家企业技术路径不同,造成芯片和模型之间不适配。
杨震告诉21世纪经济报道记者,从技术角度来看,解决供需错配问题可以以混元异构方式形成芯片混池,提升智能算力的数量供给与性能:北电数智的AIDC通过纳管国内外不同类型芯片,形成混元算力池,同时,大规模提高适配算力集群规模,配合算法加速、混池超分等精细化调度与运营技术,提高每一块算力卡的计算性能,使更多的国产算力可以被有效使用起来。
警惕算力中心“产能过剩”风险
在智能算力资源如此紧缺,同时供需错配问题较为突出的背景下,我国各地都在加速建设算力中心,但是在业内人士看来,仅以提高硬件性能和囤积硬件的方式,从根本上难以解决算力结构不足、智能算力资源紧张的难题。
国家信息中心信息化和产业发展部主任单志广此前在接受21世纪经济报道记者采访时表示,现在全国多地在抢建算力中心,主要的推手不是应用需求,而是建设厂商的供给需求。但目前大模型技术在落地场景上还存在问题,尚未形成典型的杀手级应用,所以对中国的算力需求还是有限的。如果智能算力建得太早、太多,可能就会形成算力经济发展过热的问题,还会对行业本身实现“双碳”目标造成多余的压力。
“东数西算”是其中一个典型例证,从市场逻辑来看,其本应是一个高效利用资源,减少浪费的高效路径,毕竟建一个数据中心至少需要数万平方米的土地,这对于地价更高的东部来说需要投入的资金和人力成本极高;其次,大规模的计算中心、存储中心对电力的需求很高,尤其散热是数据中心的“耗电大户”,为了保证服务器长时间稳定工作,数据中心需要消耗大量的电力给它们降温。而这些问题,在西部地区可以得到有效解决。但过去国内“东数西算”项目建设中落地的多为传统数据中心,其智算升级已经是大势所趋。
杨震告诉21世纪经济报道记者,在算力产业,传统数据中心以生产通用算力为主,机柜功率低,设备老化,能耗高,PUE值也居高不下,造成运营成本较高,且不少机房建设时间较早,空间和扩展受限制,无法满足当下人工智能产业不断增长的市场需求。因此,传统数据中心的改造升级已经是大势所趋。
“通过智算化改造,包括对机柜、供电、制冷以及运维等全方位的升级,满足智能算力生产的条件,部署国内外不同芯片,增加智能算力生产,推动过去的重资产、重硬件模式向软硬协同、服务驱动转型升级。这不仅可以实现模式创新和资产盘活,还推动了城市焕新。”杨震说道。
“全国一张网”
在业内人士看来,在算力中心当前已经成为我国新兴“基础设施”的背景下,全国宏观层面的统一部署和调控就显得尤为必要。
国家数据局党组书记、局长刘烈宏撰文此前就指出,2023年12月,国家发展改革委、国家数据局等部门联合印发的《关于深入实施“东数西算”工程 加快构建全国一体化算力网的实施意见》,着眼于通用算力、智能算力、超级算力一体化布局,东中西部算力一体化协同,算力与数据、算法一体化应用,算力与绿色电力一体化融合,算力发展与安全保障一体化推进等五个“一体化”,旨在从战略上加快综合算力基础设施体系和全国一体化算力网建设,对于推动数字中国建设、实现中国式现代化具有重要意义。
从地方层面来看,近日,北京市经济和信息化局和北京市通信管理局联合发布《北京市算力基础设施建设实施方案(2024—2027年)》。其中提到,改变智算建设“小、散”局面,集中建设一批智算单一大集群,到2025年,本市智算供给规模达到45EFLOPS,2025-2027年根据人工智能大模型发展需要和国家相关部署进一步优化算力布局。
而上海则以市场化手段引导的方式,通过资金补贴来提升智能算力能力。
根据上海近期发布的《中国(上海)自由贸易试验区临港新片区进一步集聚发展新型算力赋能新质生产力若干政策》,对智算集群总体投产规模达到1000PFLOPS以上的新型计算中心,资助周期不超过5年,资助金额不超过1000万元。同时,鼓励算力调度,对临港新片区算力调度平台调度总量所对应的调度费用,提供5年内不超过1000万元的支持。在提升绿色智算水平、支持自主可控的智算要素等方面,均有相应的支持补贴政策。
在张庆杰看来,地方政府牵头支持算力普惠化非常具有针对性。“中国是世界人工智能重要领军国家之一,但做大模型还面临多方面的挑战,需要在政策、技术、资源、人才培养等方面进行综合的改革和发展。在投入成本方面,大模型的训练需要大量的资金支持,包括硬件设备、人才引进、技术研发等方面的投入,这在一定程度上要依赖政府的支持,同时,行业应该在专业人才、技术生态以及计算架构方面进行发力,来进一步夯实算力基础。”
中国社会科学院中国城市发展研究会副理事长贺可嘉则对21世纪经济报道记者表示,构建全国统一的算力服务大市场的前提,是建立统一的算力服务市场准入标准、监管机制和规范,确保市场的公平竞争和规范运行,继而打造统一的算力服务平台,整合各类算力资源,为用户提供一站式服务,降低用户获取算力资源的成本。同时,加强算力互联互通,实现资源共享和协同,推动算力服务市场的统一化和规模化发展。此外,还应积极参与国际算力服务市场的合作与交流,吸引国际优质算力服务资源与我国市场进行互动。