中金:政策加码AI算力基础设施建设 国产算力迎发展机遇

国产算力及智算中心的发展受到了国家及各地方政府的高度重视,政府及运营商主导的智算中心建设提速;2月19日,国资委召开中央企业人工智能专题推进会,要求央企加速建设智算中心,开展AI+专项行动;此外,贸易摩擦的影响,海外核心云端AI芯片进入大陆市场受限。中金认为,在政策加码及国资智算中心建设加速的情况下,国产算力有望迎来发展窗口期。

摘要

政策加码AI算力基础设施建设,国产算力迎发展机遇。2023年以来,国家及地方层面积极推进智算中心及国产算力基础设施建设,北京、广东等省市提出了2025年智算算力建设目标并强调国产化能力,成都、贵州、甘肃等地发放算力券支持地方算力资源使用。我们认为,在服务器核心部件侧,国产CPU的能力构建逐步完善,安全可靠名录及等级的细化有望加速服务器CPU国产化进程;国产AI加速芯片虽然仍与全球领先水平存在一定差距,但受贸易摩擦影响,国产替代迫切性高,有望迎来发展窗口期。

政府加快推进智算中心建设,运营商逐步基于国产算力构建AI基础设施。我们看到,政府侧的智算中心自2023年以来明显提速,2020年-2023年间已投运政府智算中心单期算力建设规模一般在500P以下,而2023年下半年之后建设与投运的智算中心出现较多1000P以上算力规模,以升腾为代表的国产AI芯片成为重要算力基石。此外,运营商在加码智算中心建设的同时,也呈现地域上向中西部倾斜、算力上向国产算力芯片倾斜的趋势。我们认为,国资主导的AI算力基础设施建设提速,在带动国产AI芯片需求量的同时,也提供了难得的商用机会和及时的产品反馈,对于硬件性能、系统生态的迭代具有正向作用,帮助国产产品从“能用”走向“好用”并有望在更加商业化的市场逐步渗透。

风险

贸易摩擦导致供应链风险;行业竞争加剧;智算中心建设不及预期。

正文

Scaling law驱动智算中心需求,国产算力硬件大有可为

Scaling law推动算力需求提升,主权算力成为需求新范式

Scaling law驱动人工智能对算力的需求持续增长。Scaling Law(规模定律)主要是指对于计算量、参数量、数据量三要素,当不受其他两个因素制约时,提升某一要素对模型性能的增益效果明显。我们看到,为追求Scaling law带来的涌现效应,在位厂商模型训练的算力规模不断扩大,对AI算力基础设施的需求形成支撑。根据中国信通院《中国算力发展白皮书(2023)》,GPT-3的模型参数约为1,746亿个,训练一次需要的总算力约为3,640 PF-days,即以每秒一千万亿次计算,需要运行3,640天;2023年推出的GPT-4参数量可能达到1.8万亿个,训练算力需求上升至GPT-3的68倍,在2.5万个A100上需训练90-100天。

图表:Scaling law驱动模型迭代,算力需求持续增长

资料来源:《Compute Trends Across Three Eras of Machine Learning[1]》,中金公司研究部

各国加码建设AI基础设施,主权算力成为需求新范式。2024年年初,英伟达创始人黄仁勋提出了“主权AI”的概念[2],强调了一个国家对其数据及其产生的见解应拥有所有权,并强调基础设施的重要性。我们观察到,算力成为各国抢占AI发展主导权的重要路径,主权算力成为需求新范式。

图表:主权算力成为需求新范式

资料来源:中国政府官网,新加坡政府官网,人民网,韩联社,中国科学院,C114通信网,印度政府官网,Bloomberg,财联社,自然资源部,中金公司研究部

政府积极发力智算中心建设,国产算力迎发展机遇

2023年以来,国产算力及智算中心的发展受到了国家及地方政府的高度重视,一系列政策文件相继出台,旨在推动算力基础设施的高质量发展,加快智算中心的建设,并推动国产算力的发展。

2023年10月六部门联合发布的《算力基础设施高质量发展行动计划》明确了全国算力在未来三年的建设节奏。2024年2月国资委召开“AI赋能产业焕新”中央企业人工智能专题推进会,强调央企要把发展人工智能放在全局工作中统筹谋划,深入推进产业焕新,加快布局和发展人工智能产业;把主要资源集中投入到最需要、最有优势的领域,加快建设智算中心;开展AI+专项行动,强化需求牵引,加快重点行业赋能,构建一批产业多模态优质数据集,打造从基础设施、算法工具、智能平台到解决方案的大模型赋能产业生态[3]。2024年《政府工作报告》提出适度超前建设数字基础设施,加快形成全国一体化算力体系,培育算力产业生态[4]。

图表:2023年以来各省市智算及国产算力相关政策梳理

资料来源:北京市人民政府官网,新华网,广东省通信管理局,江苏省通信管理局,河南省发改委,贵州省大数据发展管理局,山东省人民政府官网,安徽省人民政府官网,中金公司研究部

在资金支持方面,2023年1月,成都印发了全国首个算力产业专项政策——《成都市围绕超算智算加快算力产业发展的政策措施》,率先提出算力券发放计划[5]。此后,北京、贵州、甘肃庆阳、湖北武汉、上海等地陆续出台资金举措支持地方算力资源使用。我们认为,政策持续加码国内AI相关基础设施建设及应用落地,国内AI服务器需求有望加速兑现。

AI服务器为算力核心,国产CPU及AI芯片旭日东升

CPU及AI芯片作为AI服务器的核心,国产化大有可为。AI服务器核心组件包括AI加速芯片、CPU(中央处理器)、DRAM(动态随机存取存储器)、SSD(固态硬盘)和RAID卡、网卡、PCB、高速互联芯片(板内)和散热模组等,其中GPU与CPU占到服务器价值量的70%以上[6]。

服务器CPU架构包括X86、ARM和MIPS等,x86为当前服务器CPU主流架构,根据IDC,2023年x86架构服务器占88%市场份额;x86 CPU的代表性厂商为Intel和AMD,1Q24市占率分别为90.1%和9.9%;海光、兆芯和申威等也参与X86架构CPU的国产化替代。

图表:服务器CPU芯片的主要架构及参与者

资料来源:PassMark,兆芯官网,海光信息公司公告,高通官网,飞腾官网,龙芯中科公司公告,科技世界网,《Kunpeng 920: The First 7nm Chiplet-Based 64-Core ARM SoC for Cloud Services》[7],IT之家,中国证券报,中金公司研究部

中国信息安全测评中心发布CPU名录,服务器国产化进程有望加速。2023年,中国信息安全测评中心发布《安全可靠测评工作指南(试行)》[8],说明产品供应商可于每年1-2月及7-8月进行测评申报,送测厂商应为在中国境内注册的实体,且具有送测产品完备的研发文档、设计资料、代码数据和研发环境,拥有送测产品相关的发明专利、商标、著作权等知识产权或授权,具备与送测产品研发设计、生产制造、供应保障、售后维护相匹配的人员队伍和工作环境,测评结果有效期为三年,由企业和用户自主选择使用。2023年底与2024年5月,中国信息安全测评中心发布了针对PC和服务器搭载的CPU、操作系统及数据库等基础软硬件产品的两版安全可靠测评结果[9],其中CPU涉及的厂商包括龙芯、飞腾、海思、兆芯、申威等厂商。

根据财政部及工信部发布的《通用服务器政府采购需求标准(2023年版)》,乡镇以上党政机构、乡镇以上党委和政府直属事业单位及部门所属为机关提供支持保障的事业单位在采购通用服务器时,应当将CPU、操作系统符合安全可靠测评要求纳入采购需求[10]。

我们注意到,2024年5月20日发布的安全可靠测评结果中,安全可靠等级分为“I级”与“II级”,相较于2023年底进一步细化与完善,我们认为随着安全可靠等级、梯队进一步完善,服务器国产化的进程有望提速。

从AI加速芯片的供应商来看,根据IDC及芯智讯,2022年英伟达在中国AI加速卡市场份额为85%,国产化率约为13%-15%;2023年上半年,中国AI服务器芯片国产化率下降到10%左右。我们判断主要原因在于,ChatGPT驱动的大模型训练浪潮使得高端训练服务器的需求增长,国产厂商性能相对薄弱,占比有所下降。

正如我们在此前发布的报告《科技硬件:智算未来系列七:国产云端AI芯片破局,路在何方?》中所述,目前NVIDIA等海外厂商占据全球AI算力芯片的主导地位,NVIDIA不断改进芯片架构,从V100到GB200系列芯片在核心数量、算力水平、工艺制程等方面均有大幅提升,并利用CUDA构建生态优势;包括寒武纪、华为升腾、摩尔线程、沐曦等国内AI芯片在表观数据逐步与国际龙头靠拢,逐步缩小差距,但在硬件性能、系统生态方面仍与全球领先水平存在一定差距。我们认为,随着国产GPU算力的持续提升及生态建设的完善,国产算力的发展空间广阔。

全球供应链面临不确定性,国产算力迎发展机遇。2023年10月,美国商务部工业与安全局(BIS)发布一系列针对中国的先进计算和半导体制造物项的出口管制规则,以总处理性能(TPP,total processing performance)和性能密度(PD,performance density)作为判断指标,其中,限制出口的芯片包括:TPP≥4800的芯片、TPP≥1600且PD≥5.92的芯片;需通知BIS以取得例外许可的芯片包括:4800>TPP≥2400且5.92>PD≥1.6的芯片、TPP≥1600且5.92>PD≥3.2的芯片[11]。我们认为,全球供应链面临一定的不确定性,国产算力或迎来发展机遇。

图表:国产云端AI芯片技术指标与海外产品对比

资料来源:各公司官网,智东西,海光信息公司公告,新智元,中金公司研究部

中美贸易摩擦大背景下,政策端鼓励的国产化算力硬件采购给国产算力硬件系统生态快速进步提供了条件。先前,中国算力芯片、硬件系统虽在宽松的资本市场环境支持下得以快速发展,但产品并未得到实际检验,在新品定义上可能与实际市场需求存在偏差,系统生态薄弱。但面临当下云端AI芯片国产化迫切的需求,政府、运营商等客户可为算力硬件提供商提供难得的商用机会和及时的产品反馈,对于芯片、算力硬件系统研发迭代具有正向作用,能够快速帮助国产产品从“能用”走向“好用”,加速实现对美国的追赶。我们将聚焦分析政府及运营商主导的智算中心建设及其中的国产化优势,认为国产算力芯片有望在更加商业化的市场逐步渗透。

政府与运营商加码算力建设,助力国产算力芯片发展

政府智算中心建设规模增长迅速,国产算力芯片获落地机会

2023年以来,政府智算中心建设的规模与节奏均有显著提升。通过梳理各地政府官网信息,我们整理了2020年-2024年政府智算中心建设情况,发现:1)2023年以来智算中心建设明显加速,各省市地方政府均在积极推进智算中心建设;2)2020年-2023年间已投运政府智算中心单期算力建设规模一般在500P以下,而随着AI带动算力需求的提升,单个智算中心的体量提升,2023年下半年之后建设与投运的智算中心出现较多1000P以上的算力规模。

图表:2020-2024年部分政府智算中心建设情况

资料来源:广东省智能科学与技术研究院,南京市人民政府,陕西省科学技术厅,华为官网,升腾官网,河南省政府官网,昆山市人民政府,山东省人民政府,成都高新区管委会,广州市政府,辽宁省政府,重庆市政府,北京市政府,通信产业网,福州市人民政府,长沙晚报网,人民网,沈阳市人民政府,DTDATA,河北省政府,C114通信网,中国经济网,新华网,武汉市政府,智算网络联盟,深圳市政府,中金公司研究部

华为升腾、寒武纪等国产AI算力芯片成为政府主导的智算中心的重要算力基座。北京升腾人工智能计算中心利用“政府引导+市场化运作”平台建设模式,政府负责顶层设计、政策保障;中关村发展集团负责设施建设、配套服务、提供空间载体,最终使用华为自主研发的升腾芯片,互利共赢[12]。长沙升腾人工智能创新中心由长沙市政府和湖南湘江新区共同出资建设,采用基于升腾910处理器的兆瀚CA9900 AI集群硬件,总算力最高可达1024 PFLOPS(FP16)[13]。我们认为,政府智算中心建设提速,有望进一步拉动国产云端AI芯片的需求。

运营商持续加码算力建设,国产化率持续提升

根据三大运营商2024年资本开支指引,运营商投资重心将继续向算力网络建设倾斜。具体来看,中国移动计划2024年在算力网络领域投资475亿元,占当期资本开支的27.5%,同比增长21.5%;中国电信资本开支在产业数字化方面的投资占比同比提升2.5ppt至38.5%,绝对额达到370亿元,其中公司计划在云/算力投入180亿元;中国联通则表示算网数智投资坚持适度超前、加快布局。

图表:2022-2024E中国移动资本开支结构

资料来源:中国移动公司公告,中金公司研究部

图表:2022-2024E中国电信资本开支结构

资料来源:中国电信公司公告,中金公司研究部

三大运营商智算中心建设持续推进。根据2023年度业绩发布会,中国移动计划2024年加快算力多元供给,累计智算规模规划超过17 EFLOPS,新部署智算增幅接近70%[14];中国电信持续推进智能算力建设,2023年公司智算算力新增8.1EFLOPS,增幅高达279.3%,累计规模达到11.0 EFLOPS[15],2024年公司预计智算规模将继续提升10 EFLOPS至21 EFLOPS(FP16)[16];根据公司公告,中国联通算力中心已覆盖国家8大枢纽节点和31个省份,数据中心机架规模超40万架,完成29省千架资源布局,骨干云池城市覆盖超230城,MEC节点超600个。我们认为,运营商对智算场景投入的持续加码有望带动服务器、网络设备等算力基础设施需求节节攀升,在电信云网设备侧具备稳定供应能力的厂商有望充分受益。

图表:三大电信运营商智算中心建设情况

资料来源:新疆日报,呼和浩特人民政府,DTDATA,人民网,湖北省人民政府,四川省国资委,青岛高新区政府,中国电信官网,嘉善县政府,国资委,武汉市政府,天津网信网,芜湖市政府,青岛市情网,天津市政府,中金公司研究部

运营商智算中心呈现地域上向中西部倾斜、算力上向国产算力芯片倾斜的趋势。响应“东数西算”的政策,运营商智算中心的建设规划逐步向中西部地区倾斜,并且中西部地区新建智算中心均规模较大,2024年启用的中国移动克拉玛依[17]及呼和浩特智算中心[18],规划算力规模分别达到2023PFLOPS及6.7EFLOPS,2024年投入运营的中国电信中部智算中心算力达到5000PFLLPS[19]。同时,运营商智算中心的国产化率进一步提升,2024年5月,中国移动正式对外发布了全球运营商最大单体智算中心——2024年3月中国电信天翼云上海临港国产万卡算力池正式启用,这是国内首个正式投入运营的国产单池万卡液冷算力集群[20],中国移动智算中心(呼和浩特)部署AI加速卡约2万张,AI芯片国产化率超85%[21]。我们认为,运营商持续加码大型智算中心建设,并加大国产AI算力芯片的采用力度,在为国产AI算力芯片需求提供支撑的同时,构建国产AI算力芯片落地及迭代场景,有望加速国产AI算力芯片的发展。

运营商云网设备集采积极,AI服务器采购数量迅速增加。三大运营商过往主要采购计算型、均衡型、存储型通用服务器为主,随着人工智能的快速发展与智算中心的建设提速,运营商基于部署算力集群、提供算力服务、训练自身AI大模型等需求,增加对算力服务器的采购以提供强大的算力支持。我们观察到,从2020年至2024年,运营商对于AI服务器的集采数量呈现明显扩容。2023年下半年以来三大运营商陆续启动大规模AI服务器集采,其中,中国电信(2023-2024年)预计采购4,175台,中国联通启动AI服务器集采(预计采购2,503台),中国移动启动2024-2025年新型智算中心集采(预计采购7994台),并于2024年5月公示了中标厂商,包括河南昆仑、华鲲振宇、宝德计算机、百信信息技术、武汉长江、神州鲲泰、湘江鲲鹏[22]。我们认为在运营商AI服务器采购和国产化率提升的大背景下,国产AI芯片供应商有望持续受益。

图表:运营商AI服务器集采项目

资料来源:三大运营商采购官网,C114通信网,中金公司研究部

科技厂商自建智算中心,为潜在国产算力渗透市场

在中国人工智能大模型领域,以互联网为代表的科技厂商为重要推动者。百度的“文心一言”大模型,拥有超过2600亿参数,专注于中文理解和生成任务[23];阿里巴巴的"通义千问"大模型,参数量达到万亿级别[24];腾讯的混元大模型[25]和商汤科技的“日日新SenseNova”大模型[26]同样在各自的领域内取得了突破,推动了多模态理解和行业应用的发展;而字节跳动于2024年5月正式发布了豆包大模型[27]。

中国AI大模型仍处于发展早期且Scaling Law 仍在延续,大模型性能表现提升对于算力提出更高需求,以互联网为代表的科技厂商自建智算中心,以抢占AI算力制高点。腾讯、百度、阿里、字节、商汤等企业积极推进智算中心布局,阿里张北超级智算中心总建设规模达12000PFLOPS[28], 百度与腾讯均已在全国多个地区建立了智算中心,包括广州、上海、北京等,字节跳动则依托于润泽科技等进行智算中心相关的IDC投资。

互联网厂商当前算力构成仍以英伟达为主。根据TrendForce,中国云计算厂商目前使用的高端AI芯片中英伟达的芯片占比约为80%[29],当前的国产化率水平较低。考虑到贸易摩擦的影响,海外核心高端AI芯片难以进入大陆市场,国产替代需求迫切性高。

国内AI加速芯片厂商把握发展机遇,有望渗透进入互联网市场。根据TrendForce,2023年在全球AI服务器采购需求中,字节跳动/百度/腾讯/阿里等中国互联网厂商采购占比约8.5%,为AI服务器的重要需求方。我们认为随着AI大模型加速迭代,国内互联网厂商对于AI服务器需求有望进一步提升,国产AI芯片潜在市场空间广阔。我们看到,互联网厂商积极推动与国产算力芯片的合作,根据公司公告,海光DCU支持包括文心一言在内的多个大模型的适配和应用;百度飞桨与海光DCU实现生态兼容性认证[30];而华为与百度合作推进升腾AI上与飞桨+文心大模型的适配[31]。我们认为,随着芯片的性能迭代及生态完善,国产算力芯片在互联网侧的应用有望逐步增加。

图表:科技厂商自建智算中心

资料来源:新华网,DTDATA,中国新闻网,上海市经信委,市前海管理局,百度智能云官网,山东省政府,上海市松江区政府,安徽省工业和信息化厅,中金公司研究部

服务器厂商多元布局国产AI加速芯片,各有侧重

服务器厂商多元布局底层国产AI加速芯片,头部品牌厂商基本实现大范围适配。其中,华鲲振宇/神州数码/长江计算/湘江鲲鹏/昆仑技术等厂商侧重于升腾供应链;中科曙光与海光信息存在股权协同关系;其余服务器厂商则与国产AI芯片进行大范围适配布局。

1#:升腾生态合作伙伴

升腾计算产业基于升腾系列处理器构建全栈AI计算基础设施、行业应用及服务,包括升腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链[32]。产业生态包括围绕着升腾计算技术和产品体系所开展的学术、技术、公益及商业活动,产生的知识和产品以及各种合作伙伴,主要包括原始设备制造商OEM、原始设计制造商ODM、 独立硬件开发商IHV、咨询与解决方案集成商C&SI、独立软件开发商ISV、云服务提供商XaaS等合作方。

图表:升腾计算产业生态

资料来源:升腾官网,中金公司研究部

在升腾计算整机硬件方面,升腾通过包括华鲲振宇、昆仑技术、神州数码、宝德、长江计算等众多主流的厂商合作,打造适应产业发展的服务器等硬件产品。目前升腾有13个整机硬件合作伙伴,依据资质要求/市场贡献/产业贡献/能力要求/综合要求等将整机硬件合作伙伴分为战略级、领先级、优先级和认证级四个等级,其中华鲲振宇、昆仑技术为战略型合作伙伴,在中国电信2023-2024 AI服务器(G系列)采购也实现高排位中标。

图表:升腾整机硬件合作伙伴及其对应层级

资料来源:升腾官网,中金公司研究部

2#:海光生态合作伙伴

海光CPU产品采用国际主流的x86架构,能够兼容x86指令集以及国际主流操作系统和应用软件;DCU产品能够支持全精度模型训练,实现LLaMa、GPT、Bloom、ChatGLM、悟道、紫东太初等为代表的大模型的全面应用,与国内包括文心一言等大模型全面适配,达到国内领先水平。

海光的硬件合作伙伴广泛,根据公司公告,公司与新华三、浪潮信息、联想等服务器厂商展开合作;下游客户包括工商银行、中国银行等金融领域客户,中国石油、中国石化等能源化工领域客户,并在电信运营商的数据中心类业务中得到了广泛使用。

图表:海光信息OEM客户

资料来源:海光信息官网,中金公司研究部

#3寒武纪生态合作伙伴

寒武纪公司自成立以来一直专注于人工智能芯片产品的研发与技术创新,致力于打造人工智能领域的核心处理器芯片,公司的主要产品线包括云端产品线、边缘产品线、IP 授权及软件公司。根据公司公告,思元100芯片是中国首款高峰值云端智能芯片;思元290芯片是公司首款云端训练智能芯片,采用了7nm工艺,在4位和8位定点运算下,理论峰值性分别高达1024TOPS、512TOPS;思元370芯片是公司首款采用 Chiplet技术的AI芯片,是寒武纪第二代云端推理产品思元270算力的2倍。

根据公司官网,公司与浪潮信息、联想、宝德、宁畅等服务器整机厂商均有合作[33]。目前,公司智能芯片及加速卡持续在互联网、金融、运营商、能源等多个重点行业持续落地。

图表:寒武纪硬件合作伙伴

资料来源:寒武纪官网,中金公司研究部

风险提示

贸易摩擦导致供应链风险:部分国家对高端半导体产品实施出口限制,影响其进入国际市场,同时GPU生产依赖于高精度的半导体制造工艺,供应链中的任何中断,如原材料短缺、制造能力不足或物流问题,都可能影响最终产品供应。

行业竞争加剧:国际市场NVIDIA、AMD和Intel等国际巨头占据主导地位,国内GPU企业需要在硬件、软件方面与这些企业竞争。同时国内AI芯片市场批量GPU创企涌入,持续竞争国内市场份额。国内AI芯片企业面临竞争加剧风险。

智算中心建设不及预期:我们看到2023年以来政府及运营商主导的智算中心建设提速,未来如果AI模型迭代或应用落地节奏不及预期,智算中心落地可能放缓,拖累国产算力的需求不及预期。

本文摘自:中金点睛

朱镜榆 分析员SAC执证编号:S0080523070002

陈昊 分析员SAC执证编号:S0080520120009 SFC CE Ref:BQS925

成乔升 分析员SAC执证编号:S0080521060004

彭虎 分析员SAC执证编号:S0080521020001 SFC CE Ref:BRE806