长三角议事厅|以集约化和协同举措促进长三角算力高效整合
今年“两会”期间,国务院总理李强在政府工作报告中强调了“适度超前建设数字基础设施,加快形成全国一体化算力体系”的重要性。作为国家算力布局的重要组成部分,区域性算力体系的构建不仅有助于优化算力资源的分配与利用,还能推动区域间优势互补。
面对深度学习和模型训练等智能计算需求的迅猛增长,长三角地区正处于智能算力发展的关键节点。为应对研发和能源投入高成本、维护难度大等现实挑战,当前亟需构建区域算力体系并实现集约化发展,以推动资源高效共享,提升长三角在全球数字经济领域的竞争力。
算力布局碎片化制约长三角智算产业发展
当前长三角地区算力分散的问题日益凸显,背后有两个主要原因。首先,国内AI芯片供应因地缘政治因素受到严重制约,导致区内企业不得不以数倍于官方定价的高成本,通过非正规渠道采购和运输少量芯片来满足算力供应需求。这种高昂的费用和分散采购模式大幅减缓了算力的增长,并使算力布局进一步碎片化。
其次,长三角地区的各城市在人工智能领域你追我赶,纷纷建设本地智算中心,以拉动基础设施投资、吸引外部资本和人才,并推动产业升级。截至2023年,全国在建和运营的政府主导智算中心达到18个,其中长三角区域就有7个,而区域内的企业智算中心也有6个。总体建设密度和分散度均高于全国平均水平。再加上区域内各省市还在筹备中的新算力中心项目,使得本已有限的算力资源更加分散。
因此,尽管在长三角内部已逐渐形成上海“两核一带”、江苏“双核三区四基地”、浙江“杭州主核心,宁温金义副核心”以及安徽的芜湖集群算力公共服务平台等集群化布局,但整体上仍偏向以点状和块状为主的“高密度、强分散”布局。这不仅阻碍了区域内算力网络的一体化建设,也限制了算力资源的共享和调度。
与此同时,出于安全考虑,各城市政府普遍倾向于自建数据中心以支撑政务信息系统。金融机构和大型国有企业为了确保数据安全与资产保值,也更愿意自建数据中心。这就导致长三角地区的云计算市场当前仍以混合云、私有云和专属云为主,难以形成统一的公有云服务市场,进而导致了算力资源的分散。
从细分业务类型来看,专属云服务目前占据了区域内市场的主导地位,尤其在政府项目中占比超过六成。然而,这类服务的CPU利用率仅约为10%,远低于公有云40%的平均水平。同时,专属云通常以托管而非租赁形式存在,投入巨大但应用范围有限,收益较低,却还要消耗相当多的算力资源。
此外,长三角的云计算市场目前仍以IaaS(基础设施即服务)为主,与全球向SaaS(软件即服务)转型的趋势形成对比,PaaS(平台即服务)和灵活的软件应用支撑服务也有所不足。这种局地化的云服务模式必然导致成本高企,不利于优质公有云生态的可持续发展。
构建区域算力体系,须注重集约、市场化和自主可控
新形势下,提升算力资源整合水平已成为长三角推动区域高质量发展的当务之急。我们建议可协同采取优化构建区域“算力网”、强化公有云市场化建设以及推进算力产品的国产替代等策略与措施,以实现这一目标。
集约建设区域“算力网”
2023年2月,中共中央、国务院发布了《数字中国建设整体布局规划》。同年12月,国家发改委等五部委联合发布了《关于深入实施“东数西算”工程,加快构建全国一体化算力网的实施意见》,明确提出了系统优化算力基础设施布局的具体要求和路线图。
对于长三角地区而言,加速算力资源整合的首要任务是推动算力中心的集约化发展。通过扩大现有算力中心的规模,并提升通用算力、智能算力及超级算力资源的建设和利用效率,长三角将能释放出更多算力资源,为区域内各类产业和科技企业发展提供坚实保障。
其次,要加强区域算力调度平台体系的建设,科学评估区域内产业和技术发展的需求,推动算力资源与业务需求解耦,设计最优调度路径,实现跨地区、跨行业的高效调度。
此外,需要从基础设施建设入手,统一算力运营服务、调度和量化标准,实现算力注册、身份认证和服务申请的一体化,以确保各类算力资源能够流畅对接各类应用场景。
最后,长三角应建立政府引导、市场化运作、全社会参与的协同推进机制,推动公有云、混合云、私有云、专属云等多种算力资源的并网调度,并探索碳排放额度与经济利益之间的置换模式。
优化公有云架构,提升区域算力共享
一是加快构建长三角公有云整体架构。需加速形成长三角公有云的整体布局,建立多核心、多层次分布的枢纽城市数据中心集群,推动各城市数据中心的集聚建设,扩展覆盖全域的边缘数据中心,构建完善的公有云生态。同时,应加快区域公共算力承载网的建设,确保算力在区域内高效流动与共享。
二是加强公有云的区域算力调度。应聚焦关键技术创新,涵盖多云管理、云网协同、算力评估、算力感知和算网融合等技术领域的研发,打造长三角智能算力技术生态链。依托各地公共算力服务平台,促进与全国其他地区在“东数西算”“东数西存”“东数西训”“东视西渲”等应用场景中的合作与验证,构建跨区域算力联通体系。
三是打造长三角智算公共生态。在智能制造、金融服务、智慧城市等领域推动上层应用发展,降低智算中心的计算和维护成本,缓解基础设施规模小、分散且运维成本高的现状。鼓励领先云厂商打造开放的公共应用生态,与战略合作伙伴紧密合作,推动生态系统协同发展。
四是加速推进区域“数算融合”和“电算融合”。推动阿里、华为、电信等公有云服务商加速市场化建设,率先开放长三角非行政管理领域的数据资源和产品共享通道,通过市场化竞争形成以公有云为核心的区域数算融合市场。加快公有云能源信息基础设施建设,推动“源网荷储”智算能源系统的协同发展,实现负载优化、绿色能源利用和分布式布局,提高公有云在能源调控中的灵活性,提升区域智算资源的整体利用率。
推动算力产品国产化,突破技术瓶颈
鉴于算力产品产业链的复杂性及其对外部环境的敏感性,长三角应加速推进芯片、服务器、操作系统等关键算力产品的国产化替代。短期目标是突破兼容CUDA技术的瓶颈,推动本土算力生态体系的建设。长期而言,应着力发展基于异构计算架构(如CANN)的自主软硬件生态,形成全面的自主技术体系。
此外,需要强化编译、调试和算法库等开发工具的本土化替代,构建统一的编译语言和兼容性解决方案。技术研发应聚焦于“一云多芯”和“一云多算”的应用,实现对异构芯片的统一调度和管理,构建长三角区域内多源异构算力的综合技术能力。同时,通过优化公有云架构,整合现有芯片资源,形成超大规模的区域算力资源池,利用公有云实现灵活的算力调度,以支持区域内广泛的算法训练和推理应用,提升整体技术自主性和竞争力。
(本文作者林兰系上海社会科学院研究员)
“长三角议事厅”专栏由教育部人文社会科学重点研究基地·华东师范大学中国现代城市研究中心、上海市社会科学创新基地长三角区域一体化研究中心和澎湃研究所共同发起。解读长三角一体化最新政策,提供一线调研报告,呈现务实政策建议。