贯彻算力普惠化目标,移动云持续加快数字化基础设施建设脚步
在2024中国算力大会“协同共建,打造算力产业链”主论坛上,中国移动正式宣布移动云算网大脑规模化商用,凭借统一管理和智能调度能力,算网大脑将不断对社会各方算力资源的汇聚和应用,进而持续推动算力成为像水、电一样的社会级服务。在算力逐渐成为推动经济社会发展的新质生产力之际,作为云计算“国家队”,移动云不断加快算力基础设施建设脚步,并依托自研可控的先进技术打造出算网大脑,推动多元异构算力融合发展,进而逐步构建出网络化、普惠化、绿色化的算力网发展格局,为全社会数智化升级提供多元泛在、智能敏捷的算力服务。
从“通”到“智”,打造全面算力供给能力
为提升算力综合供给能力,助推产业转型升级,移动云一方面基于“4+N+31+X”通算资源布局加速直管资源池及各级节点建设,另一方面,移动云还以“N+X”不断强化智算算力基础设施布局,并陆续投产首批智算中心节点。目前,移动云已在全国上线40个直管资源池,并建设了23个中心节点和17个省级节点,部署超1000万核vCPU,通算规模达到8.2EFLOPS(FP32),而随着呼和浩特、武汉、哈尔滨等13个智算中心陆续投入使用,移动云智算算力规模已高达19.6EFLOPS(FP16),全面夯实了产业发展的数智基石。
此外,为实现从“算”到“智”的跨越式发展,移动云还通过研发创新,成功攻关大规模集群管控调度、全栈加速及智算集群稳定性保障三大关键技术,构建10万卡多元异构算力的统一纳管及万卡GPU容器资源秒级调度拉起能力。基于此,此前投产使用的中国移动智算中心(哈尔滨)具备1.8万卡超大规模云化纳管、万卡并行训练以及分钟级断点自动续训能力,能够大幅提升大模型训练的效率与稳定性。而在移动云将LLaMA、GPT、GLM等数十款主流模型成功迁移上云后,该智算中心还具备大模型预训练——迁移——精调微调——推理全流程调优能力,能够以算力+技术+定制化方案全面支撑大模型技术的落地应用。
云纳百川,以智能化算力调度能力推动社会算力整合
随着“东数西算”工程的启动,我国算力不均衡问题得到显著改善,并初步形成算力集约化态势。但社会算力分散、协调机制不健全、网络通道质量不稳定等因素,难以实现全国化算力资源调用。为此,中国移动联合国家超算、智算中心及产业合作伙伴共同发起“百川”并网行动,并发布百川算力并网平台。而通过移动云算网大脑,该平台能够实现算力、存力、运力、能力的一体感知和实时呈现,还能够对通、智、超、量等算网资源进行全量纳管并为用户提供一站式智能订购服务。
目前,移动云算网大脑已覆盖300+城市的网络链路,具备从2M到10G的网络带宽分钟级弹性开通,能够基于成本、性能、容量、位置、能效等多类要素对算力进行智能化、精准化调度,从而提供算网服务“最优解”。作为我国十大算力集群之一,芜湖集群算力公共服务平台凭借算网大脑的智能化全域调度能力成功实现“一点建设、服务全省、支持全国”目标,成为我国首个集通算、智算、超算、量算“四算合一”的调度平台。此后,移动云还将以算网大脑对贵州、苏州、成都等枢纽级和省市级算力调度平台提供能力支撑。
能效升级,以绿色算力推动可持续发展
在人工智能、大数据等技术广泛应用之际,千行百业对算力供给需求日益提升,数据中心的IT设备能耗也随之大幅上升。数据显示,目前CPU单芯片功耗已达到350W,GPU单芯片功耗更是高达700W,我国数据中心的电费在整体运维总成本中占比高达60%至70%。因此,算力基础设施亟须通过先进液冷技术来保持适宜的操作温度,并降低能源消耗。
为加速数据中心节能减排,促进产业可持续发展,移动云自主研发全解耦液冷技术,制定液冷服务器、液冷机柜、液冷管路和液冷数据中心设施的解耦方案,并通过充分解耦液冷技术的整个供应链,形成了标准化、白盒化的液冷方案。目前,该方案已成功应用于移动云智算中心,能够有效降低机房散热50%+,节约空调电费50%+,提升服务器算力5%—10%,并将数据中心能源使用效率(PUE)值降至1.25以下,以“散热革命”打造出节能高效的绿色算力。
从通算资源布局到智算中心建设,从资源智能化调度到算力基础设施能效升级,自中国移动提出算力网络概念以来,移动云始终以“算力泛在、算网共生、融数注智、一体服务”为目标,加速并完善算力基础设施建设,并通过打造算网大脑,推动算网服务向集约化、服务化、智能化发展。未来,移动云将持续攻关多要素编排、算网感知、算网能力开发等关键技术,加速构建全国一体化算力体系,从而为产业数智化转型升级提供源源不断的算网资源。