大模型时代下,企业需要什么云?

手工劳动/兽姐

手工编辑 /角叔

出品/独角兽挖掘机

开年来,随着ChatGPT的狂飙,引发了一轮全球的大模型热,各方资金蜂拥而入。

ChatGPT能够成为火爆全球的顶流模型,除了自身强大的创新能力,也离不开强大算力的支持,这背后是耗资数亿美元,用了英伟达数万颗A100的微软超级计算机。

一个有意思的现象是,打造出ChatGPT的明星公司OpenAI依然处于烧钱赚吆喝的巨亏状态,提供核心算力芯片的英伟达却是赚得钵满盘满,今年来股价已经翻番,市值破万亿美元。

可以说,随着大模型时代到来,给整个产业链都带来了新的挑战和机遇,甚至有人惊呼第四次科学技术革命到来了。

AI大模型背后的海量数据,需要有强大的算力作为支持,这自然也推动了云计算的升级迭代。

某种程度上,大模型之争说到底也是云服务能力之争。在市场明显过热的情况下,行业也开始有一些更加理性的声音传出,不需要这么多大模型,真正能够为产业所用才是正解。

如何解决算力成本高企后,大模型训练本身带来的高昂成本,让很多企业想用而不敢用的问题?站在新的生产力时代的起点,从云入端,数字基建服务商应该怎么部署?

时代正在呼唤新一代数字基础设施。尤其是大模型的爆发,对于算力基础设施提出更高的要求,应尽可能地用更高效的异构基础设施资源,来支持不同的算力需求。

01

大模型下的数字基础设施

早在数年前,就有不少企业逐渐意识到数智化升级的重要意义,但随着近年来数智转型逐渐进入“深水区”,企业对此的需求也发生了一些明显变化。

这些变化集中体现在三个方面。

从转型意识来看,此前企业推动自身的数字化改造,几乎都是从局部切入,更多是为了适应社会发展的被动数字化;而时至今日,这种观点已发生了翻天覆地的变化,由点及面,越来越多企业开始主动求变,从全局出发,希望借助数字化来提升增长韧性。

从业务部署来看,在资源管理方面,多数企业原来只需单纯管理IaaS,现在则需要对全栈资源做统一管理;在安全防护方面,他们更希望在做推进数字化建设的同时,根据业务场景制定一体化安全体系,保障业务安全稳定运营。

从“上云”模式来看,企业“上云”整体呈现“多态、多地、多芯、多栈”这四种形态,在云端AI进化到显著的训练推理、云桌面、图形图像设计等多元化场景阶段时,云上异构成为最能发挥AI效率的计算方式,但这也给数字化建设提出了更为严峻的挑战。

一方面要保证灵活性,在混合多云架构下,让多种计算资源能够进行良好的协作;另一方面,需要强调安全性,能够广泛支持各类芯片、云平台及不同异构基建,提升中国企业的经营韧性。

这与京东云对新一代数字基础设施的理解不谋而合,曹鹏认为,新一代数字基础设施至少应该具备三个特征。

首先,是融合开放。从实际应用来看,一个数字基础设施仅依靠单一架构,已很难支撑整个社会的运转。市场需要更加融合、更加开放的基础设施,这样才能屏蔽很多客户差异化的需求,把更多异构的硬件纳入到设施管理中来,对不同行业、不同应用提供很好的兼容性。

数字基础设施融合方法,要做到的就是三“多”——“多云、多芯、多活”,这个做到广泛支持各类芯片架构,包括GPU、CPU、NPU,包括兼容各类公有云和私有云平台,这样才能支持下一步的智能化和产业化的发展。

其次,是极致的技术降本。大模型和数字化对于基础设施需求越来越大,技术密度、网络带宽和存储需求,都呈几何级增长,算力成本变成非常重要的因素,有能力把算力成本降得更低,这是作为一个好的基础设施应该考虑的。

“比如京东云新一代分布式存储平台云海,能够做到千万级的IOPS,延迟达到百微秒以内,通过存算分离技术架构,节省成本超30%。比如软硬一体虚拟化引擎京刚,将算力虚拟化损耗降至零,作为数据中心级DPU引擎,将存储IOPS、网络转发性能均提升50%。”

第三,是安全可靠。随着智能化、信息化、数字化的推荐,信息安全也变得愈发重要。保证信息是安全、不被泄露,保证业务能够高质量地、连续地发展,同样值得重视。“京东云在服务上可以做到99.995%,在存储上的可靠性可以做到12个9,这都是全球顶尖的水平。”

02

统一逻辑的“一朵云”

大模型的如火如荼,为产业发展带来更多可能性,这也是互联网大厂、科创公司争抢布局的根本原因。

而另一个摆在面前的现实问题是计算硬件的性能提升门槛越来越高,AI算力短缺问题极有可能是一个长期存在的问题。

对于大多数企业而言,想要更高效地解决算力瓶颈等问题,为自身数智化建设提供更充足、普惠且安全的AI算力,或许还有一条更为“经济”的途径可走。

这里“更经济的途径”,对应的是数字基础设施提供者的“AI普惠”相互对应,即基于稳定的云计算基础设施,将强大的AI算力和简单上手的技术工具,输送到企业特别是中小企业手中。

尤其是对中小企业来说,可以把这块成本省下来,把服务交给京东这类能提供效率高且安全的云的大厂。

格局一打开,选择就更多了。

从需求匹配的角度来看,在“万物皆可上云”时代,混合多云确实是必要的,也逐渐成为主流趋势之一。报告显示,有高达85%的企业使用两个或多云平台,有25%的企业至少使用五个云平台。

一云独放不是春,多云混合春满园。

从用户端来说,采用“多云”架构,既可以避免与单一云厂商技术与业务绑定带来的风险加剧,又可以构建更加灵活、性价比更高、有主导权的混合云结构,来解决存量、增量两方面问题。

如何通过统一逻辑“一朵云”实现更敏捷、更开放、更高性价比和一致体验的云架构,正是混合多云技术要解决的问题。

而京东云对此颇有心得。从创立之初起,京东云就支撑着京东大生态的运行,京东各条线业务从“上云”那一刻起,就生长出一个混合多云的环境,这也是一个天然的超大规模混合多云实践场。

按照京东云事业部副总裁刘辰的介绍,京东的混合多云平台是以应用为中心的云设计范式,与以资源为中心的传统公有云、专有云平台不同,混合多云平台让算力去找应用,让算力去找数据,实现算力按需按时供给和数据流动。

简言之,就是在落地层面实现多云、多芯、多活。这也是新一代数字基础设施三大典型特征最重要的体现。

在多云方面,京东通过统一的云抽象层“云舰”,打通分布在公有云、专有云、IDC和边缘节点的物理基础设施,打通Underlay和Overlay网络,数据和业务应用,并实现统一的运维运营和管理体系,从统管到统建。

在多芯方面,除了全面兼容Intel,AMD,ARM架构的CPU,和全栈国产化软硬件体系基础上,通过京东集团生产级业务的国产化应用落地的打磨,京东云积累了从硬件到操作系统,基础数据库和中间件,以及应用运行时的全栈调优经验,实现生产级国产化可用。

在多活方面,云舰与现在的一云多芯的云架构,以单元化技术,实现同一个应用跨芯片进行多活部署和调度,一部分流量运行在传统x86云平台,另外一部分流量运行在国产化平台,不断优化适配性能,稳定性和兼容性,实现应用在国产化环境的真替真用。

成本是不容忽视的另一个重点,京东云给出的解决方案是“异构算力池化”。

一方面支持本地的GPU/NPU虚拟化,容器化,让AI应用无需修改代码就可以调用远端的GPU、NPU资源,实现数据中心级别的池化管理和弹性调度,并与现有云平台打通,实现CPU,GPU协同调度;另一方面,同时兼容多种AI训练框架,并支持多种AI推理任务混合部署。

如此看来,京东云所打造的统一逻辑的“一朵云”,不仅更适用于当下企业数智化转型的需要,更重要的是,其这种通过精益调度为企业降本增效的功效,已成为新一代数字基础设施的一类代表能力。

03

走向产业是必然

2023年开年以来,以BATJ为代表的互联网大厂,以商汤科技、科大讯飞等为代表的科技公司,以及各类初创企业,纷纷加入大模型领域。京东也宣告将在7月13日正式发布自己的大模型,以及京东大模型与产业场景结合的最新进展。

尽管公众对于AI的关注已达到了一个新的高度,但从大市场的动作来看,大多数互联网企业、科技企业等在锤炼大模型时,大多似乎都是直接对标OpenAI的GPT-4,坦白讲,鲜有显著的差异化价值。

大模型想要“研以致用”,走向产业已是一种必然。

但在产业应用的过程中,大模型企业可能要思考的是:一来,技术快速溢出,但算力基础设施难以同步跟进,如何解决越来越大的算力供需的“剪刀差”;二来,千行百业的落地条件和能力禀赋各有所不同,如何结合行业周期、行业痛点、个体特征等提供服务方案。

这就要求数字基础设施服务商,必须拥有丰富的服务实体产业经验,可以及时洞察产业客户的需求,并基于此进行技术和产品的更新迭代,让每一个技术创新都能切实解决真实场景下各类用户最在意的真问题。

这就是京东云不断聚焦于“产业”方向的关键所在。就实践这一层,京东云已通过“服务练兵”,验证了产业大模型真正走向应用的可能与商业价值。

将京东云在生态内的极限考验平移至大市场,在对外部企业提供数字服务支持时,京东云同样显得格外游刃有余。

这不得不提到京东云在2022年与央视春晚的红包合作。在没有额外增加一台服务器的基础上,京东云腾挪调度现有资源,包括遍布全国的70多座数据中心、近300万个容器、超1000万核算力资源,通过16次秒级精准调度资源,支持了那场超大流量洪峰的全球节目。

此外,国家电投、中化能源、苏州农商行等重量企业都进入了京东云的“朋友圈”。这些客户基础资源庞大,管理复杂,迁移困难,业务庞杂,而京东云在他们原有云资源环境的基础上,完成混合多云部署,为各业务部门之间跨系统、跨业务单元提供一体化协同管控。

截至目前,京东云已服务了超95%的大型央企、2048家大型企业、914家金融机构和超207万家中小微企业。

“对京东来说,技术永远只是手段,而不是目的,我们发展大模型,最终还是希望将产业实践中凝聚出的数字化能力,开放出来服务社会,不断提升产业效率。”曹鹏如是说。

曾几何时,人们认为做大模型像是一场短跑比赛,拼的是眼力和速度,只要看得准时机、提前入局、快速投入,就能狂飙突进甚至成功冲刺。

现实情况已让各方愈发深刻地意识到,大模型走入千行百业,实际是一场跨栏比赛,要跨过:算力资源的性价、基础模型的选择、业务场景的结合、开发工具的完备、商业模式的摸索、生态资源的支持等。

只有这样,才有可能更好地面对大模型时代的到来。(完)