中国超算探索“云端”共享模式 加速应用落地

今年的SC20大会上传来好消息,超算行业顶级奖项戈登贝尔奖颁发给了深度势能(DP)团队,以奖励他们在分子与材料模拟领域做出的贡献。

所谓“工欲善其事必先利其器”,要想获得出色的应用测试成绩,必须先有领先的计算平台。伴随着神威太湖之光的出现,中国人已经连续获得了2016和2017两届戈登贝尔奖。

除了神威・太湖之光和天河二号A之外,中国排名第三的超算平台北京超级云计算中心A分区,赛前也被用来进行相关的计算任务。据悉,深度势能(DP)团队计划将核心软件部署在这套系统中,并通过同样部署在平台上的软件系统实现对于CPU/GPU资源的调取,加速计算提升效率。这种“云化”的方式可以帮助项目团队大大节省系统采购、搭建和运维的成本,实现了按需支付、按量付费,让队员将更多时间和精力投入于科研本身。

这个用于提供“算力池”的平台有多强计算力呢?据最新公布的中国高性能计算机TOP100榜单介绍,北京超级云计算中心A分区的Linpack测试性能达到了3.74PFlops,成为HPC TOP100榜单第三名。相比前两家国字头的超算中心,成立于2011年的北京超级云计算中心一直走的都是市场化路线,通过“云化”的超级云计算服务模式布局通用超算市场,着力服务于对算力不同需求的科研用户

其实,“云化”的超级云计算服务模式并不是一个新概念,早在公有云开始普及的时代,就有先行者进行超算“云化”的研究。在许多人印象中,“云”为计算带来的更多是便捷性而不是性能优势,或者说弹性可扩展才是“云”的核心,而对于性能和稳定性要求极高的超算似乎并不适合“云化”。

但现实却给持有这些观点的人“上了一课”,这次戈登贝尔奖就是最好的证明。有人说:那么多大型的超算中心,难道还不能保障算力吗?事实上,虽然国内有多家超算中心可供选择,但许多时候这些超算中心承载的都是国家级关键科研项目,正因为“尖端”的定位,使得这些超算中心自然优先为这些项目提供充足的算力保障,而对于中小超算用户来说,一旦遇到这样的情况就好比“交通管制”一样,对于正在进行的业务也会造成无可估量的影响。

因此,许多用户将目光聚焦到北京超级云计算中心的身上。作为专业的超算云化服务平台,北京超级云计算中心可以提供相对充足的算力给客户,满足广大中小微企业的需求,并且在服务上有专业人员进行系统维护与程序调优,保障每一项作业都运行在优化状态;而在价格上,北京超级云计算中心也重点突出性价比优势,用户通过租赁来完成业务部署,可以从复杂的自建与运维中解脱出来,更专注于科研本身。

如何满足超算用户“更多计算资源、更快计算速度、更好用户服务体验”的需求?北京超级云计算中心相关负责人介绍,中心将原有的计算、存储、网络设备实现了硬件解耦,构成了一个个资源池。用户在租赁资源的时候丝毫不需要考虑选择怎样的设备或者怎样的平台,只要确定自己所需的资源数量,平台就会从资源池中划分对应的份额,改变了以往超算中心资源排队的情况。

除了计算层面的硬件优势之外,丰富的解决方案也是“超级云计算”的特色之一。能源行业领跑者金风科技正是看中了该中心提供的行业化专属资源支持方案。针对能源行业的算力需求特性,北京超级云计算中心提供了独占、包核时等多种使用方式,同时在高峰期还提供了弹性扩展能力。

如今,北京超级云计算中心按“随需供应、动态扩容”划分为多个分区,其中包括了A分区、T分区、M分区、IO分区以及科技云9分区、12分区、15分区、17分区、19分区等等不同的分区,满足各种层级客户的需求。

超算是一个完整的生态,从超算中心到上层应用,从计算、存储、网络到服务、运维、管理,这背后的每个环节都需要大量的投入,包括超算人才的培养也不是一朝一夕能实现的。该负责人表示,北京超级云计算中心所代表的仅仅是如何“用好”超算的环节之一,业界还需要付出更多的努力,推动中国从超算大国到超算强国转型,向着百亿亿次的目标坚定迈进。