云端原生超级运算已经到来:什么是云端原生超级电脑?

云端原生超级运算是超级运算领域的下一个大事。如今这个大事件已经到来,助力我们应对最棘手的高效能运算(HPC)和人工智慧(AI)应用。

英国剑桥大学正在当地建构一台云端原生超级电脑美国有两个研究团队正在分别开发云端原生超级运算的关键软体

洛斯阿拉莫斯国家实验室(Los Alamos National Laboratory)与统一通讯框架联盟(Unified Communication Framework Consortium)合作,正助力实现加速资料演算法能力俄亥俄州立大学正更新讯息传递介面(MPI)软体以强化科学模拟。

NVIDIA正透过最新的DGX SuperPOD向全球用户提供云端原生超级电脑。DGX SuperPOD包含NVIDIA BlueField-2资料处理器(data processing unit,DPU)等关键组成,现在已经投入生产

那么,什么是云端原生超级运算?就像Reese的花生酱夹心巧克力一样,云端原生超级运算融合了两项业界领先技术优点。云端原生超级电脑融合了高效能运算的强大运算力和云端服务安全性易用性

换个角度看,云端原生超级运算提供一个效能强如TOP500超级电脑的HPC云端,它在不牺牲应用效能的同时允许多个用户安全共享。

云端原生超级电脑有两个关键功能。首先,它允许多个用户共享一台超级电脑,同时确保每个用户的应用安全性和私密性。这种能力被称为「多租户隔离」,在当今的商业云端运算服务中十分普遍,但一般不会出现在技术和科学应用的HPC系统中,因为在这些系统中,裸机的效能是首要考量,而安全服务会降低系统效率

其次,云端原生超级电脑使用DPU来处理储存、租户隔离安全和系统管理任务。这样可以卸载CPU,使其专注于处理用户的应用程式任务,从而最大化系统的整体效能。

如此一来,超级电脑便能在不损失效能的情况下实现云端原生服务。DPU未来将能处理更多的卸载任务,从而使系统在运行HPC和AI应用保持最高的运行效率。

云端原生超级电脑如何运行?

如今,超级电脑通常有两个「大脑」,CPU和加速器(一般为GPU)。加速器集结了数千个处理核心,可为AI和HPC作业负载中最重要的平行运算提供加速。CPU是针对需要快速序列处理的演算法而设计的,但随着其管理的系统日益庞大且日渐复杂,通讯的层数不断增加,导致CPU的负担越来越重。

云端原生超级电脑导入第三个「大脑」DPU,协助建构更快、更高效的系统。DPU能够卸载安全、通讯、储存等需要由现代系统管理的工作。

传统的超级电脑中,运行中的运算任务有时不得不停下来等待CPU去处理通讯任务,这是业界熟知的问题,被称为系统杂讯

在云端原生超级电脑中,运算和通讯是平行处理的。这就像在高速公路上开设第三条车道一样,能够让所有流量变得更加顺畅。

俄亥俄州立大学MVAPICH实验室是HPC通讯领域的专业机构,该实验室的早期测试显示,在云端原生超级电脑执行某些HPC作业的速度是传统电脑的1.4倍。该实验室展示结果亦显示,云端原生超级电脑与既有HPC系统在运算和通讯功能中达到100%重叠,且效能高出99%。

剑桥大学研究运算服务部门总监Paul Calleja表示,我们正在打造欧洲第一台科研云端原生超级电脑,以云端原生的InfiniBand服务提供裸机效能。按照2020年 11月TOP500榜单,这套系统跻身前100名,它将使我们的研究人员能够运用超级运算架构领域的最新成果来充分优化他们的应用。

HPC专家正为云端原生超级电脑的进一步发展铺路

统一通讯框架联盟总监Steve Poole表示,由业界和学界顶尖成员组成的UCF联盟正在打造能实现未来云端原生超级运算所需的生产级通讯框架和开放标准。」该联盟的成员包括来自Arm、IBM、NVIDIA、美国国家实验室和多所美国大学的代表。

俄亥俄州立大学计算机科学工程系教授网路运算实验室主任Dhabaleswar K.Panda表示,我们的测试显示,云端原生超级电脑的架构效率能够进一步提升超级电脑的HPC效能,并实现新的安全功能。