中国工程院院士刘韵洁:确定性是下一代网络必须面对和解决的问题

21世纪经济报道记者白杨 北京报道

距离ChatGPT上线已经过去500多天,由其掀起的这场新工业革命,正加速改变整个社会。尤其是对算力产业而言,大模型的高歌猛进,对GPU智算、网络、存储等算力产业的每个环节都提出了新需求和新挑战。

在5月21日举办的第四届中国IDC行业DISCOVERY大会上,世纪互联创始人陈升指出,通用计算为主的传统IDC已走到尽头,必须加速演进到面向大模型的AIDC。而在AIDC中,70%的投资将指向GPU和网络。长期来看,现有的网络体系难以支撑未来百万倍的加速计算。

在此背景之下,中国工程院院士、紫金山实验室荣誉主任兼首席科学家刘韵洁表示,确定性是下一代网络必须面对和解决的关键问题,特别是在算力需求激增和网络带宽增长不匹配的背景下。

刘韵洁指出,从2012年到2023年,整个算力需求增加了数十万倍,而最近五年GPU的算力更是增加了90倍。相比之下,整个网络的带宽仅增加了10倍,这种差距预示着对网络带宽和通信能力的需求将越来越高。

同时,数据要素的确权和利用也成为了一个重要议题。刘韵洁强调,如何安全地管理和利用数据要素,确保其隐私保护,是实现数据共享和流通的关键挑战。如果在这一方面做得不好,将会阻碍AI的发展。

在中国,算力分布在不同地区,“东数西算”的布局旨在利用西部算力处理东部数据。但这个过程中,有一个很大的挑战,就是如何实现远距离的无损传输。

刘韵洁提出,RDMA(远程直接内存访问)技术是解决这一问题的关键。他提到,微软的算力中心有70%都是使用无损协议进行互联,而华为的实验数据显示,RDMA在100GE环境下的性能是TCP的8倍多。

此外,刘韵洁还提到了美国能源科研网ESnet的案例,其第六代网络ESnet6在2022年10月开通,号称全球最快的互联网,主要为美国国家实验室提供数据服务。通常来说,ESnet会在新一代网络运行三五年后再启动下一代网络,但2023年,ESnet就宣布要做ESnet7,这是因为他们发现了一些新的需求,其中就包括端到端的确定性。

所以对算力网络来讲,确定性是一个非常重要的基础,可以为海量数据远距离无损传输提供关键技术支撑。而在确定性技术的研究方面,刘韵洁强调了网络架构的变革。

“要解决AI的需求,不是单一技术就能解决的,而是整个网络架构都要系统性地重新设计。”刘韵洁称,架构调整的主导思路是要从原先的“尽力而为”变成“确保所需”,如上文所说,如果网络不能满足需求,那AI的很多工作都无法继续开展。

刘韵洁还提出,确定性的网络技术也要跟光通讯进行融合,因为未来大模型有各种维度的需求,不同用户在不同场景需要不同的网络,他们需要随时定制,这也是未来AI发展必须提供的一个功能。

谈及中国大模型未来的发展,刘韵洁认为,中国大模型的出路在于行业大模型,因为中国行业数据的完整性、系统性是非常好的,尤其是在制造业,如果把这些行业数据利用好,通过行业大模型产生价值,这将是会中国发展新质生产力的一个非常好的途径。