邬贺铨:东数西算实为“东数西存”如何处理冷热数据值得研究

中国工程院院士邬贺铨。2022中国算力大会官方供图

新京报贝壳财经讯(记者罗亦丹)7月30日,中国工程院院士邬贺铨在2022中国算力大会上表示,对东数西算中数据中心的管理机制、冷热数据配对等还有许多需要深入研究的内容。

邬贺铨介绍,数据分为冷数据和热数据,热数据主要是一些需要实时性计算的数据,冷数据相对不需要实时性,国家的八大算力枢纽,实际上西部主要定位在处理冷数据和一些本地数据,东部主要是热数据。

“最近产生的数据是热数据,但是热数据经过一周或几个月以后,也要变成冷数据。人类历史上90%的数据都是过去几年产生的,50%是短短两年产生的,这意味着两年之前的数据肯定都是冷数据,而且两年之内产生的也有很多是冷数据。从一般的统计来看,冷、温、热的数据分别占到80%、15%和5%,也就意味着冷数据是最多的。对冷数据来讲,计算不是常态,主要是存储。”邬贺铨表示,“东西部分别以热数据和冷数据为主,照这样算,东数西算实际上是东数西存,主要存在西边,当然偶尔会有一些计算。”

据了解,目前有存算分离和存内计算两种架构。邬贺铨认为,对于冷数据存算分离是好事,但对热数据存算分离会使得数据在存储和计算之间来回输入,而CPU的计算能力高于存储,这会使得CPU能力受到存储的拖累,形成瓶颈,此时存内计算就适合热数据,例如自动驾驶。

目前,西部以冷数据为主,但是西部也要处理当地的热数据。“也就是说对西部来讲,冷热都有,是不是同样要采取不同的存算架构,这是值得研究的问题。”他表示。

邬贺铨认为,东西部数据中心的冷热数据配对值得研究。此外,每个数据中心往往有多个业主,在同一个数据中心内如何协调这些业主共享能源、土地、电力供应,建立共享机制也值得研究,“每一个数据中心需要设计算力、存力和网络能力的合理比例以及相应的灾备比例,这里面跟冷热数据、大文件小文件数据是有关联的,不能一刀切,关于数据中心的数学和算术,还有很多需要深入研究的内容,我们要善于从实践中学习创新。”

编辑 徐超 校对 赵琳