Zenlayer陈秀忠:通往AGI有三大挑战,即时交互、数据保护、算力限制丨GenAICon 2024

智东西作者 GenAICon 2024

2024中国生成式AI大会于4月18-19日在北京举行,在大会第二天的主会场AI Infra专场上,Zenlayer行业拓展总监陈秀忠以《大数据、大算力与大模型驱动下的全球广域网挑战与策略》为题发表演讲。

大数据、大算力、大模型推动AI能力涌现,正在改变当代人们与世界互动的方式。要充分发挥AI的潜力,需要高效、安全、可靠的全球网络支撑。

然而,当前全球广域网在满足AI应用在对数据流动、算力配备和网络性能的需求方面,依然面临挑战。数据流动的高效与安全、算力资源的优化配置与协同工作,以及训练与推理节点之间网络性能的优化,成为当前全球广域网亟待解决的问题。

对此,陈秀忠认为通往更高级AGI,挑战在于更即时的交互、更广的数据、更广的算力。因此,面向AGI的全球边缘云方案,不仅需要考虑支持实时交互的全球网络、数据本地存储和全球流动,同时,也要覆盖大量的边缘节点。

陈秀忠谈道,安全合规的跨境专线是企业连接全球的第一跳。一大挑战在于,数据合规性让全球数据监管力度加大,一旦数据本地化,企业又将何去何从?

以下为陈秀忠的演讲实录:

我有一个问题想和大家讨论:CPU和GPU之间的本质区别是什么?我认为最重要的一点是,GPU专注于图形处理。

现在,我们一起快速地探索AIGC或全球网络的整体情况。以下是大致的议程:现在的情况如何,存在什么挑战,我们的方案又是什么?

一、AI能力为何涌现?“大”力出奇迹

今天关于AI基础设施的主题的演讲有很多,包括网络、数据以及模型的训练和推理等。全球边缘网络中主要的资源集中在算力和数据方面。

这张画是我孩子绘制的作品,因为要参加比赛,所以需要给这幅画取个名字。我把这项工作交给了ChatGPT。在此之前,我们曾为这个问题争吵不休,不知道该给这幅画取什么名字。为什么ChatGPT有这样的能力?实际上,AI技术已经在学术界和工业界发展了四十多年。然而我们是在过去的一两年中才觉得AI非常酷。

我们来看看这个图。

第一,手机很多。现在全球手机数量已经高达86亿部。每一部手机都在扮演着将物理世界数字化的角色,从而创造了大量的数据。

第二,NVIDIA很厉害。NVIDIA在GPU领域有着几十年的深厚积累,并且有个定律——每6个月,GPU的能力将翻倍。这一速度是摩尔定律的3倍。

第三,大模型。这些“大”模型已经创造了许多奇迹,并且它们的能力正在不断涌现。

回顾过去,去年很多人开始使用ChatGPT,但是逐渐地,ChatGPT的活跃度却在回落。此外,在我与许多人沟通时,我发现人们真正敢将工作交给ChatGPT,是因为仍然有机会进行确认。我们也研究了DeepMind团队对于AGI(通用人工智能)的分层。

目前,ChatGPT仍处于非常初级的阶段,即L1阶段。还有许多级别需要攀升,因此实现AGI的道路还非常遥远。

刚才提到,AI涌现的三个主要的因素是大数据、大算力和大模型。现在再来思考一个问题,当AIGC变得非常出色时,当一个与真人几乎一模一样的虚拟人与我进行对话和互动时,接下来会发生什么?我需要与这个虚拟人进行快速的交互,这是一个非常重要的因素。

二、通往更高级AGI,面临三大挑战

我们总结了几个挑战。

第一个挑战是更即时的交互。如果AIGC要给人带来非常出色的体验,那么即时交互就会成为其中的关键。当我观看短视频或长视频时,这些内容并非UGC或者PGC产生,因此是缺乏新鲜感的,就像是经过冷冻处理的内容。

这张图表展示了人与人之间的互动以及人与内容之间的互动。最终,所有这些都指向一个共同点,那就是人。只不过,这个“人”是一个机器。如果这个机器人真的能够与人类如此相似,那么这将是一种非常好的体验,而这也就意味着即时交互在全球范围内是通往AGI的重要挑战。

第二个挑战是更广的数据。尽管我们已经将目前可以获取的所有数据都提供给了大模型,包括所有的书籍、学者发布的论文以及各种各样的数据,但仍然存在很多数据难以提供给大模型,比如一些政府数据和封闭平台的数据就很难被获取。

那么,我们如何才能将这些数据提供给大模型呢?我们注意到全球范围内的一个最大难题是,各国都有自己的数据隐私保护法规,因此数据在全球范围内的流动面临着很大的挑战。

第三个挑战是更广的算力。当在美国一个州进行10万张H100训练时,可能导致电网瘫痪。这意味着我们需要尽量分散计算力,以缓解电力限制的压力。

在推理阶段,我们对计算力的需求更高,因为每次推理都会消耗一定的资源,而推理与用户请求数量直接相关。未来,无论是因为推理需要更接近用户,还是推理次数增加,都需要关注推理部分的计算能力。

根据这三个挑战,可以得出一些小的结论。

首先,对于更即时的交互,需要建立全球范围内的即时交互网络。二是需要更广的数据,思考如何生成和流动这些数据,以及如何解决各国对数据隐私的保护。三是需要更广泛的计算能力,同时我们也要考虑到,推理和训练的计算能力应尽量分开。

三、语言、地理、战争,全球网络碎片化的三大挑战

我们说网络很重要,尤其是全球范围内的网络至关重要。尽管我们访问外网时可能会遇到性能挑战,但国内网络通达性非常好。

然而,全球范围内的网络却是碎片化的。这是因为全球各国之间的网络互通主要依靠海底光缆,而这些海底光缆还面临着诸多问题,导致全球网络出现了许多挑战。

第一张图展示了东南亚国家的网络情况。尽管东南亚的面积和人口仅为中国的一半,但却有十几个国家,且语言也各不相同。例如,泰国和越南这两个毗邻的国家之间的互联通信需要70多毫秒,因为它们需要通过新加坡进行中转。

第二张图展示了南美洲的情况。南美洲的地理格局有些奇特,东边是巴西,西边是秘鲁,尽管它们的物理距离很近,但由于地理因素,如南北延伸的山脉和亚马逊热带雨林的存在,导致陆地光缆无法通行,必须绕过整个南美洲一圈才能实现互联。

第三个因素是战争,特别是在中东市场。我们可以清楚地看到以色列到阿联酋之间的网络需要160毫秒,尽管它们的物理距离可能只有十几毫秒。这三个因素共同决定了全球网络与中国国内网络之间存在着非常大的差异。

四、安全合规的跨境专线,中国企业走向国际市场的第一跳

现在所有客户在海外部署关键应用的需求就是专线。中国企业要走向国际市场,跨境专线是非常重要的一部分。这张图展示了中国整个跨境陆缆和海缆的布局,主要从上海、广东、香港以及北京前往俄罗斯,或者新疆。

这张图展示了全球各个国家对个人隐私的重视程度,导致许多数据无法直接离开其所在国家。

最近我和一位从事汽车行业的朋友聊过,他们在欧洲产生了大量数据,但如果要用这些数据进行研究,他们必须亲自前往欧洲进行处理。

然而,数据合规性让全球数据监管力度加大,一旦数据本地化,企业又该如何解决?

有一个案例,同样是一家汽车企业,他们在全球产生大量数据,需要在各地进行本地存储。因此,他要回到杭州,用一些全球加速的方案让数据快速传回杭州。

大家对时延有没有概念?这张图展示的是以德国法兰克福为中心,覆盖整个欧洲的互联网时间情况,当网络通往东欧时,延迟时间急剧增加,超过了30或50毫秒。由于公有云很难在每个国家都设置边缘节点,因此需要大量的边缘节点来覆盖这些地区,比如土耳其、保加利亚等,以提高真正即时交互的体验。

简而言之,我们公司在全球各地都设有一些边缘服务,可以帮助用户在当地获取算力,东南亚、中东地区我们都有覆盖,在东南亚的十几个国家和每个国家的首都也都有当地节点,在南美洲和非洲也有完整的覆盖。至于欧美地区,这是传统网络覆盖比较好的地方,例如美国的美东、美西地区都有广泛的覆盖,欧洲的保加利亚和莫斯科也有覆盖。

我们公司已经服务中国企业出海十多年了,我们的logo布满了整面墙,包括最早的游戏、汽车企业,以及大型公有云,都是我们出海的主要客户。

总结一下,AI已经为我们做了一些事情,但要实现真正的AGI还有很长的路要走。在通往真正AGI的路上,有许多挑战,如需要更多的数据、更广泛的算力,以及全球范围内即时交互的网络。我们公司则可以在这方面帮助大家。

以上是陈秀忠演讲内容的完整整理。