亚马逊自研3nm Trainium芯片,能否成为英伟达之外的第二选择?

Trainium是亚马逊云科技(AWS)专门为超过1000亿个参数模型的深度学习训练打造的机器学习芯片。在2024年 re:Invent大会上,AWS宣布Trainium2正式可用,其性能比第一代产品提升4倍,可以在极短的时间内训练基础模型和大语言模型。

AWS周二宣布,将推出一款由数十万颗自研Trainium芯片组成的巨型人工智能超级计算机,这是其位于德克萨斯州奥斯汀的人工智能芯片设计实验室的最新成果。

该芯片集群将供由人工智能初创公司Anthropic使用,Anthropic是一家人工智能初创公司,近期获得来自亚马逊40亿美元的投资。AWS负责计算和网络服务的副总裁戴夫.布朗(Dave Brown)表示,这个名为 “Project Rainier ”的芯片集群将落地美国,2025年建成后将成为世界上最大的人工智能模型训练集群之一。

在拉斯维加斯举行的年度re:Invent会议上,AWS发布了“Ultraserver”服务器,该服务器由64个自研的互联芯片组成。此外,AWS还在会议上宣布苹果成为其最新的芯片客户之一。

re:Invent会议上发布的产品凸显了AWS此前对自研芯片Trainium的承诺,其将Trainium视为替代英伟达GPU的备选选项。

根据研究机构国际数据公司(IDC)的数据显示,2024年人工智能芯片市场的规模估计为1175亿美元,到2027年底预计将达到1933亿美元。IDC去年12月的研究显示,英伟达在人工智能芯片市场中占据了约95%的份额。

AWS的CEO马特.加曼(Matt Garman)称:“目前,GPU市场只存在一种选择,就是英伟达,如果市场上有其他的选择,我们相信客户会很欢迎。”

而亚马逊推动AI战略的关键举措是更新其芯片,这样可以为他们的客户降低成本,同时在产业链内掌握更多的主动权。掌握更多的主动权有利于亚马逊减少对英伟达的依赖,尽管目前两家公司的关系还非常亲密。

觊觎英伟达芯片收入的公司并不在少数,包括人工智能芯片初创企业Groq、Cerebras Systems和SambaNova Systems。亚马逊的竞争对手微软和谷歌也下场开发自己的人工智能芯片,并试图减少对英伟达的依赖。

自从2018年推出基于Arm架构的CPU Graviton以来,亚马逊一直致力于为客户开发自研的芯片产品。亚马逊高管表示,公司的目标是复制Graviton的成功经验,向客户证明,其产品虽然成本更低,但性能并不逊色于市场领先者。

亚马逊造芯,复刻Graviton的成功经验

AWS的人工智能芯片实验室位于德克萨斯州奥斯汀市,其前身是亚马逊在2015年以约3.5亿美元收购的以色列微电子公司Annapurna Labs。

加迪·哈特(Gadi Hutt)在亚马逊收购Annapurna之前就加入了该公司,担任产品与客户工程部的总监。他表示:“芯片实验室自Annapurna创业之初就已设立,当时Annapurna安家于奥斯汀的考量正是希望所处的位置要靠近芯片巨头设有办事处的地方。”

该实验室工程部主任拉米·辛诺(Rami Sinno)说,在实验室内部,工程师们可能今天还在装配线上工作,明天就去焊接了。他们会立即着手处理任何需要完成的工作,这种精明务实的心态在初创企业中更为常见,而非像亚马逊这样的万亿美元公司。

辛诺称,这是有意为之的,因为Annapurna对于人才招聘有自己的理解,并不像行业中的其他公司那样寻找专长于一个领域的“专家”。他们会寻找既精通版图设计又精通信号完整性和功率传输,并且还能编写代码的电路板设计师。

“我们同时设计芯片、核心、整台服务器和机架。我们不会等到芯片准备好后再设计主板,”辛诺说。“这让团队能够以超快的速度前进。”

AWS在2018年推出了Inferentia,这是一种专门用于推理的机器学习芯片,即将数据输入AI模型以生成输出的过程。亚马逊高级副总裁兼杰出工程师詹姆斯·汉密尔顿(James Hamilton)表示,团队首先专注于推理,因为与训练相比,推理任务对芯片的要求略低。

到2020年,Annapurna已经准备好推出其首款面向客户用于训练AI模型的芯片“Trainium”。去年,亚马逊宣布推出Trainium2芯片,称该芯片现已可供客户使用。AWS还表示,目前正在开发Trainium3芯片以及基于该芯片的服务器,其性能将是基于Trainium2芯片服务器的四倍。

规模决定算力,亚马逊服务器搭载芯片数量为英伟达两倍

随着AI模型和数据集的规模越来越大,为其提供动力的芯片和芯片集群的规模也在不断扩大。科技巨头们不仅从英伟达购买更多的芯片,还自行设计芯片。如今,他们正试图将尽可能多的芯片集中在一个地方。

“越来越大”也是亚马逊芯片集群的目标,该集群由Annapurna和Anthropic合作构建,目的是让AI初创公司使用该集群来训练和运行其未来的AI模型。亚马逊表示,该集群的浮点运算能力是Anthropic当前训练集群的五倍。马斯克的xAI最近建造了一台名为Colossus的超级计算机,该计算机使用了10万个英伟达的Hopper芯片。

汉密尔顿说:“你将服务器的规模扩大得越多,就意味着你需要解决的问题越少,整个训练集群的效率也就越高。一旦你意识到这一点,更大更强就成了目标。”

亚马逊的Ultraserver将64个芯片整合到一个封装中,由四台服务器组成,每台服务器包含16个Tranium芯片。布朗说,相比之下,英伟达的部分GPU服务器只包含8个芯片。为了将这些芯片组合在一起,形成一个可以达到83.2千万亿次浮点运算的服务器,亚马逊的秘密武器是其网络技术NeuronLink,这项技术可以使所有四个服务器相互通信。

汉密尔顿称,这是他们在不使服务器过热的情况下所能容纳的最大数量。从尺寸上看,它更接近于冰箱大小,而不是紧凑的个人计算机。但布朗和其他高管表示,这并不是在向客户施压,让他们从亚马逊和英伟达之间二选一。他们更希望客户可以在其云平台上继续使用自己喜欢的产品。

AI编程初创公司Poolside的联合创始人兼CTO艾索.康德(Eiso Kant)表示,他们公司在使用Amazon的芯片运行其AI模型时,相较于使用英伟达的芯片,可节省约40%的成本。但缺点是,工程师需要花费更多的时间让亚马逊的相关芯片软件正常运行。

康德表示:“亚马逊直接通过台积电制造芯片,并将其应用于自己的数据中心,因此对AI初创企业来说,这是看起来更“稳妥的选择”。他表示,亚马逊的赌注下在哪里至关重要,因为在硬件领域,落后对手6个月就可能意味着业务的终结。”

苹果机器学习与人工智能高级总监贝诺伊·杜平(Benoit Dupin)在大会上表示,苹果内部正在测试Trainium2芯片,预计可节省约50%的成本。

面对英伟达,Trainium能走多远

分析师表示,对于大多数企业来说,选择英伟达还是亚马逊并不是一个迫切的问题。因为大型企业更关心如何从运行AI模型中获得价值,而不是研究如何训练它们。

这样的市场趋势对亚马逊来说是件好事,因为客户不会注意到云服务背后是哪家芯片厂商在提供算力。它可以与Databricks这样的云数据公司合作,将Trainium应用于云计算,大多数企业都不会注意到任何差异,因为计算能够正常运行,而且成本还会越来越低。

市场研究和IT咨询公司Gartner的分析师奇拉格.德卡特(Chirag Dekate)表示,亚马逊、谷歌和微软正在开发自己的AI芯片,因为他们知道自行设计芯片可以节省时间和成本,同时提高性能。因为定制硬件可以提供非常具体的并行化功能,这可能比通用型GPU的性能更好。

研究公司Redburn Atlantic的分析师亚历克斯·海斯尔(Alex Haissl)表示,AWS在人工智能不太被关注到的领域也有着被低估的实力,包括网络、加速器和名为“Bedrock”供企业使用人工智能模型的平台。

不过,公司领导对于AWS的芯片能够走多远持怀疑态度,至少目前是这样。AWS CEO加曼说:“实际上,我估计在很长一段时间内,市场还是会被英伟达占据,因为目前99%的工作负载都是由它们来处理的,这种情况可能不会改变。但是,我希望Trainium能够开辟出一个不错的利基市场,它将会是很多工作负载的绝佳选择。

本文由雷峰网编译自:Exclusive | Amazon Announces Supercomputer, New Server Powered by Homegrown AI Chips - WSJ