Inflection AI 为何弃英伟达 GPU 选英特尔 Gaudi 3

在打破常规的趋势消息里,Inflection AI 透露其最新的企业平台将放弃英伟达 GPU 而采用英特尔的 Gaudi 3 加速器。...

“虽然 Inflection AI 的 Pi 客户应用此前在英伟达 GPU 上运行,但 Inflection 3.0 将由 Gaudi 3 提供支持,实例在本地或由[Tiber] AI 云来提供支持,”英特尔表示。

Inflection AI 于 2022 年起步,是一家开发名为 Pi 的对话式个人助理的模型构建企业。然而,今年春天,关键创始人穆斯塔法·苏莱曼(Mustafa Suleyman)和卡伦·西蒙尼安(Karén Simonyan)离职前往微软后,这家初创公司已将重点转向为企业使用其数据构建定制的微调模型。

这家初创公司平台的最新版本 - Inflection 3.0 - 旨在使用其自己的专有数据集对其模型进行微调,目标是构建整个企业特定的 AI 应用程序。英特尔本身将是首批采用该服务的客户之一,这着实让我们怀疑 Inflection 有没有为加速器付全价。

虽然 Inflection 将在 Gaudi 3 加速器上运行该服务,但它似乎短期内不会搭建系统。与托管在 Azure 中的 Inflection 2.5 类似,最新版本将在英特尔的 Tiber AI 云服务上运行。

不过,该公司确实觉得需要物理基础设施,至少对于那些更愿意将数据保留在本地的客户来说是这样。自 2025 年第一季度起,Inflection 计划提供基于英特尔 AI 加速器的物理系统。

我们要指出的是,仅仅因为这家 AI 初创公司借助 Gaudi 3 加速器为其企业平台提供支持,并不意味着客户在运行其完成的模型时就只能使用它们。

人工智能模型和软件的开发成本可不低,和英伟达的 H100 一比,英特尔的 Gaudi 3 就相对实惠些。“通过在英特尔上运行 Inflection 3.0,我们发现价格性能提升了多达两倍……与当前的竞争产品相比,”Inflection AI 首席执行官肖恩·怀特在周一的博客文章中写道。

起码从书面上来看,Gaudi 3 不但有希望在训练和推理方面比英伟达大名鼎鼎的 H100 更快,而且价格还更低。

在 4 月的英特尔愿景大会上有消息称,Habana Lab 的 Gaudi 3 加速器具备 128GB 的 HBM2e 内存,带宽高达 3.7Tbps,密集 FP8 或 BF16 性能达 1835 万亿次浮点运算。

在 8 位精度下,它大致和 H100 旗鼓相当

但在 16 位精度下,它所提供的密集浮点性能近乎是 H100 的两倍,这对 Inflection 所瞄准的训练和微调工作负载有着重大影响

英特尔在人工智能领域处于劣势地位,而且该芯片主流供应的时机不太好,恰值英伟达的 Blackwell 和 AMD 288GB MI325X GPU 推出之时,这两款产品都将在第四季度上市,所以,英特尔对其加速器的定价相当激进。

在今年春季的台北国际电脑展上,英特尔首席执行官帕特·格尔辛格宣称,一个配备了八个加速器的单个 Gaudi 3 系统仅需 12.5 万美元,大约是同等 H100 系统的三分之二。

在最近的记忆中,转折并非英特尔近来取得的唯一佳绩。8 月,蓝色巨人(IBM)宣布将在 IBM 云中部署英特尔的 Gaudi 3 加速器,预计在 2025 年初上线。

往后看,IBM 计划将对 Gaudi 3 的支持扩展到其 watsonx AI 平台。与此同时,英特尔告诉 El Reg,该加速器已向包括戴尔技术和超微在内的原始设备制造商交付。

虽然让主要的原始设备制造商认真对待 Gaudi 对英特尔来说是一场胜利,但这个平台的未来充满变数。正如我们之前报道的那样,Gaudi 3 是 Habana-Labs 开发的加速器最后的奋力一搏。

从明年起,Gaudi 会被一款叫做 Falcon Shores 的 GPU 所取代,它会将英特尔的 Xe 图形 DNA 和 Habana 的技术相融合,这引发了有关迁移路径的合理疑问。

英特尔一直宣称,对于在诸如 PyTorch 这类高级框架中进行编码的客户而言,迁移将基本无缝。对于那些在较低级别构建 AI 应用程序的客户,这家芯片制造商已承诺在 Falcon Shores 首次登场之前提供额外的指导方针。 ®