【深度】谁能替代英伟达?
“我们离倒闭永远只有30天。”这是英伟达创始人黄仁勋的口头禅。
这话从英伟达老板口中说出颇为古怪,因为这家公司作为游戏和人工智能芯片的领头羊,已经拥有对手难以比及的丰厚利润。但曾经,英伟达的确面临过资金耗尽、濒临破产的窘境。
始于2022年底的AI热潮让这家忧患意识强烈的公司获益良多,推动着英伟达营收和利润继续狂飙:上一个财务季度,英伟达总营收221亿美元,同比增长265%,环比增长22%,净利润123亿美元,同比增长769%。刚刚过去一个财年中,英伟达的营收达到609亿美元,同比增长126%,净利润298亿美元,比上一年增长了581%。
2月23日,英伟达市值暴涨,并短暂突破了2万亿美元,成为全球市值第三大上市公司和最有价值的芯片公司,令曾是全球最强芯片公司的英特尔也难望其项背。
“几乎完美”的商业模式
英伟达曾少有人知,过去它发明了GPU(图形处理器),支撑了游戏产业蓬勃发展,且一度在加密货币“挖矿”中大赚了一笔。
随着AI热潮来临,其业务再次大幅提振。如今,英伟达控制着AI加速计算80%以上的份额,它还挖了一条又宽又深的“护城河”来维持自己的优势,其成功令人眼红。
具体来说,为游戏而生的GPU擅长处理图像、科学计算等用途,天然适合需要同时处理大量数据的AI计算等场景。
20年前,英伟达还开始投资能够对GPU进行编程和微调的基础软件层CUDA,来降低用GPU处理数据的复杂程度,构建起生态,但CUDA仅为英伟达专有,这意味着开发者不能自由对其进行调整。
通过收购,英伟达还具备了在服务器集群数据传输所需的网络连接能力,这正是目前训练AI模型所必须的互联技术。如此经过十多年发展,英伟达GPU已成为一种AI基础设施。
此外,作为芯片设计公司,英伟达还将芯片制造等工作外包给台积电、三星等外部芯片代工厂,将半导体产业分工合作模式发挥到极致——永远使用最有竞争力的芯片制造工艺,意味着英伟达不会犯下英特尔长期难以兑现芯片制造技术更新承诺的大错。
最终,英伟达提供了最好的芯片、最好的网络技术以及最好的软件。黄仁勋曾表示,AI系统最重要的不是硬件组件的成本,而是训练和运行AI应用的费用。从这一点来衡量,黄仁勋认为,英伟达在性价比方面没有对手。
从商业上来看,英伟达当前的模式几乎无可挑剔,GPU行业早已经历过创业潮到巨头独大的转变,仅剩下英伟达和AMD两家公司。随着半导体的发展日新月异,技术与资本门槛不断上升,相比英伟达将用于将绘制游戏画面的技术平移到AI计算,让外界从零做起、挑战英伟达的努力困难重重。
但英伟达在AI计算的“垄断”的现状难以令人满意,竞争对手在竭力打破英伟达的统治地位,客户也需要第二个AI芯片供应源。尽管英伟达的GPU有很多优点,不过它在用于AI时它可能耗电量太高且编程复杂。从创业公司到其他芯片制造商和科技巨头,英伟达的竞争对手层出不穷。
奋起直追的芯片巨头
老牌芯片厂商AMD被视为与英伟达水平最接近的同行。
作为英伟达在游戏芯片的长期竞争对手,AMD也拥有自己的AI处理器产品,并与渴求算力的数据中心运营商建立了长期合作关系。
过去,AMD一直在进行其新一代AI战略规划,包括并购和部门重组等,但生成式AI的横空出世导致该公司产品阵容进一步扩充:去年12月发布的MI300芯片专门面向复杂的AI大模型,配置了1530亿个晶体管、192GB的内存、每秒5.3TB的内存带宽,分别是英伟达最强AI芯片H100的大约2倍、2.4倍和1.6倍。
在软件上,AMD希望通过将自己的ROCm软件开源、并且提供更便捷的迁移工具。他们将CUDA应用“翻译”成MI300可以运行的代码,试图将英伟达的客户吸引过来。
相比英伟达,AMD在云端AI芯片市场几乎从“零”起步,意味着其AI芯片业务增速会相当快。大型客户也乐于尝试AMD的芯片,开发了ChatGPT的OpenAI就表示,将使用MI300进行部分模型训练。上一个季度,MI300推动AMD数据中心GPU总收入超过4亿美元,成为公司有史以来收入上涨最快的产品。
AMD CEO苏姿丰预计,到2027年,AI芯片的全球销售额将达到4000亿美元,远高于去年的约400亿美元,这意味着AMD需要从中赢得部分市场。有分析师估计,随着时间的推移,AMD在AI芯片领域的市场份额可能达到20%。
英特尔也不愿意在AI芯片中落后,开始重整旗鼓。
过去一年里,英特尔针对生成式AI只可以在英伟达芯片上运行的说法进行了回击,大张旗鼓宣传了其Gaudi 2芯片在第三方测试的表现,并宣称客户有了摆脱封闭芯片生态的新选择。
与英伟达最新的H100相比,英特尔最先进的量产AI加速芯片Gaudi 2在性能上落于下风,估计每颗H100性能领先Gaudi 2约3.6倍。不过,英特尔认为,Gaudi 2成本更低,其价格优势可以缩小与H100的性价比差距。此外,英特尔也具备和英伟达对应的网络技术和类似CUDA的软件。
目前,英特尔正在调整GPU策略,以便在云端AI侧追赶英伟达。去年,英特尔宣布,将整合现有的Habana Labs、数据中心GPU两大部门,于2025年推出新平台“Falcon Shores”,来一步增强AI芯片设计能力。
AMD和英特尔近年来一直在进行收购活动,以增强其AI产品。
2022年,AMD斥资350亿美元收购了可编程芯片公司赛灵思,赛灵思所设计的芯片在制造后可以重新编程,并能用于AI计算。英特尔在2019年以约20亿美元收购了以色列AI初创公司Habana Labs,目前英特尔设计的AI芯片主要就来自Habana Labs部门。
另走蹊径的初创公司
如果完全按照商业竞争,曾经历过大浪淘沙的GPU可能没有新公司的立足之地,也有一批创业公司另辟蹊径,设法制造比英伟达的GPU更适合AI的芯片。
这些公司选择的是使用AISC(专用集成电路)架构,进入云端AI计算场景。
ASIC的设计思路是把一些算法固定到硬件上,使得芯片复杂度和开发难度更低、针对特定任务的效率更高,但通用性和灵活度不如GPU。在基于AISC架构的初创公司中,Cerebras、Groq和Graphcore是其中代表,在中国,则有寒武纪、燧原、比特大陆等。
这些芯片有着眼花缭乱的名字。如最近一窜而红的Groq,推出了名为LPU(Language Processing Unit,语言处理器)芯片产品,用于大模型推理。根据Groq提供的测试表现和宣传,由Groq LPU驱动的AI问答机器人,提供了远快于ChatGPT(由GPU驱动)的回答速度。
不过,外界发现,Groq LPU目前的配置带来的优势并不明显。首先,LPU目前仅可以用于推理,不支持大模型训练。如果AI公司需要训练大模型,仍需购买英伟达GPU。此外,LPU使用了一种昂贵且低容量的特殊存储芯片,使它的成本不具备优势。
阿里巴巴原首席AI科学家贾扬清就认为,以运行Llama-2 70b模型为例,由于存储芯片容量的限制,需要用到的Groq LPU数量远远大于H100,这意味着在同等数据吞吐量下,Groq的硬件成本是H100的40倍,能耗成本达到10倍。
然而,初创芯片公司向英伟达发起的竞争绝非一帆风顺。在英伟达强大的市场统治力下,高昂的运营成本和未知的商业前景挤压,都会让它们很大可能陷入困境。
被称为“英国英伟达”的初创公司Graphcore即是如此。
Graphcore推出了名为IPU(Intelligence Process Unit,智能处理器)的AI芯片,瞄准了英伟达作为竞争对手。此前Graphcore在向外界提供的演示中显示,在一部分由Graphcore IPU驱动的人工智能模型中,AI问答机器人的回答提供了类似“刷屏”的速度效果,具备一定竞争力。
尽管如此,客户仍倾向于购买英伟达GPU,难以为Graphcore IPU买单。
这导致这家公司即使在去年的人工智能浪潮下也难以打开更大市场,获得盈利。Graphcore去年十月份发布的2022年财务报告显示,税前亏损在同比增长了11%,达到了1.61亿英镑。据媒体报道,Graphcore正在与大型科技公司进行谈判,寻求出售。
长远来看,初创芯片企业最大的挑战,还是要建立一个能够匹敌英伟达的软件生态。这一方面,希望摆脱英伟达限制的大型科技企业们可能更有机会。
随着早期AI热潮逐渐消散和巨头公司加入竞争,风险投资涌向初创AI芯片公司的热情正在消散,初创公司在AI芯片的机会也逐渐渺茫。
更大的威胁
事实上,对于英伟达来说,更大的威胁或许来自自己最大的那批客户。
亚马逊、谷歌、微软以及Meta的数据中心都在使用英伟达的产品,并且采购量巨大。这些公司的高管都在最近的财报电话会议上告诉投资者,计划在今年增加资本支出,直接用于购买英伟达的AI芯片。
在全球云市场上,亚马逊AWS、微软Azure和谷歌云占据了大部分市场。根据市场调研机构Synergy Research Group的数据,2023年四季度,全球企业在云上的花费同比增长近20%,至740亿美元,其中AWS、Azure和谷歌云三家厂商的市场份额分别为31%、24%和11%。
这些财大气粗的科技公司有能力为它们的数据中心设计自己的AI芯片,事实上,他们也如此做了。
如谷歌2016年最早推出了TPU(Tensor Processing Unit,张量处理器),专门针对AI计算做优化,目前已经推出至第五代。现在,借助自家最先进的AI模型Gemini和开放AI模型Gemma针对TPU的优化,谷歌正试图向外推广TPU。
全球市占率第一的云计算公司亚马逊AWS也自2018起陆续推出了Trainium和Inferentia两个系列AI芯片,分别用于AI训练和推理,并推出了配套的软件工具Neuron。同时,AWS在云端打造了一套自己开发的网络、存储和计算系统,一部分取代了英伟达的AI系统。
微软也加入其中。去年11月,微软在自家技术大会期间发布了自己开发的云端AI训练和推理芯片Maia 100,Maia 100采用5纳米制程,拥有1050亿个晶体管,微软称该芯片专为微软云定制设计, 最大化利用微软云的硬件效能,满足GPT等大模型AI计算需求。
这些大型科技公司推出的新的芯片表明,它们有能力在半导体硬件上与英伟达一较高下,甚至匹配自身情况设计最合适的AI芯片。
不过,在当前科技公司生成式AI军备竞赛下,自家芯片并不完善的生态和较少的产量难以大规模替代英伟达芯片,甚至缺乏足够的GPU也是致命的。所以,尽管科技巨头都在下大力气设计自己的硬件,但在一段时间内,它们仍会依赖英伟达。