Meta打造全球最大GPU集群,超过100000 个H100
如果您希望可以时常见面,欢迎标星收藏哦~
来源:内容综合自wired,谢谢。
本周早些时候,马克·扎克伯格在 Meta 财报电话会议上表示,该公司正在“一个比 100,000 个 H100 AI GPU 更大的集群上训练 Llama 4 模型,或者比我见过的其他人正在做的任何报道都要大”。
虽然这位 Facebook 创始人没有透露 Llama 4 可以做什么,但《连线》杂志援引扎克伯格的话称,Llama 4 具有“新模式”、“更强的推理能力”和“更快的速度”。这是一个至关重要的发展,因为 Meta 正在与微软、谷歌和马斯克的 xAI等其他科技巨头竞争,以开发下一代人工智能 LLM。
Meta 并不是第一家拥有配备 10 万块 Nvidia H100 GPU 的 AI 训练集群的公司。埃隆·马斯克 (Elon Musk)于 7 月下旬启动了一个类似规模的集群,称其为“计算超级工厂”,并计划将其规模翻倍至 20 万块 AI GPU。然而,Meta 今年早些时候表示,预计到 2024 年底将拥有超过 50 万块 H100 等效 AI GPU,因此它可能已经拥有大量用于训练 Llama 4 的 AI GPU。
Meta 的 Llama 4 采用了一种独特的方法来开发 AI,因为它完全免费发布其 Llama 模型,允许其他研究人员、公司和组织在此基础上进行构建。这不同于 OpenAI 的 GPT-4o 和谷歌的 Gemini 等其他模型,这些模型只能通过 API 访问。然而,该公司仍然对 Llama 的许可证施加了限制,例如限制其商业用途,并且不提供任何有关其训练方式的信息。尽管如此,它的“开源”性质可能有助于它主宰 AI 的未来——我们已经看到了这一点,中国基于开源代码构建的 AI 模型可以在基准测试中与 GPT-4o 和 Llama-3 相媲美。
所有这些计算能力都带来了巨大的电力需求,尤其是单个现代 AI GPU每年最多会消耗 3.7MWh 的电力。这意味着 100,000 个 AI GPU 集群每年将至少消耗 370GWh 的电力——足以为超过 3400 万个普通美国家庭供电。这引发了人们对这些公司如何找到如此庞大的供应的担忧,尤其是引入新的电源需要时间。毕竟,就连扎克伯格本人也表示,电力限制将限制人工智能的发展。
例如,埃隆·马斯克使用了几台大型移动发电机为位于孟菲斯的 10 万台计算机供电。谷歌的碳排放目标一直落后,自 2019 年以来其温室气体排放量增加了48%。甚至前谷歌首席执行官也建议我们应该放弃气候目标,让人工智能公司全力以赴,然后利用我们开发的人工智能技术来解决气候危机。
然而,当一位分析师问 Meta 公司如何为如此庞大的计算集群供电时,Meta 高管回避了这个问题。另一方面,Meta 的人工智能竞争对手,如微软、谷歌、甲骨文和亚马逊,正在加入核能潮流。他们要么投资小型模块化反应堆,要么重启旧核电站,以确保他们有足够的电力来支持未来的发展。
虽然这些需要时间来开发和部署,但为人工智能数据中心提供小型核电站将有助于减轻这些耗电集群对国家电网的负担。
“比任何东西都大”的 GPU 集群
Meta 首席执行官马克·扎克伯格周三奠定了生成式 AI 训练的最新标志,他表示,该公司 Llama 模型的下一个主要版本将在一组“比以往任何报道过的都大”的 GPU 上进行训练。
扎克伯格在财报电话会议上告诉投资者和分析师,Llama 4 的开发进展顺利,预计将于明年初首次推出。“我们正在一个比 100,000 个 H100 更大的集群上训练 Llama 4 模型,或者说,比我所见过的其他人正在做的任何事都要大,”扎克伯格说,他指的是用于训练 AI 系统的流行 Nvidia 芯片。“我预计较小的 Llama 4 模型将首先准备就绪。”
人们普遍认为,通过增加计算能力和数据来扩大 AI 训练规模是开发更强大的 AI 模型的关键。虽然 Meta 目前似乎处于领先地位,但该领域的大多数大公司可能都在努力使用拥有超过 100,000 个先进芯片的计算集群。今年 3 月,Meta 和 Nvidia分享了用于开发Llama 3的约 25,000 个 H100集群的详细信息。7 月,埃隆·马斯克 (Elon Musk)吹嘘他的 xAI 合资企业已与 X 和 Nvidia 合作建立了 100,000 个 H100。“这是世界上最强大的 AI 训练集群!”马斯克当时在 X 上写道。
周三,扎克伯格拒绝透露有关 Llama 4 潜在先进功能的细节,但含糊地提到了“新模式”、“更强的推理能力”和“速度更快”。
Meta 的 AI 方法在企业争夺主导地位的竞争中被证明是一张万能牌。Llama 模型可以免费下载,而 OpenAI、谷歌和大多数其他大公司开发的模型只能通过 API 访问。事实证明,Llama 非常受希望完全控制其模型、数据和计算成本的初创公司和研究人员的欢迎。
尽管 Meta 宣称 Llama 是“开源”的,但 Llama 许可证确实对该模型的商业用途施加了一些限制。Meta 也没有披露模型训练的细节,这限制了外部人员探究其工作原理的能力。该公司于 2023 年 7 月发布了 Llama 的第一个版本,并于今年 9 月推出了最新版本 Llama 3.2 。
管理如此庞大的芯片阵列来开发 Llama 4 可能会带来独特的工程挑战,并需要大量能源。Meta 高管周三回避了分析师关于美国部分地区能源获取限制的问题,这些问题阻碍了公司开发更强大的人工智能的努力。
据估计,10 万块 H100 芯片组成的集群需要 150 兆瓦的电力。相比之下,美国最大的国家实验室超级计算机El Capitan需要 30 兆瓦的电力。Meta 预计今年将花费高达 400 亿美元的资金来装备数据中心和其他基础设施,比 2023 年增长 42% 以上。该公司预计明年的支出将进一步大幅增长。
Meta 今年的总运营成本增长了约 9%。但整体销售额(主要来自广告)增长了 22% 以上,尽管该公司为 Llama 项目投入了数十亿美元,但利润率和利润额仍然更高。
与此同时,目前被认为是尖端人工智能开发领军者的 OpenAI 尽管向开发者收取了使用其模型的费用,但仍在烧钱。目前仍是一家非营利性企业,该公司表示正在训练 GPT-5,这是目前支持 ChatGPT 的模型的后继者。OpenAI 表示,GPT-5 将比其前身更大,但并未透露用于训练的计算机集群。OpenAI 还表示,除了规模之外,GPT-5 还将融入其他创新,包括最近开发的一种推理方法。
首席执行官 Sam Altman表示,与前代产品相比,GPT-5 将“实现重大飞跃”。上周,Altman 在 X 上回应了一篇新闻报道,称 OpenAI 的下一个前沿模型将于 12 月发布, “假新闻失控了”。
谷歌首席执行官桑达尔·皮查伊 (Sundar Pichai) 周二表示,该公司Gemini 系列生成式 AI 模型的最新版本正在开发中。
Meta 对 AI 的开放态度有时会引起争议。一些 AI 专家担心,免费提供功能强大得多的 AI 模型可能会很危险,因为它可能帮助犯罪分子发动网络攻击或自动设计化学或生物武器。尽管 Llama 在发布之前经过了微调以限制不当行为,但取消这些限制相对来说并不困难。
尽管谷歌和 OpenAI 都在推广专有系统,扎克伯格仍然对开源战略持乐观态度。“在我看来,开源将是最具成本效益、可定制性、最值得信赖、性能最高、最易于使用的开发者选项,”他周三表示。“我很自豪 Llama 在这方面处于领先地位。”
扎克伯格补充说,Llama 4 的新功能应该能够为 Meta 服务的更多功能提供支持。如今,基于 Llama 模型的标志性产品是类似 ChatGPT 的聊天机器人 Meta AI,可在 Facebook、Instagram、WhatsApp 和其他应用程序中使用。
扎克伯格表示,每月有超过 5 亿人使用 Meta AI。随着时间的推移,Meta 预计将通过该功能中的广告产生收入。Meta 首席财务官 Susan Li 在周三的电话会议上表示:“人们使用它的查询范围将不断扩大,随着我们实现这一目标,盈利机会将随着时间的推移而存在。”有了广告收入的潜力,Meta 或许能够为其他所有人提供 Llama 补贴。
https://www.wired.com/story/meta-llama-ai-gpu-training/
半导体精品公众号推荐
专注半导体领域更多原创内容
关注全球半导体产业动向与趋势
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第3933内容,欢迎关注。
『半导体第一垂直媒体』
实时 专业 原创 深度
公众号ID:icbank
喜欢我们的内容就点“在看”分享给小伙伴哦