☰

Cerebras 推出强力 AI 推理芯片叫板英伟达 DGX100

Cerebras 已推出其最新的 AI 推理芯片，该芯片被誉为英伟达 DGX100 的强大竞争对手。

该芯片拥有 44GB 的高速内存，使其能够处理具有数十亿到数万亿参数的 AI 模型。

对于那些超出单个晶圆内存容量的模型，Cerebras 可以在层边界处对其进行拆分，把它们分布在多个 CS-3 系统之中。单个 CS-3 系统能够容纳 200 亿个参数模型，而 700 亿个参数模型可以由少至四个系统进行管理。

Cerebras 强调使用 16 位模型权重以保持准确性，这与一些把权重精度降低到 8 位进而可能导致性能降低的竞争对手形成对比。Cerebras 表示，其 16 位模型在多轮对话、数学和推理任务中的表现比 8 位模型高出多达 5％，确保输出更准确、更可靠。

Cerebras 推理平台可通过聊天和 API 进行访问，并且被设计成让熟悉 OpenAI 聊天完成格式的开发人员能够轻松集成。该平台具备以每秒 450 个令牌运行 Llama3.1 70B 模型的能力，这使其成为实现此类大型模型瞬时速度的唯一解决方案。对于开发人员而言，Cerebras 在推出时每天提供 100 万个免费令牌，据说其大规模部署的定价明显低于流行的 GPU 云。

Cerebras 最初推出的是 Llama3.1 8B 和 70B 模型，并计划在不久的将来增加对更大模型（如 Llama3 405B 和 Mistral Large 2）的支持。该公司强调，快速推理能力对于实现更复杂的人工智能工作流程以及增强实时 LLM 智能起着至关重要的作用，特别是在像支架这类技术中，其需要大量的令牌使用量。

帕特里克·肯尼迪来自服务之家（ServeTheHome），在最近的 2024 年热门芯片研讨会上看到了该产品的实际运行情况，并指出：“在演讲前，我有机会与安德鲁·费尔德曼（Andrew Feldman，Cerebras 的首席执行官）坐在一起，他向我现场展示了演示。速度快得令人咋舌。这件事之所以重要，不单单是由于人类的即时交互。相反，在一个代理的世界中，计算机人工智能代理和其他几个计算机人工智能代理相互交流。想象一下，如果每个代理都需要数秒才能输出结果，而且在该流程中存在多个步骤。倘若您考虑自动化的人工智能代理流程，那么就需要快速推理来缩短整个链条的时间。”

Cerebras 推出强力 AI 推理芯片叫板英伟达 DGX100

相关资讯