Cerebras 推出强力 AI 推理芯片叫板英伟达 DGX100

Cerebras 已推出其最新的 AI 推理芯片,该芯片被誉为英伟达 DGX100 的强大竞争对手。

该芯片拥有 44GB 的高速内存,使其能够处理具有数十亿到数万亿参数的 AI 模型。

对于那些超出单个晶圆内存容量的模型,Cerebras 可以在层边界处对其进行拆分,把它们分布在多个 CS-3 系统之中。单个 CS-3 系统能够容纳 200 亿个参数模型,而 700 亿个参数模型可以由少至四个系统进行管理。

Cerebras 强调使用 16 位模型权重以保持准确性,这与一些把权重精度降低到 8 位进而可能导致性能降低的竞争对手形成对比。Cerebras 表示,其 16 位模型在多轮对话、数学和推理任务中的表现比 8 位模型高出多达 5%,确保输出更准确、更可靠。

Cerebras 推理平台可通过聊天和 API 进行访问,并且被设计成让熟悉 OpenAI 聊天完成格式的开发人员能够轻松集成。该平台具备以每秒 450 个令牌运行 Llama3.1 70B 模型的能力,这使其成为实现此类大型模型瞬时速度的唯一解决方案。对于开发人员而言,Cerebras 在推出时每天提供 100 万个免费令牌,据说其大规模部署的定价明显低于流行的 GPU 云。

Cerebras 最初推出的是 Llama3.1 8B 和 70B 模型,并计划在不久的将来增加对更大模型(如 Llama3 405B 和 Mistral Large 2)的支持。该公司强调,快速推理能力对于实现更复杂的人工智能工作流程以及增强实时 LLM 智能起着至关重要的作用,特别是在像支架这类技术中,其需要大量的令牌使用量。

帕特里克·肯尼迪来自服务之家(ServeTheHome),在最近的 2024 年热门芯片研讨会上看到了该产品的实际运行情况,并指出:“在演讲前,我有机会与安德鲁·费尔德曼(Andrew Feldman,Cerebras 的首席执行官)坐在一起,他向我现场展示了演示。速度快得令人咋舌。这件事之所以重要,不单单是由于人类的即时交互。相反,在一个代理的世界中,计算机人工智能代理和其他几个计算机人工智能代理相互交流。想象一下,如果每个代理都需要数秒才能输出结果,而且在该流程中存在多个步骤。倘若您考虑自动化的人工智能代理流程,那么就需要快速推理来缩短整个链条的时间。”