Google Cloud推全新TPU v5p加速器 加速AI訓練模型
随着推出最新的语言模型Gemini,Google Cloud今天也公布支援下一代AI工作负担的TPU v5p加速器与AI Hypercomputer。
Google Cloud 机器学习系统和Cloud AI副总裁暨总经理Amin Vahdat指出,生成式AI模型正在迅速进化,提供无可比拟的精密性与功能。这项技术进展得以让各产业的企业与开发人员解决复杂的问题,并发掘新商机。不过生成式AI模型的成长,也导致训练、调整与推论方面的要求变得更加严苛。过去五年来,生成式AI模型的参数每年增加十倍,现今的大型模型具有数千亿、甚至数兆项参数,即便使用最专门的系统,仍需要相当长的训练时间,有时需持续数月才能完成。高效率的AI工作负载管理需要一个具备一致性、且由最佳化的运算、储存、网路、软体和开发框架所组成的整合式AI堆叠。
Google宣布Cloud TPU v5p,是Google目前功能最强大、扩充能力最佳,且最具有弹性的 AI 加速器。长久以来,TPU一直是用来训练、服务AI支援的产品之基础,包含YouTube、Gmail、Google地图、Google Play及 Android。Google日前宣布推出功能最强大、最通用的AI模型Gemini便是使用TPU进行训练与服务。
此外 Google宣布推出Google Cloud AI Hypercomputer。AI Hypercomputer是Google Cloud的突破性超级电脑架构,采用整合式系统,并结合了效能最佳化硬体、开放式软体、领先机器学习架构及灵活弹性的消费模式。AI Hypercomputer采用系统层级的协同设计来提升AI训练、调整与服务的效率与生产力。
Cloud TPU v5e相较于上一代的TPU v4,Cloud TPU v5e的性价比提高2.3倍,是目前最具成本效益的TPU。而 Cloud TPU v5p是目前功能最强大的TPU。每个TPU v5p Pod均由8,960个晶片组成,透过频宽最高的晶片间互连网路(Inter-chip Interconnect, ICI)相连,采用3D环面拓扑,提供每晶片4,800 Gbps的速度。相较于TPU v4,TPU v5p每秒的浮点运算次数(FLOPS)提高2倍以上,高频宽记忆体(High-bandwidth Memory, HBM)则增加3 倍。
TPU v5p 专为效能、弹性与大规模作业而设计,相较于前一代的TPU v4,TPU v5p训练大型LLM模型的速度提升 2.8 倍。不仅如此,若搭配第二代SparseCores,TPU v5p训练嵌入密集模型的速度较TPU v4快1.9倍。
延伸阅读