輝達AI晶片H200 創MLPerf的Llama 2基準測試紀錄

辉达(NVIDIA)身为当前的AI霸主,28日宣布该公司在业界标准测试中提供了世界上最快的生成式AI推论平台。

在最新的MLPerf基准测试中,NVIDIA TensorRT-LLM这个可加速和简化大型语言模型复杂推论工作的软体,将GPT-J LLM上的NVIDIA Hopper架构GPU效能较六个月前提高近3倍。

在辉达H200 Tensor核心GPU上运行的TensorRT-LLM,在MLPerf 迄今为止最大规模的生成式AI测试中,提供最快的运行推论效能。

新的基准测试使用Llama 2的最大版本,Llama 2是最先进的大型语言模型,包含700亿个参数。该模型比9月基准测试中首次使用的GPT-J大型语言模型大10倍以上。

记忆体增强型H200 GPU在MLPerf首次亮相时,使用TensorRT-LLM每秒产生高达31,000个词元,创下MLPerf的Llama 2基准测试纪录。

辉达指出,现在已提供 H200 GPU供客户测试,并将于第2季出货。H200 GPU很快将由近20家系统制造商和云端服务供应商提供。H200 GPU包含141GB高频宽记忆体HBM3e,与H100 GPU相比,记忆体增加76%,运行速度提高43%。

辉达表示,Hopper GPU 在最新一轮MLPerf产业基准测试中,横扫了所有AI推论测试。MLPerf的测试透明且客观,因此使用者可以依靠结果做出明智的购买决定。而辉达的合作伙伴参与 MLPerf ,是因为他们知道这对客户评估AI系统和服务来说是一个很有价值的工具。

这次在NVIDIA AI平台上提交结果的合作伙伴,包括华硕(2357)、思科、戴尔、富士通、技嘉(2376)、Google、慧与科技、联想、微软Azure、甲骨文、云达科技、美超微、VMware和纬颖(6669)。