解决算力遭卡脖子问题 陆企改采「多晶片混合」训练AI模型

陆企AI开发部门正实施「多晶片混合」策略来提高在AI计算方面的能力,同时也进一步避免供应链安全问题。(图/Shutterstock达志影像)

为解决人工智慧(AI)晶片算力问题,陆企AI开发部门正实施「多晶片混合」策略来提高在AI计算方面的能力,同时也进一步避免供应链安全问题。

据《芯智讯》报导,多晶片混合计算的方法有诸多优势,包括利用多个不同型号的GPU并行训练,来共同提高大语言模型(LLM)训练速度,由于可以同时处理更多数据,能更好地利用内存,大陆厂商可以降低对于更昂贵的辉达(NVIDIA)晶片的依赖,进而降低成本。

报导说,自2022年10月以来,受美国持续升级的限制政策的影响,中国获取国外高性能AI晶片受到了极大的限制。虽然目前仍存在着一些灰色渠道可以获得高性能晶片,但是供给量还是比较有限。同样地,虽然中国大陆也有一些AI晶片,但是性能和产能也同样比较有限。

报导指出,有传闻声称大陆AI公司已经开始开发「多晶片混合」技术,将不同晶片组成一个训练集群,包括百度和阿里巴巴都在研究这项解决方案。例如,百度在其 2024 年财报电话会议上宣布,它可以组合来自不同供应商的 GPU 并将其用于AI训练。

另一家中国大型科技公司阿里巴巴自2021年以来一直致力于「一云多晶片」解决方案,但也面临诸多挑战。例如需要像NVIDIA NVLink这样的高速构架,确保不同的加速器能高效通信。不过,阿里云已经开始转向使用基于以太网的高性能网络。