破解智算能力瓶颈,异构生态谋突围丨GAI进化论
21世纪经济报道记者骆轶琪 郑州报道
随着AI大模型的快速发展,对计算复杂度的要求大幅提升,从原来的以CPU为中心,演变为包括CPU、GPU、ASIC等一系列计算单元为承载的软硬件融合趋势下,智能计算产业亟需凝结新的应对之道。
2024中国算力大会期间,中国科学院院士、北京航空航天大学计算机学院教授钱德沛指出,异构智能计算是应AI之运而生的新型计算系统。所谓异构,就是用最经济、高效的手段来满足深度学习、大模型训练推理等对计算的需求,与传统强调双精度浮动运算性能的超级计算不同,异构智算更多使用半精度浮动运算、整数运算,甚至更低精度的浮点运算。
“智算系统巧妙融合了多种计算单元,从指令系统、微系统架构、特殊加速部件、算法和软件实现等多个层面来提高人工智能计算的性能,高度灵活地应对多样化的AI应用场景,实现了性能和能效的双重飞跃。”他分析道。
2024异构智算产业生态联盟技术分论坛期间发布的《异构智算产业趋势与技术发展白皮书》指出,异构架构可以在人工智能技术快速突破创新的情况下,保证AI芯片依旧具有较好的兼容性和可扩展性,有效延长AI芯片的生命周期。同时,在传统算力的局限与蓬勃的市场需求共同作用下,通用算力、智算算力、超算算力、边缘算力等不同类型和形态的融合的算力中心发展成为大势所趋。
正因这是一门融合的技术路线,显然对计算芯片生态提出更高要求,不仅硬件层面的复杂度大幅提升,软件层面生态更加多元,对此,业界在积极寻求标准化方案,以期以点带面推动生态聚合和应用落地。
异构智算迫切
AI大模型持续迭代演进过程中,无论对底层基础设施,还是对生态应用层都提出新的发展路线挑战。
据美国开放人工智能研究中心(OpenAI)测算,2012年开始,全球大模型训练所用的计算量呈指数级增长,平均每3.43个月便会翻一番。其中,OpenAI GPT-4约使用了价值7800万美元的计算资源进行训练,谷歌GeminiUltra的计算成本则高达1.91亿美元。未来随着人工智能技术应用的加速演进,现代化算力基础设施将向超智融合发展、绿色低碳发展、多元服务发展转化。
超智融合也即将超算能力和智算能力融合,是异构智算的表现形式。全球计算芯片龙头都早已通过收并购等方式开启能力建设。
英伟达的劲敌AMD,在2022年2月宣布收购FPGA市场份额第一的赛灵思,以此构成CPU+GPU+FPGA模式,进而与英特尔的CPU+FPGA路线开启竞争,英特尔则是在更早通过收购Altera完善了FPGA能力。
钱德沛指出,异构智算的崛起是一次产业生态重构。在此背景下,中国智算技术的发展面临挑战和机遇。首先,要在外部封锁条件下,通过异构体系结构的创新和软硬件协同,研发出满足人工智能算力需求的智算系统。其次,要充分理解智算对计算机系统的新要求,以人工智能手段提高计算系统的能力,最终要使智能和计算深度融合,进而使智算计算深入融入各行各业——这些都呼唤更为创新的解决方案与管理模式。
中国科学院计算技术研究所研究员张云泉则分析,此前他有较长时间在地方超算中心工作,传统来说,超算界并不喜欢异构架构,因为这将大幅提升使用和管理芯片能力的复杂程度。
但在随着对计算需求的持续发展,如今采用异构智算架构的好处也毋庸置疑:可以快速提升计算性能,同时功耗降低。
“但是为了应对异构架构,确实还面临很多挑战。首先就是编程墙。”他进一步分析,传统CPU芯片的编程语言很简单,多是C语言、Java等,但一旦加上GPU后,就需要采用一套新的编程语言,如CUDA或OpenCL等。“这意味着更多编程成本的投入,还要重新学习编程语言。”
其次是数据评估,也即算法和算力卡需要相匹配,如果两者不匹配,会导致大量时间用于数据搬运,让算法执行速度大幅降低,这就需要持续优化算法。再是功耗难题,GPU加速卡会带来功耗的大幅提升,过去传统的数据中心日渐无法承载这种运转需求。随着功率密度提升,就要求数据中心的散热技术要从风冷升级为液冷技术。
“更重要是整个系统的可扩展性。在智算刚开始几十台、几百台服务器还可以满足,但一旦到万卡集群后,一系列新问题会凸显。这也是业界在提超智融合的原因。”张云泉指出,随着智算服务器数量增加,过去超算在发展过程中面临过的困难也同样会出现在智算上,因此,此前超算采用过的如并行技术、可靠性技术、绿色计算技术、存储优化技术等,也都能用在智算中心上来解决挑战。业界希望通过超算和智算融合,双方互相借力,共同促进大模型时代的快速发展。
破解生态难题
异构计算囊括的计算单元远高于单一计算芯片,正显示出构建生态的迫切性。
北京大学计算中心系统管理室主任、北京大学高性能计算校级公共平台主任工程师樊春分析道,人工智能发展对软硬件生态提出很大挑战,这主要在于人工智能硬件的多样化和软件的碎片化,形成多对多的复杂映射。
同时,人工智能编程框架开发模式也丰富多样,这导致每家硬件厂商生产出的硬件要能被良好使用,就需要适配大量开发框架和开发环境,这对厂商来说基本是不可能完成的任务。
由此,他所在机构提出在中间做算子层,让各类型芯片和开发框架与算子层相对应,以此极大减少硬件厂商的负担。
从2018年开始,其团队着手人工智能算子相关标准化工作,希望以此一定程度缓解受制于人的难题。同时还针对算子标准接口设计、数据结构的抽象设计和量化评估模型等推进工作。
在超智算一体化架构平台设计方面,目前也面临亟待解决的问题。“举例来说,超智算融合需要有较好的调度系统,但目前超算领域常用的主流调度系统,在支持国产芯片方面非常欠缺,曾有一些国内芯片公司试图把支持自己芯片的部分代码提交到开源组织去,但并没有被接收。这更凸显了搭建支持国内各类计算芯片调度系统的重要性。除此之外,在平台层还需要一个算力中心门户和资源管理平台。”
对于整机环节,联想中国基础设施业务群战略管理总监黄山指出,联想在实践部署AI方案时,遇到的最大难点是故障恢复问题。结合一些大模型厂商的训练实践不难发现,假如数据中心集群部署数量以十倍的速度增加,但其中出现故障的次数并非十倍,而是会更多。
“因此如何解决故障是我们和友商共同推动的方向。联想已经累积了五年经验,也希望借助AI的手段,帮助解决复杂环境下故障诊断、识别、恢复的问题。”他续称。
张云泉介绍,异构智算产业生态联盟看到这些现状,在应对方面还没有形成完全标准的答案,产业界都在实践探索中。
“从去年开始,我们联盟就在建设开放的智算体系、平台体系,希望把产业界都拉进来。”他指出,希望借助联盟的力量,先通过联盟与厂商、用户合作,筛选出几套异构计算方案,通过联盟来推荐几套更稳定、应用效果好的方案,推动落地。
在此过程中,制定标准也不可或缺。张云泉指出,联盟已经申请成立算力标准工作组,以期推动产业界形成合力。同时,联盟也在推动凝练典型应用场景,通过了解特定场景下需要的配置,完善相关基础能力。
黄山指出,要在互相开放的前提下,也即在联盟领导下,有共同的目标去推进标准落地。他强调,这里提到的开放,意味着GPU厂商需要向整机厂商提供代码、私有SDK,在调优过程中,双方共同推进不同规模能力测试。
天数智芯科技合作与发展部负责人、异构计算芯片研发中心主任梁斌也分析,为了更好地提升效率,需要抱持更为开放的态度,比如在算子库编译和调优方面,芯片设计公司需要更为开放,让整机厂商更好了解芯片底层的架构、性能,由此才能对异构智算的未来有所帮助。