螞蟻推AI技術 大模型訓練提高33%GPU顯存 推理提速2倍

蚂蚁集团在整改工作之外,持续AI大模型领域深耕,目前推出「GMLake」与「Lookahead推理加速框架」,协助解决大模型训练中遇到的难题。新华社

蚂蚁集团在整改之外,在AI大模型领域上仍迈开技术自研步伐。近期新浪科技报导,蚂蚁集团推出技术框架「GMLake」,该框架能够解决大模型训练中的显存问题,最多提高33%的GPU可用显存;同时近期蚂蚁也开源新算法「Lookahead推理加速框架」,降低推理耗时。

和讯网报导,在ChatGPT浪潮下,生成式大模型正引领当前AI发展。而为了训练得到高效大模型,需要强大和昂贵的基础算力支撑。目前制约高效训练的因素中,除了算力,显存容量也非常关键,即「内存墙」问题。

一段时间以来,业界已有很多优化工作,包括模型、框架层的改造,甚至牺牲模型精度。目前业界广泛使用的训练框架如PyTorch存在显存管理效率不高,显存资源碎片化的现象,而当业界使用优化手段后,碎片化问题反而更突出。

因此蚂蚁集团和上海交通大学合作GMLake技术研究。该框架采用虚拟、物理两层指针,将碎片化的显存灵活地拼接起来,从而实现了聚零为整。

值得一提的是,GMLake对典型大模型如GPT、GLM、Vicuna等进行了详细评测,最高扩大了约33%的可用显存,即在80GB的A100 GPU上节省约25GB的显存,训练吞吐提高最多4倍。

据了解,GMLake目前已在PyTorch框架上完成集成,对上层模型代码和框架代码完全透明,换言之模型不需要修改任何代码便能使用。

此外,蚂蚁集团还开源一套新算法「Lookahead推理加速框架」,能帮助大模型在推理时,提速2至6倍,效果无损,即插即用,该算法已在蚂蚁大量场景进行了落地,大幅降低推理耗时。

据IT时报指出,原来词元(token)生成过程,就像早期中文输入法,只能一个字一个字「敲」出来,如采用蚂蚁加速算法后,token生成就像联想输入法,有些整句可直接「蹦」出来。

蚂蚁集团首席技术官何征宇近日通过科创板日报表示,大模型真正历史性的突破是帮助行业生产力提升,而且有可能让人类社会生产力剧增。「我们做大模型技术的最终目标还是会面向产业,也包括金融产业、医疗产业等专业服务场景,帮助他们去做产业升级。」而蚂蚁集团发言人在去年11月表示,在获得大陆官方批准后,集团AI大模型百灵大模型多款产品将向公众开放。