蚂蚁推AI技术大模型训练提高33%GPU显存推理提速2倍

作者：爱集微 01-18 07:51

来源：联合报 #蚂蚁集团#

2.7w

蚂蚁集团在整改之外，在AI大模型领域上仍迈开技术自研步伐。近期新浪科技报导，蚂蚁集团推出技术框架“GMLake”，该框架能够解决大模型训练中的显存问题，最多提高33%的GPU可用显存；同时近期蚂蚁也开源新算法“Lookahead推理加速框架”，降低推理耗时。

在ChatGPT浪潮下，生成式大模型正引领当前AI发展。而为了训练得到高效大模型，需要强大和昂贵的基础算力支撑。目前制约高效训练的因素中，除了算力，显存容量也非常关键，即“内存墙”问题。

一段时间以来，业界已有很多优化工作，包括模型、框架层的改造，甚至牺牲模型精度。目前业界广泛使用的训练框架如PyTorch存在显存管理效率不高，显存资源碎片化的现象，而当业界使用优化手段后，碎片化问题反而更突出。

因此蚂蚁集团和上海交通大学合作GMLake技术研究。该框架采用虚拟、物理两层指针，将碎片化的显存灵活地拼接起来，从而实现了聚零为整。

值得一提的是，GMLake对典型大模型如GPT、GLM、Vicuna等进行了详细评测，最高扩大了约33%的可用显存，即在80GB的A100 GPU上节省约25GB的显存，训练吞吐提高最多4倍。

据了解，GMLake目前已在PyTorch框架上完成集成，对上层模型代码和框架代码完全透明，换言之模型不需要修改任何代码便能使用。

此外，蚂蚁集团还开源一套新算法“Lookahead推理加速框架”，能帮助大模型在推理时，提速2至6倍，效果无损，即插即用，该算法已在蚂蚁大量场景进行了落地，大幅降低推理耗时。

原来词元（token）生成过程，就像早期中文输入法，只能一个字一个字“敲”出来，如采用蚂蚁加速算法后，token生成就像联想输入法，有些整句可直接“蹦”出来。

蚂蚁集团首席技术官何征宇近日通过科创板日报表示，大模型真正历史性的突破是帮助行业生产力提升，而且有可能让人类社会生产力剧增。“我们做大模型技术的最终目标还是会面向产业，也包括金融产业、医疗产业等专业服务场景，帮助他们去做产业升级。”而蚂蚁集团发言人在去年11月表示，在获得官方批准后，集团AI大模型百灵大模型多款产品将向公众开放。