业界首次!壁仞科技成功实现三种异构GPU混训技术

来源:爱集微 #壁仞科技# #GPU#
2.1w

据壁仞科技透露,在即将到来的2024全球AI芯片峰会(GACS 2024)上,公司将首次公布壁仞自主原创的异构GPU协同训练方案HGCT,业界首次支持3种及以上异构GPU混合训练同一个大模型,用一套统一方案支持多种不同型号、不同厂商的GPU,而且一行代码适配多种框架。

值得一提的是,壁仞HGCT的异构协同通信效率大于98%、端到端训练效率90%~95%,从而突破了大模型异构算力孤岛难题。

据壁仞科技副总裁、AI软件首席架构师丁云帆介绍,这是业界首次支持3种及以上(壁仞GPU+英伟达GPU+其他国产芯片)异构GPU同时训练一个大模型。同时,目前壁仞科技打造的软硬一体、全栈优化、异构协同、开源开放的大模型整体解决方案可以实现千卡集群、千亿参数的自动断点续训小于10分钟,15天连续训练不中断,4天连续训练无故障。

面对算力密度不断攀升、算力规模持续扩张的现状,以及摩尔定律逐渐失效的挑战,如何实现大模型计算能力的进一步提升成为关键。丁云帆认为,解决算力瓶颈问题需要从三个维度考虑:硬件集群算力、软件有效算力、异构聚合算力。做好这三个维度的工作,就能通过综合手段提升整体芯片算力,满足国内大模型训练的需求。

创立于2019年的壁仞科技,依托其高性能GPU,打造了软硬一体、全栈优化、异构协同、开源开放的大模型解决方案,构建了开放的BIRENSUPA软件生态系统,与合作伙伴和客户协同推进大模型产业生态的发展,助力国产GPU实现千卡集群的商用落地。

值得关注的是,壁仞科技还透露,其正联合客户、合作伙伴、科研机构共同推动异构GPU协同训练生态,包括:中国移动、中国电信、商汤科技、国网智能电网研究院有限公司、上海智能算力科技有限公司、上海人工智能实验室、中国信息通信研究院等。(校对/张杰)

责编: 爱集微
来源:爱集微 #壁仞科技# #GPU#
THE END

*此内容为集微网原创,著作权归集微网所有,爱集微,爱原创

关闭
加载

PDF 加载中...