中国科学院在大模型神经网络注意力加速器研究上取得进展

来源:中国科学院微电子研究所 #中国科学院#
3.6w

随着基于Transformer架构的大型语言模型(如BERT、GPT等)在各领域的广泛应用,人工智能正展现出前所未有的理解与表达能力,彰显了其提升生产力的巨大潜力。在这些模型中,注意力机制作为核心计算单元,其能效与速度直接影响整体性能。

然而,现有注意力机制加速器面临两大技术瓶颈:一方面,传统脉动阵列架构无法在数据复用、寄存器使用和硬件利用率之间取得理想平衡;另一方面,常规的逐层计算模式导致中间结果需频繁访问SRAM,造成大量能源浪费。

针对这些挑战,中国科学院微电子研究所集成电路制造技术全国重点实验室的研究团队提出了创新解决方案。他们设计了一种名为"平衡脉动阵列"(Balanced Systolic Array)的新型硬件架构,巧妙结合内积与外积计算模式。通过数据复用理论公式的精确指导,团队确定了最优的混合阵列配置,与传统架构相比,能效提升了40%,硬件利用率高达99.5%。

在操作流程优化方面,团队创新性地提出"多行交织"(Multi-Row Interleaved)计算顺序,成功将SRAM能耗降低了31.7%。综合这两项技术创新,团队开发的注意力机制加速器整体能效提升39%,在吞吐量与能效的综合指标上比现有技术提高了38%。

该研究成果已在第62届国际设计自动化会议(DAC)上以"An Energy-Efficient High-Utilization Hardware Architecture for Attention Mechanism in Transformer using Balanced Systolic Array and Multi-Row Interleaved Operation Ordering"为题进行了口头报告。硕士研究生周海洋为第一作者,呼红阳助理研究员担任通讯作者。

该项研究获得了国家自然科学基金青年基金项目和基础科学中心项目的资助支持。

图1. 传统注意力加速器的局限性

图2. 提出的平衡脉动阵列结构

责编: 集小微
来源:中国科学院微电子研究所 #中国科学院#
THE END
关闭
加载

PDF 加载中...