IBM 发布新一代光电共封装工艺,有望提高 AI 模型训练速度

来源:电子信息产业网 #IBM#
1443

近日,IBM发布了其在光学技术方面的最新进展,有望提升数据中心训练和运行生成式 AI 模型的效率。IBM研究人员开发的新一代光电共封装 (co-packaged optics,CPO) 工艺,通过光学技术实现数据中心内部的光速连接,为现有的短距离光缆提供补充。通过设计和组装首个宣布成功的聚合物光波导 (PWG),IBM 研究人员展示了光电共封装技术将如何重新定义计算行业在芯片、电路板和服务器之间的高带宽数据传输。

如今,光纤技术已经被广泛用于远距离的高速数据传输,实现了“以光代电”来管理全球几乎所有的商业和通信传输。虽然数据中心的外部通信网络已经采用光纤,但其内部的机架仍然主要使用铜质电线进行通信。通过电线连接的 GPU 加速器可能有一半以上的时间处于闲置状态,在大型分布式训练过程中需要等待来自其他设备的数据,导致高昂的成本和能源浪费。

IBM 研究人员发现了一种将光学的速度和容量引入数据中心的新方法。在其最新发表的一篇论文中,IBM 展示了其全球首发、可实现高速光学连接的光电共封装原型。这项技术可大幅提高数据中心的通信带宽,最大限度地减少 GPU 停机时间,同时大幅加快 AI 工作速度。

该创新将实现三方面的突破。

一是降低规模化应用生成式 AI 的成本。与中距电气互连装置相比,能耗降低 5 倍以上,同时将数据中心互连电缆的长度从 1 米延长至数百米。

二是提高 AI 模型训练速度。与传统的电线相比,使用光电共封装技术训练大型语言模型的速度快近五倍,从而将标准大语言模型的训练时间从三个月缩短到三周;用于更大的模型和更多的 GPU,性能将获得更大提升。

三是提高数据中心能效。在最新光电共封装技术的加持下,每训练一个 AI 模型所节省的电量,相当于 5000 个美国家庭的年耗电量总和。

IBM 高级副总裁、IBM研究院院长 Dario Gil 表示:“生成式AI需要越来越多的能源和处理能力,数据中心必须随之升级换代,而光电共封装技术可以帮助数据中心从容面向未来。随着光电共封装技术取得突破,光纤电缆将大幅提升数据中心的数据传输效率,芯片之间的通信、AI工作负载的处理也会更高效,我们将进入一个更高速、更可持续的新通信时代。”

同时,光电共封装技术能够扩大加速器之间的互连密度,帮助芯片制造商在电子模组上添加连接芯片的光通路,从而超越现有电子通路的限制。IBM 的论文所述的新型高带宽密度光学结构和其他创新成果,比如,通过每个光通道传输多个波长,有望将芯片间的通信带宽提高至电线连接的 80 倍。

与目前最先进的光电共封装技术相比,IBM 的创新成果可以使芯片制造商在硅光子芯片边缘增加六倍数量的光纤,即所谓的“鬓发密度 (beachfront density)”。每根光纤的宽度约为头发丝的三倍,长度从几厘米到几百米不等,可传输每秒万亿比特级别的数据。IBM 团队采用标准封装工艺,在 50 微米间距的光通道上封装高密度的聚合物光波导 (PWG),并与硅光子波导绝热耦合。

论文还指出,上述光电共封装模块采用50微米间距的聚合物光波导,首次通过了制造所需的所有压力测试。这些模组需要经受高湿度环境、-40°C 至 125°C 的温度以及机械耐久性测试,以确保光互连装置即使弯曲,也不会断裂或丢失数据。此外,研究人员还展示了 18 微米间距的聚合物光波导技术:将四个聚合物光波导设备堆叠在一起,可以实现多达 128 个通道的连接。

责编: 赵碧莹
来源:电子信息产业网 #IBM#
THE END
关闭
加载

PDF 加载中...