重塑AI算力基石：中兴通讯发布《超节点技术白皮书》

作者：爱集微 02-09 10:15

来源：中兴通讯 #中兴通讯#

1.5w

近日，中兴通讯发布《超节点技术白皮书》，提出以超节点为核心打造标准化“AI工厂”，通过系统级架构创新，突破算力极限与能效瓶颈，为AI基础设施的可持续发展提供新路径。

突破通信瓶颈：超节点实现高效协同计算

随着AI模型参数规模突破万亿量级，算力需求正在从单芯片堆叠向系统级协同转型，传统分布式训练面临通信开销剧增和算力利用率下降等挑战。为解决这一问题，超节点采用高速互联协议和专用交换芯片，构建高带宽域（HBD），将数十到数百颗GPU芯片逻辑整合为统一编址、低延迟、高带宽的协同计算系统。

这一架构在保留GPU物理独立性的同时，带来了类单机的编程与调度体验，显著提升了算力利用效率，为大规模模型训练和推理提供了高性能的算力底座。

架构创新：OEX正交无背板互联，零线缆

在硬件层面，白皮书重点阐述了中兴通讯自研的OEX（Orthogonal Electrical eXchange）正交无背板互联交换架构。该架构通过物理设计的根本性创新，具体呈现四大核心亮点：

• 高密集成：突破物理空间极限。采用计算托盘与交换托盘垂直交叉的无线缆互联设计，彻底消除了机柜内部成千上万根高速线缆，极大释放了机柜空间，实现了单位空间算力密度的飞跃。

• 高可靠：保障信号完整与系统稳定。通过正交无背板互联显著降低通信损耗，大幅降低误码率。极短的板间互联路径确保了大规模集群通信的高速与稳定。

• 简化运维：极简架构提升可维护性。无线缆设计从根本上减少了因线缆松动、老化或连接器故障导致的宕机风险。极简的物理架构将系统平均故障修复时间（MTTR）从小时级缩短至分钟级，极大提升了系统的可维护性和运行效率。

• 开放互联：自研芯片多协议兼容。依托自研的“凌云”大容量交换芯片，系统支持TB级互联带宽与百纳秒级时延，并全面兼容国内外主流标准及专业定制化互联协议。

AI工厂模式：打造标准化的智能生产流水线

针对AI落地复杂度高、交付周期长的痛点，白皮书倡导从“项目制”向“工厂模式”转型，将AI能力建设升级为标准化的现代化流水线：

• 软件栈即操作系统：通过统一虚拟化资源池与智能编排，软件层实现对异构算力的深度调度与管理，最大化资源利用率。

• 集群弹性扩展：依托Nebula单体超节点与Nebula Matrix集群超节点，算力可从百卡平滑扩展至万卡规模，灵活满足不同阶段的大模型训练需求。

全栈协同：打造开放共享的智算生态

白皮书强调，构建AI工厂是一项涉及芯片、整机、网络与软件的复杂系统工程。中兴通讯凭借40多年通信领域的系统工程积累，已构建起从自研系列高性能芯片、复杂系统设计到全球工程交付的全栈能力体系。

展望未来，中兴通讯将坚持开源开放理念，携手产业伙伴推动智能算力基础设施的标准化与生态化，共同构建高效、绿色、可持续的AI发展体系。

责编：爱集微

来源：中兴通讯 #中兴通讯#

THE END

爱集微

微信：

邮箱：laoyaoba@gmail.com

12.7w文章总数

12012.5w总浏览量