重塑AI算力基石:中兴通讯发布《超节点技术白皮书》

来源:中兴通讯 #中兴通讯#
1419

近日,中兴通讯发布《超节点技术白皮书》,提出以超节点为核心打造标准化“AI工厂”,通过系统级架构创新,突破算力极限与能效瓶颈,为AI基础设施的可持续发展提供新路径。

突破通信瓶颈:超节点实现高效协同计算

随着AI模型参数规模突破万亿量级,算力需求正在从单芯片堆叠向系统级协同转型,传统分布式训练面临通信开销剧增和算力利用率下降等挑战。为解决这一问题,超节点采用高速互联协议和专用交换芯片,构建高带宽域(HBD),将数十到数百颗GPU芯片逻辑整合为统一编址、低延迟、高带宽的协同计算系统。

这一架构在保留GPU物理独立性的同时,带来了类单机的编程与调度体验,显著提升了算力利用效率,为大规模模型训练和推理提供了高性能的算力底座。

架构创新:OEX正交无背板互联,零线缆

在硬件层面,白皮书重点阐述了中兴通讯自研的OEX(Orthogonal Electrical eXchange)正交无背板互联交换架构。该架构通过物理设计的根本性创新,具体呈现四大核心亮点:

• 高密集成:突破物理空间极限。采用计算托盘与交换托盘垂直交叉的无线缆互联设计,彻底消除了机柜内部成千上万根高速线缆,极大释放了机柜空间,实现了单位空间算力密度的飞跃。

• 高可靠:保障信号完整与系统稳定。通过正交无背板互联显著降低通信损耗,大幅降低误码率。极短的板间互联路径确保了大规模集群通信的高速与稳定。

• 简化运维:极简架构提升可维护性。无线缆设计从根本上减少了因线缆松动、老化或连接器故障导致的宕机风险。极简的物理架构将系统平均故障修复时间(MTTR)从小时级缩短至分钟级,极大提升了系统的可维护性和运行效率。

• 开放互联:自研芯片多协议兼容。依托自研的“凌云”大容量交换芯片,系统支持TB级互联带宽与百纳秒级时延,并全面兼容国内外主流标准及专业定制化互联协议。

AI工厂模式:打造标准化的智能生产流水线

针对AI落地复杂度高、交付周期长的痛点,白皮书倡导从“项目制”向“工厂模式”转型,将AI能力建设升级为标准化的现代化流水线:

• 软件栈即操作系统:通过统一虚拟化资源池与智能编排,软件层实现对异构算力的深度调度与管理,最大化资源利用率。

• 集群弹性扩展:依托Nebula单体超节点与Nebula Matrix集群超节点,算力可从百卡平滑扩展至万卡规模,灵活满足不同阶段的大模型训练需求。

全栈协同:打造开放共享的智算生态

白皮书强调,构建AI工厂是一项涉及芯片、整机、网络与软件的复杂系统工程。中兴通讯凭借40多年通信领域的系统工程积累,已构建起从自研系列高性能芯片、复杂系统设计到全球工程交付的全栈能力体系。

展望未来,中兴通讯将坚持开源开放理念,携手产业伙伴推动智能算力基础设施的标准化与生态化,共同构建高效、绿色、可持续的AI发展体系。

责编: 爱集微
来源:中兴通讯 #中兴通讯#
THE END
关闭
加载

PDF 加载中...