算力网络IO大战：硅仙人劝放弃IB 黄教主“光明顶”遭围攻

作者：李映 2024-04-17

相关舆情 AI解读生成海报

来源：爱集微 #以太网# #IB# #英伟达# #算力网络#

5.9w

在AI大模型引发的算力就是生产力的时代，围绕GPU和HBM的角逐看似趋于明朗，但一场新的暗战却在积蓄力量，有可能成为左右战局的新筹码。

传奇CPU大神兼Tenstorrent首席执行官Jim Keller在前几天发布的微博简明扼要指出算力系统中有IO、存储和计算三大关键，而以太网将赢得IO之战不久，他又用心良苦直接建议英伟达使用以太网，而不是InfiniBand（IB）。

如果笔者理解无误，Jim Keller说的以太网应该指的是RoCE，但意欲超越RoCE的超以太网联盟UEC于去年年中成立。而英伟达独享的IB会像CUDA一样，遭受光明顶式的围攻吗？

三类技术竞逐网络IO

随着训练模型规模的指数级增长，支撑AI算力的分布式集群网络规模也日益扩大。有分析称，AI模型每隔两到三年将增长1000倍，目前的数据中心交换机市场支出主要用于连接通用服务器的前端网络，AI工作负载将需要建立新的大量的后端网络。由此多台服务器之间的互联通信速率成为影响训练表现的关键因素，提升算力效率、构建高性能网络也成为大厂们新的练兵场。

传统以太网主要采用TCP/IP来构建，但在生成式AI时代显然“难合时宜”。由于其需要数据发送方将数据多次复制到内核，然后再通过网络发送到接收方，接收方接收数据后还需要再次进行内存复制和处理，这一系列操作导致了较高的延迟，通常在毫秒级别，这对于需要低延迟的多机多卡网络来说显然不如人意。

在此情形之下，RDMA（远程直接内存访问技术）应运而生。作为一种高效的网络互联技术，它允许数据在网络中的两个节点之间直接传输，而不需要内核的参与，所有的传输处理都由NIC（网络接口卡）硬件来完成，不仅降低了对计算资源的占用，还大大提升了数据传输的速率。

目前来看，RDMA有三类主要技术实现方式。

相关资料显示，英伟达中意的Infiniband（IB）作为一种高性能的互联技术，从一开始就内置了RDMA的支持，能够实现节点之间的高速直接内存访问和数据传输，具有极高的吞吐量和极低的延迟。RoCE（RDMA over converged Ethernet）则是在以太网上实现RDMA的技术，它使用标准的以太网作为基础传输介质，并通过RDMA适配器和适当的协议栈来实现RDMA功能。iWARP则是基于TCP/IP协议栈的RDMA实现，它使用了普通的以太网适配器和标准的网络交换机，并通过在TCP/IP协议栈中实现RDMA功能来提供高性能的远程内存访问和数据传输。

由于RoCE和IB自带不同的“基因”，也呈现出相异的优劣势。IB网络作为一种原生的RDMA网络，在无拥塞和低延迟环境下表现卓越，以其高可靠性、低时延、高带宽等特点在超级计算机集群中得到广泛的应用。此外，随着AI大模型的指数级进化，尤其是英伟达在GPU的绝对垄断地位，也让IB成为GPU服务器的首选网络互连技术。

而RoCE凭借其依托成熟的以太网生态、最低的组网成本以及最快的带宽迭代速度，在中大型训练GPU集群的场景中展现出更高的适用性。其突出的优势在于用户从以太网切换到RoCE，只需购买支持RoCE的网卡，其他网络设备都是兼容的。目前这一阵营已拥有AMD、博通、英特尔、Meta、微软和甲骨文等巨头。

相对来说，iWARP的协议战相对更复杂，而且由于TCP的限制，它只能支持可靠传输，这也导致了iWARP的发展速度不如RoCE和IB。

两强相争天平倾向以太网？

尽管IB自带强者风范，但其隐忧也在深藏。

由于IB重新设计了物理链路层、网络层、传输层，从链路层到传输层都无法与现有的以太网设备兼容，想要切换或扩容，成本均过于高昂。如某数据中心想要将数据交换方式从以太网切换到IB的技术，那么需要购买全套的IB设备，包括网卡、线缆、交换机和路由器等。此外在构建大规模的AI集群时，如果节点数量超过了IB网络的扩展能力，由于IB的可扩展性差，不仅会增加扩建成本，也对日后的流量管理、其他服务集成造成麻烦，甚至会影响IB的低延迟性能。

据相关数据显示，网络一般占集群成本的20%。尽管黄教主言之凿凿，说IB在相同带宽下的大规模性能比以太网高出 20%，因此IB实际上是免费的。但客户仍要拿出真金白银，在承受了GPU的溢价之后，还要承接IB高成本的暴击。

看起来尽管性能优异，但IB显然更适合于中小规模网络布局。而RoCE则完美地避开了这一“硬伤”，相对更受大厂的青睐。

市场还是会用“大脑”投票的。最近有报道称，OpenAI和微软计划用千亿美金打造一款名为“Stargate”的超级计算机。在选择网络方案时，即便微软是Infiniband的用户，OpenAI还是更加倾向使用以太网电缆而不是Infiniband电缆（简称IB），让AI行业巨头弃用成熟的IB选择以太网的原因也在于IB成本过高，可扩展性不足。

有分析指出，虽然大部分市场需求将来自一级云服务运营商，但预计2/3级和大型企业的需求量将很大，以头部公司为例，除了微软以外，亚马逊、Meta、腾讯这些头部公司机器学习场景用的都是以太网而非IB。当Stargate这么大规模的AI集群搭建也选择以太网技术，已然表明了大厂们对以太网的青睐。

一位行业人士分析，不可否认，目前IB依旧是AI厂商构建网络的主要选择，但是对比IB，以太网低成本、易扩展、不易被厂商绑定的优势愈发明显。对于考虑部署网络的AI厂商来说，选择跟随大厂一起选择以太网，根据市场需求不断实现技术的更新迭代，显然会比选择大笔资金入手IB更为划算。

此外，技术的进阶来看，以太网也更为“到位”。随着AI网络加速向更高速度过渡，预计到2025年，AI后端网络大部分端口将达到800G，而以太网的速度已可实现每秒800G，而IB的速度为400G，这让以太网技术可更好地满足AI发展需要的“理念”。

据Dell’Oro 的预测，在AI后端网络中部署的交换机支出将使数据中心交换机市场扩大50%，IB和以太网之间的竞争正在加剧。虽然IB预计将保持领先地位，但以太网预计将取得实质性进展，到2027年收入份额将增加20%，3年内收入份额翻番，留给以太网的未来发展空间可观。

UEC成为搅局者？

而在IB和RoCE明争暗斗之际，一个新的搅局者超以太网联盟UEC却已横空出世，其目标是超越现有的以太网功能，为高性能计算和AI提供高性能分布式和无损传输层。

目前这一阵营云集了博通、Cisco Systems等芯片厂商，云巨头中的微软和Meta以及交换机厂商中的 Cisco、HPE和Arista Networks。

UEC认为，几十年前定义的RDMA在要求极高的人工智能和机器学习网络流量中已过时，RDMA以大流量块的形式传输数据，可能导致链路不平衡和负担过重，是时候为新兴应用构建支持RDMA的现代传输协议了。

据了解，UEC传输协议正在开发中，旨在提供比现有的RDMA更好的以太网传输，仍支持RDMA的同时保留以太网IP的优势。UEC传输是一种靠近传输层的新形式，它有一些语义调整拥塞通知协议，并且增强了安全功能。UEC将提供更灵活的传输，不需要无损网络，允许many to many人工智能工作负载所需的多路径和无序数据包传输等功能。

目前，UEC 正处于开发的早期阶段，关键技术概念仍在确定和研究中。据了解，第一批批准草案或准备就绪，第一批基于标准的产品也预计将于今年推出。

看起来Jim Keller有些“忠言逆耳”的意味，但黄教主会改弦易辙吗？上述行业人士认为，技术都会有利弊和周期，如果太贵、割裂和独吃的话，就一定会给替代技术以市场。

而当IB和RoCE争霸之际，以UEC为代表的新兴传输协议又会带来怎样的变局？届时是一统天下还是三足鼎立？