AI算力军备竞赛，五大科技巨头屯了多少GPU？

作者：陈炳欣 2024-12-06

来源：爱集微 #AI算力# #马斯克# #英伟达# #AI算力#

随着人工智能的加速发展，科技巨头之间掀起了一轮轮AI算力竞赛。日前，马斯克的xAI集群数据曝光，其正在推出基于10万个H100 GPU的Colossus训练集群。Meta也计划购买35万个H100 GPU，加强Llama 4 AI模型的算力。LessWrong网站对几大AI巨头的GPU/TPU数量进行估算，预计到2025年，微软、谷歌、Meta、亚马逊和xAI所拥有GPU的等效H100数量将超过1240万块。这表明科技巨头间的算力“军备竞赛”仍在延续。

超1240万块，巨头继续布局算力版图

最近，LessWrong网站上发表了一篇博客，根据公开数据对英伟达芯片的产量、几大AI巨头的GPU/TPU数量进行了估算。其中，微软拥有75万-90万块等效H100，明年预计达到250万-310万块；谷歌拥有100万-150万块等效H100，明年预计达到350万-420万块；Meta拥有55万-65万块等效H100，明年预计达到190万-250万块；亚马逊拥有25万-40万块等效H100，明年预计达到130万-160万块；xAI拥有10万块等效H100，明年预计达到55万-100万块。

可以看出，几大科技巨头都在紧锣密鼓地布局自己的算力版图，开展下一代更先进模型的训练。马斯克此前即透露Grok 3将在年底前亮相。他表示，在法律问题数据集上完成训练后，下一代Grok 3将是一个强大的私人律师，能全天候提供服务。谷歌Gemini 2.0预计在本月正式上线。OpenAI更是宣布，将开启为期12天的“Shipmas”新功能、新产品和演示活动，将展示文本转视频AI工具Sora、新的推理模型等。

这些先进模型的训练和推理需要庞大的算力资源。马斯克声称，其Colossus集群是“世界上最强大的人工智能训练系统”。集群配备英伟达HGX H100服务器，每台服务器内含8张 H100 GPU，每个机架可容纳8台服务器，8台服务器组成1个阵列，每个阵列有512个GPU，整个Colossus 集群内有超过1500个GPU机架，支持着庞大的算力运行。

Meta也在使用超过10万个Nvidia H100 GPU的集群，训练其最新Llama 4 AI模型，成为目前规模最大的AI训练集群之一。明年Meta可能会使用35万个H100 GPU。至于OpenAI，其背后支持者微软很可能是英伟达近两年的最大客户。据Omdia Research分析，2023年微软和Meta是H100的最大买家，预计采购量达到15万个。而到了2024年，微软的AI芯片囤货目标更是提升到了惊人的180万块，其中大部分来自英伟达。

英伟达继续领先，定制芯片市场值得关注

在AI巨头继续大规模部署AI算力的情况下，展望2025年AI芯片市场，英伟达作为全球AI芯片市场的领导者，仍将继续保持其强大的市场影响力和技术领先地位。‌2024年AI芯片市场占有率：英伟达占据约75%，其他定制化芯片占10%-15%，剩余的10%-15%由超微、英特尔等企业瓜分。另据DIGITIMES Research数据，2024年高端服务器GPU产值预估将达到1022亿美元。

从此前的产品规划来看，英伟达的AI芯片Blackwell产品发货将从2025财年的四季度开始，届时将同时发货Blackwell和Hopper两大系列的产品。而芯片业则已开始着眼英伟达的下一代Rubin芯片。大摩分析师Charlie Chan透露，台积电和供应链已在为Rubin芯片的推出做准备，推出的时间有可能从2026年上半年提前到2025年下半年。2025年下半年将进入流片阶段。下一代Rubin芯片将采用3nm工艺、CPO（共同封装光学元件）和HBM4（第六代高频宽内存）等，性能将更加强大。

AMD作为英伟达的主要竞争对手之一，在AI芯片市场也表现出强劲增长势头。下一代 AMD Instinct MI350 系列加速器有望在2025年下半年上市。其基于 AMD CDNA 4 架构，推理性能比基于AMD CDNA 3的加速器提高35倍。

英特尔在AI芯片市场也拥有一定份额，但今年推出的Gaudi 3表现并不令人满意，尽管Gaudi 3在性能上有所提升，可市场份额仍然较小‌，预计占有率约为1%。不过，2025年英特尔寄予厚望的Intel 18A将会量产。下一代AI PC处理器Panther Lake和下一代数据中心处理器Clearwater Forest将基于Intel 18A，也在明年发布。此外，按此前的规划，2025年英特尔还将推出一款全新的AI加速器产品Falcon Shores。这是Gaudi系列的后续产品。2025年，英特尔能否在AI芯片市场有所表现，受到业界关注。

更令人关注的是几大AI巨头的定制芯片开发与应用进程。近日，亚马逊AWS宣布推出全新的AI定制芯片Trainium3，与上代Trainium2相比，采用3nm工艺，计算性能增加2倍，能效提升40%。该产品预计于2025年底量产。据了解，Adobe、AI新创公司Poolside、数据平台服务Databricks以及芯片大厂高通都采用Trainium2训练其AI模型。未来，AI巨头的定制芯片将是英伟达GPU的重要竞争对手。

端侧AI需求爆发，各大厂商提前卡位

2025年的另一个重要趋势是，AI模型的边缘和推理计算需求将迅速增长。迄今为止，大多数AI芯片活动都集中在数据中心方面，端侧手机、PC的AI应用也大多是从云端调用。然而，具有真正端侧AI功能的设备预计将于2025年推出，边缘AI将变得更加普及。

在数据中心领域GPU占据AI加速的主导地位，但边缘侧的情况将更加复杂多样，企业需要通过灵活地配置CPU、GPU和NPU，以满足AI加速的广泛需求。在英特尔日前举办的新质生产力技术生态大会上，记者看到一款英特尔与新华三共同推出的AIGC灵犀一体机，其基于至强处理器与Gaudi2D加速卡，可以在私域灵活布局，进行多模型的高效推理和业务场景的闭环交付，满足边缘侧AI应用的多模融合、灵活便捷等多元需求。在AI PC方面，英特尔展示的基于XPU的AI算力优化案例也颇具代表性，显示AI PC在游戏、教育教学、工厂制造、商场支付等方面的广泛潜力。

高通在端侧AI方面的举措同样值得关注。在骁龙峰会期间，高通推出骁龙8至尊版移动平台，面向终端侧生成式AI，采用新一代Hexagon NPU，推理性能提升45%，能效提升45%，能够支持更复杂的端侧AI应用，交互体验更加流畅直观。此外，近年来高通还与腾讯混元、智谱AI等大模型厂商建立合作关系，推动端侧AI应用的部署和落地。通过合作，高通为大模型在端侧的运行提供算力支持，并优化大模型在端侧的性能表现。

Arm则在终端领域引入计算子系统(CSS)。此前，Arm已将计算子系统引入基础设施、汽车领域。Arm的终端CSS中囊括了最新的Armv9.2 Cortex CPU集群和Immortalis与Mali GPU、CoreLink 互联系统 IP，以及基于3nm工艺生产就绪的CPU和GPU。在软件工具方面，KleidiAI和KleidiCV库可为端侧人工智能和计算机视觉工作负载提供支持，Arm Performance Studio可以帮助开发者简化开发流程。

随着端侧AI成为新一代智能手机、PC、汽车等智能设备发展的驱动力，有可能将形成一个超过云端的广大市场。