随着人工智能的加速发展,科技巨头之间掀起了一轮轮AI算力竞赛。日前,马斯克的xAI集群数据曝光,其正在推出基于10万个H100 GPU的Colossus训练集群。Meta也计划购买35万个H100 GPU,加强Llama 4 AI模型的算力。LessWrong网站对几大AI巨头的GPU/TPU数量进行估算,预计到2025年,微软、谷歌、Meta、亚马逊和xAI所拥有GPU的等效H100数量将超过1240万块。这表明科技巨头间的算力“军备竞赛”仍在延续。
超1240万块,巨头继续布局算力版图
最近,LessWrong网站上发表了一篇博客,根据公开数据对英伟达芯片的产量、几大AI巨头的GPU/TPU数量进行了估算。其中,微软拥有75万-90万块等效H100,明年预计达到250万-310万块;谷歌拥有100万-150万块等效H100,明年预计达到350万-420万块;Meta拥有55万-65万块等效H100,明年预计达到190万-250万块;亚马逊拥有25万-40万块等效H100,明年预计达到130万-160万块;xAI拥有10万块等效H100,明年预计达到55万-100万块。
可以看出,几大科技巨头都在紧锣密鼓地布局自己的算力版图,开展下一代更先进模型的训练。马斯克此前即透露Grok 3将在年底前亮相。他表示,在法律问题数据集上完成训练后,下一代Grok 3将是一个强大的私人律师,能全天候提供服务。谷歌Gemini 2.0预计在本月正式上线。OpenAI更是宣布,将开启为期12天的“Shipmas”新功能、新产品和演示活动,将展示文本转视频AI工具Sora、新的推理模型等。
这些先进模型的训练和推理需要庞大的算力资源。马斯克声称,其Colossus集群是“世界上最强大的人工智能训练系统”。集群配备英伟达HGX H100服务器,每台服务器内含8张 H100 GPU,每个机架可容纳8台服务器,8台服务器组成1个阵列,每个阵列有512个GPU,整个Colossus 集群内有超过1500个GPU机架,支持着庞大的算力运行。
Meta也在使用超过10万个Nvidia H100 GPU的集群,训练其最新Llama 4 AI模型,成为目前规模最大的AI训练集群之一。明年Meta可能会使用35万个H100 GPU。至于OpenAI,其背后支持者微软很可能是英伟达近两年的最大客户。据Omdia Research分析,2023年微软和Meta是H100的最大买家,预计采购量达到15万个。而到了2024年,微软的AI芯片囤货目标更是提升到了惊人的180万块,其中大部分来自英伟达。
英伟达继续领先,定制芯片市场值得关注
在AI巨头继续大规模部署AI算力的情况下,展望2025年AI芯片市场,英伟达作为全球AI芯片市场的领导者,仍将继续保持其强大的市场影响力和技术领先地位。2024年AI芯片市场占有率:英伟达占据约75%,其他定制化芯片占10%-15%,剩余的10%-15%由超微、英特尔等企业瓜分。另据DIGITIMES Research数据,2024年高端服务器GPU产值预估将达到1022亿美元。
从此前的产品规划来看,英伟达的AI芯片Blackwell产品发货将从2025财年的四季度开始,届时将同时发货Blackwell和Hopper两大系列的产品。而芯片业则已开始着眼英伟达的下一代Rubin芯片。大摩分析师Charlie Chan透露,台积电和供应链已在为Rubin芯片的推出做准备,推出的时间有可能从2026年上半年提前到2025年下半年。2025年下半年将进入流片阶段。下一代Rubin芯片将采用3nm工艺、CPO(共同封装光学元件)和HBM4(第六代高频宽内存)等,性能将更加强大。
AMD作为英伟达的主要竞争对手之一,在AI芯片市场也表现出强劲增长势头。下一代 AMD Instinct MI350 系列加速器有望在2025年下半年上市。其基于 AMD CDNA 4 架构,推理性能比基于AMD CDNA 3的加速器提高35倍。
英特尔在AI芯片市场也拥有一定份额,但今年推出的Gaudi 3表现并不令人满意,尽管Gaudi 3在性能上有所提升,可市场份额仍然较小,预计占有率约为1%。不过,2025年英特尔寄予厚望的Intel 18A将会量产。下一代AI PC处理器Panther Lake和下一代数据中心处理器Clearwater Forest将基于Intel 18A,也在明年发布。此外,按此前的规划,2025年英特尔还将推出一款全新的AI加速器产品Falcon Shores。这是Gaudi系列的后续产品。2025年,英特尔能否在AI芯片市场有所表现,受到业界关注。
更令人关注的是几大AI巨头的定制芯片开发与应用进程。近日,亚马逊AWS宣布推出全新的AI定制芯片Trainium3,与上代Trainium2相比,采用3nm工艺,计算性能增加2倍,能效提升40%。该产品预计于2025年底量产。据了解,Adobe、AI新创公司Poolside、数据平台服务Databricks以及芯片大厂高通都采用Trainium2训练其AI模型。未来,AI巨头的定制芯片将是英伟达GPU的重要竞争对手。
端侧AI需求爆发,各大厂商提前卡位
2025年的另一个重要趋势是,AI模型的边缘和推理计算需求将迅速增长。迄今为止,大多数AI芯片活动都集中在数据中心方面,端侧手机、PC的AI应用也大多是从云端调用。然而,具有真正端侧AI功能的设备预计将于2025年推出,边缘AI将变得更加普及。
在数据中心领域GPU占据AI加速的主导地位,但边缘侧的情况将更加复杂多样,企业需要通过灵活地配置CPU、GPU和NPU,以满足AI加速的广泛需求。在英特尔日前举办的新质生产力技术生态大会上,记者看到一款英特尔与新华三共同推出的AIGC灵犀一体机,其基于至强处理器与Gaudi2D加速卡,可以在私域灵活布局,进行多模型的高效推理和业务场景的闭环交付,满足边缘侧AI应用的多模融合、灵活便捷等多元需求。在AI PC方面,英特尔展示的基于XPU的AI算力优化案例也颇具代表性,显示AI PC在游戏、教育教学、工厂制造、商场支付等方面的广泛潜力。
高通在端侧AI方面的举措同样值得关注。在骁龙峰会期间,高通推出骁龙8至尊版移动平台,面向终端侧生成式AI,采用新一代Hexagon NPU,推理性能提升45%,能效提升45%,能够支持更复杂的端侧AI应用,交互体验更加流畅直观。此外,近年来高通还与腾讯混元、智谱AI等大模型厂商建立合作关系,推动端侧AI应用的部署和落地。通过合作,高通为大模型在端侧的运行提供算力支持,并优化大模型在端侧的性能表现。
Arm则在终端领域引入计算子系统(CSS)。此前,Arm已将计算子系统引入基础设施、汽车领域。Arm的终端CSS中囊括了最新的Armv9.2 Cortex CPU集群和Immortalis与Mali GPU、CoreLink 互联系统 IP,以及基于3nm工艺生产就绪的CPU和GPU。在软件工具方面,KleidiAI和KleidiCV库可为端侧人工智能和计算机视觉工作负载提供支持,Arm Performance Studio可以帮助开发者简化开发流程。
随着端侧AI成为新一代智能手机、PC、汽车等智能设备发展的驱动力,有可能将形成一个超过云端的广大市场。