壁仞科技丁云帆：做好三类工作，国产AI芯片也可用于大模型训练

作者：爱集微 07-10 06:53

来源：新浪科技 #壁仞科技# #WAIC#

新浪科技讯 7月9日下午消息，在刚结束的2024世界人工智能大会上，壁仞科技副总裁兼AI软件首席架构师丁云帆在谈及计算瓶颈时表示，解决算力瓶颈问题需要从三个维度考虑：硬件集群算力、软件有效算力、异构聚合算力。“从这三个维度把相应的工作做好了，即使国产AI芯片单个算力看起来不够强，也能通过综合手段提升算力，满足国内大模型训练的需求。”

丁云帆指出，大模型训练是一个系统工程，需要软件和硬件结合起来，同时也需要算法和工程协同，在这样一个复杂系统里面，存在计算、存储、通信等基础设施的挑战，还有集群规模扩张过程中计算效率的挑战，所以，应对算力难题可以从三个维度来看。

第一，硬件集群算力维度。单卡的算力乘以卡的个数等于集群算力，这样的集群算力计算方式是非常简单的。单卡算力因为各方面的限制，能做的上限是有限的，但单芯片本身在微架构层面还是有创新的空间的：一方面，保证比较好的兼容性，支持多种work load；另一方面，提供比较高的计算效率，在类似于tensor core上去做优化。此外，单卡单机还是不够，需要千卡集群、万卡集群进一步提升算力，这个时候对于网络和基础设施的要求其实也非常高了。

丁云帆指出，总结起来硬件集群算力三个维度，包括单芯片的算力以及通过chiplet提升单卡算力，单机到集群的算力。“我们2020年设计的第一代产品里就做了chiplet架构，国外巨头在今年发布的产品如英伟达B100和英特尔Gaudi 3也采用了同样的思路，他们用最先进的制程，但也需要chiplet来突破摩尔定律限制来提升单卡算力。”

第二，软件有效算力维度。有超大规模集群后，最终软件是不是能够把算力发挥出来呢？这个很重要，这个效率我总结为三个点：首先，软硬结合的计算效率；其次，集群调度效率怎么样；最后，出现故障时的处理效率怎么样。“你本身的集群调度效率怎么样？给你用了之后是不是能把它用好？卡分配给你了，你也在用，但千卡集群、万卡集群都有一个稳定性的问题，无论是国产卡还是英伟达GPU，这个是大家逃避不过去的，故障率是相对比较高的。”丁云帆表示。

据他介绍，壁仞科技用三级的异步checkpoint技术，结合GPU的显存和CPU内存，甚至是多节点内存的备份系统去达到一个平衡，目前已能够大幅降低故障恢复成本。

第三，异构聚合算力维度。单一的集群在集群建设过程中，有各种各样的历史原因，包括刚建千卡集群时，集群的基础设施扩容做不上去，后面就算是同一种英伟达的卡也是多个小的池子，现在可能随着国产GPU的落地，这个问题可能会更严峻一点。