晶圆代工三巨头：从纳米时代转战埃米时代

作者：孙乐 2024-07-29

来源：爱集微 #晶圆代工# #3D芯片#

4.5w

英特尔、三星和台积电这三家领先的芯片代工厂已开始做出关键举措，为未来几代芯片技术吸引更多订单，并为大幅提高性能和缩短定制设计的交付时间创造了条件。

与过去由单一行业路线图决定如何进入下一个工艺节点不同，这三家世界最大的晶圆代工厂正越来越多地开辟自己的道路。但他们都朝着同一个大方向前进，即采用3D晶体管和封装、一系列使能和扩展性技术，以及规模更大、更多样化的生态系统。但是，他们在方法论、架构和第三方支持方面出现了一些关键性的差异。

三者的路线图都显示，晶体管的扩展将至少持续到18/16/14埃米（1埃米等于0.1nm）的范围，并可能从纳米片和forksheet FET开始，在未来的某个时间点出现互补FET（CFET）。主要驱动因素是人工智能（AI）/移动计算以及需要处理的数据量激增，在大多数情况下，这些设计将涉及处理元件阵列，通常具有高度冗余和同质性，以实现更高的产量。

在其他情况下，这些设计可能包含数十个或数百个Chiplet（小芯片或芯粒），其中一些Chiplet专为特定数据类型而设计，而其他芯片则用于更一般的处理。这些芯片以2.5D配置安装在基板上，这种方法因简化高带宽存储器（HBM）的集成而在数据中心和移动设备中获得了广泛的应用。移动设备还包括其他功能，如图像传感器、电源和用于非关键功能的附加数字逻辑。这三家代工厂也都在开发全3D-IC产品。此外，还将提供混合选项，即逻辑堆叠在逻辑上并安装在基板上，但与其他功能分开，以尽量减少热量等物理影响，这种异构配置被称为3.5D和5.5D。

快速和大规模定制

与过去相比，最大的变化之一就是能更快地将特定领域的设计推向市场。虽然这听起来很普通，但对于许多尖端芯片来说，这是激烈竞争所必需的，它要求从根本上改变芯片的设计、制造和封装方式。要使这一方案奏效，需要标准、创新连接方案和工程学科的组合。而在过去，这些学科之间即使有互动，也很有限。

这有时也被称为“大规模定制”，包括通常的功率、性能和面积/成本（PPA/C）权衡，以及快速组装选项。这就是异构Chiplet的前景，从扩展的角度来看，它标志着摩尔定律的下一阶段（即集成电路上可容纳的晶体管数目翻倍）。十多年来，整个半导体生态系统一直在为这一转变逐步奠定基础。

但是，如何让异构Chiplet（基本上是来自多个供应商和代工厂的加固IP）协同工作，既是一项必要的工程挑战，也是一项艰巨的工程挑战。第一步是以一致的方式将Chiplet连接在一起，以实现可预测的结果，而这正是代工厂花费大量精力的地方，尤其是在通用Chiplet互连（UCIe）和Bunch of Wires（BoW）标准方面。虽然这种连接性是三者的关键要求，但也是分歧的主要领域之一。

在全面集成3D-IC之前，英特尔代工厂目前的解决方案是开发业内人士所称的针对Chiplet的“插槽”。英特尔代工厂不是为商业市场确定每个Chiplet的特性，而是定义规格和接口，这样Chiplet供应商就可以开发这些功能有限的微型芯片，以满足这些规格要求。这解决了商业Chiplet市场的一大绊脚石。从数据速度到热管理和噪声管理，所有部件都需要协同工作。

英特尔的方案在很大程度上依赖于2014年首次推出的嵌入式多芯片互连桥（EMIB）。英特尔技术开发副总裁Lalitha Immaneni说：“EMIB底座真正酷的地方在于，你可以添加任意数量的Chiplet。我们在设计中使用的IP数量没有限制，也不会增加中间件的尺寸，因此它的成本效益很高，而且与工艺无关。我们提供了一个封装装配设计工具包，它就像传统的装配PDK（工艺设计套件）。我们提供设计规则、参考流程，并告知允许的结构。EMIB还会提供我们在装配时所需的任何辅助材料。”

根据设计的不同，封装中可能会有多个EMIB，并辅以热界面材料（TIM），以疏导可能滞留在封装内的热量。随着封装内计算量的增加，以及基板变薄以缩短信号传输距离，热接口材料变得越来越常见。

但是，基板越薄，散热效果就越差，这可能导致热梯度随工作负荷而变化，因此难以预测。要消除这些热量，可能需要TIM、额外的散热器，甚至可能需要微流体等更奇特的冷却方法。

台积电和三星也提供桥接器。三星在RDL（再分布层，是添加到集成电路或微芯片中以重新分配电气连接的金属层）内部嵌入了桥接器，并将其称为2.3D或I-Cube ETM。部分集成工作将预先在已知的良好模块中完成，而不是依赖插槽方法。

Arm CEO Rene Haas在最近一次三星代工厂活动的主题演讲中说：“将两个、四个或八个CPU集成到一个系统中，这是非常成熟的客户知道如何去做的事情。但是，如果你想构建一个拥有128个CPU的SoC，并将其连接到神经网络、内存结构、与NPU接口的中断控制器、连接到另一个Chiplet的片外总线，这将是一项艰巨的工作。在过去的一年半时间里，我们看到很多人都在构建这些复杂的SoC，希望从我们这里得到更多。”

三星还一直在针对特定市场，建立Chiplet供应商联盟。最初的概念是由一家公司制造I/O芯片，另一家公司制造互连芯片，第三家公司制造逻辑芯片，当这种做法被证明可行时，再加入其他公司，为客户提供更多选择。

台积电已经尝试了许多不同的方案，包括RDL和非RDL桥接、扇出、2.5D CoWoS（Chip On Wafer On Substrate）和系统集成芯片（SoIC），这是一种3D-IC概念，使用非常短的互连线将Chiplet封装并堆叠在基板内。事实上，台积电几乎为每种应用都提供了工艺设计套件，并一直积极为高级封装开发组装设计套件，包括与之配套的参考设计。

面临的挑战是，愿意投资这些复杂封装的代工厂客户越来越需要非常定制化的解决方案。为了解决这一问题，台积电推出了“3Dblox”新语言，这是一种自上而下的设计方案，融合物理和连接构造，允许在两者之间应用断言。这种沙盒方法允许客户利用任何一种封装方法，例如InFO、CoWoS和SoIC。这对台积电的商业模式也至关重要，因为该公司是三家代工厂中唯一一家纯粹的晶圆代工厂——尽管英特尔和三星在最近几个月都独立了他们的代工业务。

台积电先进技术和掩模工程副总裁Jim Chang在2023年3Dblox首次推出时的一次演讲中说：“我们的出发点是模块化概念。我们可以用这种语言语法加上断言来构建完整的3D-IC堆叠。”

Jim Chang说，这是因为物理和连接设计工具之间缺乏一致性。但他补充说，一旦开发出这种方法，就能在不同的设计中重复使用Chiplet，因为大部分特性已经明确定义，而且设计是模块化的。

▲台积电3Dblox方法

三星随后于2023年12月推出了自己的系统描述语言3DCODE。三星和台积电都声称自己的语言是标准，但他们更像是新的代工规则，因为这些语言不太可能在自己的生态系统之外使用。英特尔的2.5D方法不需要新的语言，因为其规则是由插槽规格决定的，这就为Chiplet开发人员缩短了上市时间，并提供了一种更简单的方法，从而权衡了一些定制化。

Chiplet的挑战

Chiplet的优势显而易见，他们可以在任何合理的工艺节点上独立设计，这对模拟功能尤为重要。但是，如何将这些元件组合在一起并获得可预测的结果，一直是一项重大挑战。事实证明，美国国防高级研究计划局（DARPA）最初提出的类似乐高积木的架构方案比最初设想的要复杂得多，需要广泛的生态系统不断做出巨大的努力才能使其发挥作用。

Chiplet需要精确同步，以便及时处理、存储和检索关键数据。否则，就会出现时序问题，即一项计算延迟或与其他计算不同步，从而导致延迟和潜在的死锁。在任务或安全关键型应用中，一秒钟的损失都可能造成严重后果。

简化设计流程是一项极其复杂的工作，尤其是在特定领域的设计中，不能一刀切。所有三家代工厂的目标都是为开发高性能、低功耗芯片的公司提供更多选择。据估计，目前30%~35%的尖端设计启动都掌握在谷歌、Meta、微软和特斯拉等大型系统公司手中，尖端芯片和封装设计的经济性已发生重大变化，PPA/C计算公式和权衡也是如此。

为这些系统公司开发的芯片可能不会进行商业销售。因此，如果他们能实现更高的每瓦特性能，那么设计和制造成本就能被更低的冷却功率和更高的利用率所抵消，从而可能减少服务器数量。反之，在移动设备和商品服务器中销售的芯片则相反，高昂的开发成本可以通过巨大的销量来摊销。采用先进封装的定制设计的经济性对两者都有效，但原因却截然不同。

缩小尺寸、提升性能和扩展

我们假定，在这些复杂的Chiplet系统中，会有多种类型的处理器，有些高度专业化，有些则更通用。由于功耗限制，其中仅有一部分处理器可能会在最先进的工艺节点上开发。先进的节点仍然可以提供更高的能效，从而在相同的面积上容纳更多的晶体管，以提高性能。这对于人工智能/机器学习（ML）应用至关重要，因为要更快地处理更多数据，就需要在高度并行配置中进行更多的乘法/累加运算。更小的晶体管能提供更高的能效，使每平方毫米硅片能处理更多的数据，但需要改变栅极结构以防止漏电，这就是Forksheet FET和CFET即将问世的原因。

简而言之，工艺领先仍然具有价值。率先将领先工艺推向市场有利于业务发展，但这只是更大难题中的一部分。所有三家代工厂都已宣布向埃米级范围推进的计划。英特尔计划今年推出Intel 18A（1.8nm），几年后再推出Intel 14A（1.4nm）。

▲英特尔路线图

台积电则将在2027年推出A16（1.6nm）。

▲台积电埃米时代的扩展路线图

三星将在2027年的某个时候通过SF1.4实现14埃米（1.4nm），显然将跳过18埃米（1.8nm）、16埃米（1.6nm）。

▲三星的工艺扩展路线图

从工艺节点的角度来看，所有三家代工厂都处于同一轨道上。但进步不再仅仅与工艺节点相关。人们越来越关注特定领域的延迟和每瓦性能，而这正是在真正的3D-IC配置中堆叠逻辑的优势所在，即使用混合键合将Chiplet连接到基板和彼此之间。在平面芯片上通过导线移动电子仍然是最快的（假设信号不需要从芯片的一端传输到另一端），但在其他晶体管上堆叠晶体管是次佳选择，在某些情况下甚至比平面SoC更好，因为某些垂直信号路径可能更短。

在最近的一次演讲中，三星晶圆代工业务开发副总裁兼负责人Taejoong Song展示了一个路线图，其特点是将逻辑叠加安装在基板上，将2nm（SF2）晶粒与4nm（SF4X）晶粒组合在一起，两者都安装在另一个基板上。这基本上是2.5D封装上的3D-IC，也就是前面提到的3.5D或5.5D概念。Taejoong Song表示，晶圆代工厂将从2027年开始在SF2P上堆叠SF1.4。这种方法特别吸引人的地方在于散热的可能性。由于逻辑与其他功能分离，热量可以通过基板或五个暴露面中的任何一面从堆叠的芯片中导出。

▲三星的AI 3D-IC架构

与此同时，英特尔将利用其Foveros Direct 3D技术在逻辑上堆叠逻辑，可以是面对面堆叠，也可以是背对背堆叠。根据英特尔的一份新白皮书，这种方法允许来自不同代工厂的芯片或晶圆，连接带宽由铜孔间距决定。白皮书指出，第一版将使用9微米的铜孔间距，而第二代将使用3微米的间距。

▲英特尔fooveros Direct 3D

英特尔的Lalitha Immaneni说：“真正的3D-IC将采用Foveros和混合键合技术。你不能再走传统的设计路线，把它放在一起并进行验证，然后发现‘哎呀，有问题’。不能再这样做了，因为这会影响产品的上市时间。因此，你真的需要提供一个沙盒，使其具有可预测性。但即使在进入详细设计环境之前，我也要进行机械/电气/热分析。我想看看连接情况，以免出现开路和短路。3D-IC的负担更多在于代码设计，而不是执行。”

Foveros允许将有源逻辑芯片堆叠在另一个有源或无源芯片上，基础芯片用于连接36微米间距封装中的所有芯片。通过利用先进的排序技术，英特尔声称可以保证99%的已知良品率，以及97%的组装后测试良品率。

台积电的CoWoS则已被英伟达和AMD用于人工智能芯片的高级封装。CoWoS本质上是一种2.5D方法，通过硅通孔使用内插器连接SoC和HBM存储器。该公司的SoIC计划更为雄心勃勃，将逻辑存储器和传感器等其他元件一起封装在生产线前端的3D-IC中。这可以大大缩短多层、多尺寸和多功能的组装时间。台积电声称，与其他3D-IC方法相比，其键合方案能实现更快、更短的连接。一份报告称，苹果公司将从明年开始使用台积电的SoIC技术，而AMD也将扩大这种方法的使用范围。

其他创新

工艺和封装技术的到位为更广泛的竞争选择打开了大门。与过去由大型芯片制造商、设备供应商和EDA公司确定芯片路线图的情况不同，Chiplet世界为终端客户提供了做出这些决定的工具。这在很大程度上要归功于封装所能容纳的功能数量与SoC的网孔限制所能容纳的功能数量之比。封装可以根据需要进行水平或垂直扩展，在某些情况下，仅通过垂直平面规划就能提高性能。

但是，考虑到云计算和边缘技术的巨大商机，特别是人工智能在各地的推广，三大代工厂及其生态系统正在竞相开发新的功能和特性。在某些情况下，这需要利用他们已有的技术。在其他情况下，则需要全新的技术。

例如，三星已经开始详细介绍有关定制HBM的计划，其中包括3D DRAM堆栈及其下的可配置逻辑层。这是第二次采用这种方法。早在2011年，三星和美光就共同开发了混合内存立方体（HMC），将DRAM堆栈封装在一层逻辑层上。在JEDEC将HBM变成标准后，HBM赢得了这场战争，而HMC则基本消失了。但是，HMC方法除了时机不对之外，并没有其他问题。

在新形式下，三星计划提供定制的HBM作为选项。内存是决定性能的关键因素之一，在内存和处理器之间更快地读写和来回移动数据的能力会对性能和功耗产生很大影响。如果内存的大小适合特定的工作负载或数据类型，而且部分处理工作可以在内存模块内完成，从而减少需要移动的数据，那么这些数据就会大大提高。

与此同时，英特尔正在研究一种更好的方法，为密集的晶体管提供电源，随着晶体管密度和金属层数的增加，这将是一个长期存在的问题。过去，电源是从芯片顶部向下输送的，但在最先进的节点上出现了两个问题。其一是如何为每个晶体管提供足够的功率。其二是噪声，噪声可能来自电源、基板或电磁干扰。噪声需要屏蔽，但由于电介质和电线越来越薄，这在每个新节点上都变得更加困难。如果没有适当的屏蔽，噪声会影响信号完整性。

通过芯片背面供电可最大限度地减少此类问题，并减少布线拥塞。但这也增加了其他挑战，包括如何在不破坏结构的情况下在更薄的基板上钻孔。英特尔显然已经解决了这些问题，计划今年提供PowerVia背面供电方案。

台积电表示，计划于2026/2027年在A16工艺提供背面供电。三星的计划也大致相同，将在SF2Z（2nm）工艺中实现。

英特尔还宣布了玻璃基板计划，玻璃基板比CMOS具有更好的平面度和更低的缺陷率。这在先进节点上尤为重要，因为即使是纳米级的凹坑也会造成问题。与背面供电一样，玻璃基板的处理问题也层出不穷。好的一面是，玻璃的热膨胀系数与硅相同，因此它与硅元件（如Chiplet）的膨胀和收缩兼容。经过多年的观望，玻璃突然变得非常有吸引力。事实上，台积电和三星都在研究玻璃基板，整个行业都开始使用玻璃进行设计、处理玻璃而不使其破裂，并对玻璃进行检测。

与此同时，台积电非常重视生态系统的建设和工艺产品的拓展。许多业内人士表示，台积电的真正优势在于能够为几乎任何工艺或封装提供工艺开发套件。据报道，台积电生产了全球约90%的最先进芯片，在先进封装方面的经验也是所有代工厂中最丰富的，而且拥有最大、最广泛的生态系统，这一点非常重要。

该生态系统至关重要。芯片行业是如此复杂多变，没有一家公司能做到面面俱到。未来的问题将是这些生态系统的真正完整程度，尤其是在工艺数量持续增长的情况下。例如，电子设计自动化（EDA）供应商是必不可少的推动者，任何工艺或封装方法要想取得成功，设计团队都需要自动化。但是，工艺和封装选项越多，EDA供应商就越难支持每一个增量变化或改进，而且从发布到交付之间的滞后时间也可能越长。

结论

考虑到最近的供应链问题和地缘政治，美国和欧洲认为，需要重新进行“离岸生产”和“友岸外包”。对半导体工厂、设备、工具和研究的投资是前所未有的。这对三家最大的代工厂有何影响还有待观察，但这无疑为共封装光学（CPO）、大量新材料和低温计算等新技术提供了一些动力。

所有这些变化对市场份额的影响越来越难以追踪。这已不再是哪家代工厂以最小的工艺节点生产芯片的问题，甚至也不再是芯片出货量的问题。一个先进的封装可能有几十个Chiplet。真正的关键是能否快速、高效地提供对客户至关重要的解决方案。在某些情况下，驱动因素是每瓦性能，而在另一些情况下，则可能是时间结果，功率是次要考虑因素。还有一些情况下，可能是多种功能的组合，而只有其中一家领先的代工厂才能提供足够数量的这些功能。但显而易见的是，代工厂的竞争比以往任何时候都要复杂得多，而且变得越来越复杂。在这个高度复杂的世界里，简单的比较标准已不再适用。

（校对/张杰）