微流控——芯片内部冷却

热管理博览会

2024年1月22日 09:13

浏览：2507 收藏：1

来源 | DCD官网

介绍

液冷是数据中心的未来。空气根本无法处理到达数据大厅的功率密度，因此具有高热容量的致密流体正在流入接管。随着IT设备热密度的增加，液体越来越接近它。但是液体能接近多远呢？通过数据中心机柜的后门运行水循环系统已被广泛接受。接下来，系统一直在将水循环到特别热的组件（如 GPU 或 CPU）上的冷板。除此之外，浸入式系统将整个机架沉入介电液中，因此冷却液可以接触系统的每个部分。主要供应商现在提供针对沉浸感进行优化的服务器。

但还有更进一步的步骤。如果流体可以更接近热源——硅芯片本身的晶体管，那会怎样？如果冷却液在处理器内部流动怎么样？Microsoft系统技术总监Husam Alissa认为这是一个令人兴奋的未来选择：“在微流体中，有时被称为嵌入式冷却，3D异构或集成冷却，我们将冷却带到芯片内部，非常接近运行工作的有源内核。这不仅仅是一个更好的冷却系统：“当你进入微流体领域时，你不再只是解决一个热问题。具有自己冷却系统的芯片可以从源头上解决问题，即硬件本身。

微流控的诞生

1981年，斯坦福大学的研究人员David Tuckerman和R F Pease提出将微小的“微通道”蚀刻到散热器中，可以更有效地去除热量。小通道具有更大的表面积，可以更有效地去除热量。他们建议，散热器可以成为VLSI芯片的一个组成部分，他们的演示证明微通道散热器可以支持每平方米800W的令人印象深刻的热通量。从那时起，这个想法在大学中一直存在，但只对数据中心的实际硅产生了切身影响。

2002年，斯坦福大学教授Ken Goodson、Tom Kenny和Juan Santiago成立了Cooligy，这是一家初创公司，其“有源微通道”设计令人印象深刻，其散热器直接内置在芯片上，以及一个巧妙的静音固态电动泵来循环水。该公司于 2005 年被 Emerson Network Power 收购。

随着半导体制造的发展并进入三维结构，集成冷却和加工的想法变得更加实用。从 1980 年代开始，制造商尝试在硅芯片上将多个组件相互叠加。在多层硅芯片的上层制作通道可能是冷却的快速最优方法，因为它可以通过简单地实现类似于散热器上的鳍片的微小凹槽开始。但这个想法并没有得到太多关注，因为芯片供应商希望使用3D技术来堆叠有源组件。这种方法现在被高密度内存所接受，Nvidia专利表明可能打算堆叠 GPU。在微处理器行业，冷却和加工被视为独立的学科。芯片必须设计成散热，但这是通过相对简单的方法完成的，使用导热材料将热量虹吸到表面上的大铜散热器上。散热器可以通过蚀刻较小的通道来改进，但它是一个单独的项目，热量必须穿过粘合剂的屏障才能到达那里。

但一些研究人员可以看到这种可能性。2020 年，比利时大学间微电子中心和鲁汶大学的 Tiwei Wei 将冷却和电子集成在单个芯片中。Wei 的研究成果于 2020 年发表在《自然》杂志上，他认为这个想法不会在微处理器中流行起来，他说微冷却通道在电力电子领域会更有用，其中由氮化镓（GaN）等半导体制成的大型芯片实际上管理和转换电路内的电力。这可能解释了为什么艾默生/维谛技术（Vertiv）想要收购Cooligy，但Wei认为这项技术并没有进一步发展：“这种类型的嵌入式冷却解决方案不适用于现代处理器和CPU等芯片。

研究人员已经致力于将微流体通道蚀刻到硅芯片表面已有数年之久。佐治亚理工学院的一个团队在2015年与英特尔合作，可能是第一个制造出具有集成微流体冷却层的FPGA芯片，在硅之上，“距离晶体管工作的地方只有几百微米”。“我们通过将液体冷却距离晶体管仅几百微米，消除了硅芯片顶部的散热器，”佐治亚理工学院团队负责人Muhannad Bakir教授在佐治亚理工学院的新闻稿中说。“我们相信，将微流体冷却直接可靠地集成到硅上将成为新一代电子产品的颠覆性技术。

2020 年，瑞士洛桑联邦理工学院的研究人员更进一步，实际上在发热晶体管下方的隧道中运行流体。Elison Matioli 教授看到了将事情更紧密地联系在一起的机会：“我们从一开始就一起设计电子设备和冷却系统，”他在 2020 年说，当时他的团队的论文发表在《自然》杂志上。

Matioli的团队已经设法在芯片内部设计了一个微流体冷却通道的3D网络，就在每个晶体管器件的有源部分下方，距离产生热量的地方只有几微米。他说，这种方法可以将冷却性能提高50倍。Matioli在硅衬底上的氮化镓层中蚀刻了微米宽的狭缝，然后加宽了硅衬底上的狭缝，形成足够大的通道，可以将液体冷却剂泵入。之后，氮化镓层中的微小开口用铜密封，并在顶部创建常规硅器件。“我们只在与每个晶体管接触的晶圆的微小区域上有微通道，”他当时说。“这使得技术变得高效。”

Matioli 设法制造了耗电设备，例如不需要外部散热器的 12kV AC-DC 整流器电路。微通道将流体直接输送到热点，并处理每平方厘米 1.7kW 的惊人功率密度。这相当于每平方米 17MW，是当今 GPU 热通量的数倍。与此同时，通过在现有微处理器的背面创建微流体结构，继续将微流体添加到标准硅中。

2021 年，包括 Husam Alissa 在内的 Microsoft 领导的团队使用直接蚀刻在标准现成英特尔酷睿 i7-8700K CPU 背面的“微针”鳍片。“我们实际上采用了现成的台式机级处理器，并移除了机箱，”他说。如果没有散热器盖和热界面材料（TIM），芯片的硅芯片就会暴露出来。“当那个芯片暴露出来时，我们应用蚀刻方法来雕刻出我们想要看到的通道，”他继续说道。芯片的背面被选择性地蚀刻到200微米的深度，留下100微米厚的棒的残茬场图案 - “微引脚”构成了整体直接到芯片冷却系统的基础。

这是一项微妙的任务，Alissa警告说：“你必须考虑你蚀刻的深度，这样你就不会影响硅的活性区域。最后，将CPU芯片的背面密封在3D打印歧管中，该歧管使冷却液在微引脚之间流动。然后对芯片进行超频以耗散 215W 的功率——是其热设计功率（TDP）的两倍多，该功率旨在安全处理而不会过热。令人惊讶的是，该芯片仅使用室温水就能够达到这一水平。通过歧管输送。该实验表明，与传统冷板相比，结点到入口的热阻降低了 44%，每瓦使用的冷却液量是其三十分之一。使用标准基准程序评估性能。

这是首次直接在标准消费类CPU上创建微流控通道，并在有源CMOS器件上通过微流控冷却实现了最高的功率密度。该小组在IEEE Xplore上报告说，结果表明，在不需要能源密集型制冷系统的情况下，可以更有效地运行数据中心。芯片制造商所需要的只是批量生产带有蚀刻微引脚的处理器，并将它们包装在歧管上，以代替通常的散热器盖。如果像台积电这样的晶圆代工厂能够为他们的芯片提供内置的液体冷却，那将改变采用的动态。Alissa说，这也将使该技术能够进一步突破界限。“使用冷板，你可能会得到40°C（104°F）的水，但使用微流体，你可能会有80°C（176°F）或更高的水从这些芯片中流出，因为冷却剂非常接近活动核心，”他说。“这显然提高了效率和热回收效益，同时降低了对流速的要求。”

微流控的未来

Alissa说，“微流体有两种主要类型，在商业芯片中蚀刻通道：“去买芯片，进行蚀刻，你就完成了。这种方法的更完整版本是让代工厂在芯片到达消费者之前进行蚀刻 - 因为不是每个人都想利用处理器的背面并用酸攻击它。除此之外，还有 Alissa 所说的“更重的触摸”方法。在这种情况下，您可以“在铸造厂尽早拦截并开始构建 3D 结构”。他指的是多孔芯片，这些芯片将组件堆叠在一起，中间层有冷却剂通道。这是基于Matioli在洛桑使用的方法的发展。正如 Alissa 所说，“这有望带来更多，但显然，这是更多的工作。

Alissa有一个目标:“我们想要达到的目标是，通过将多个芯片堆叠在一起，并在两者之间蚀刻(微通道)，我们能够同时在冷却和电气方面共同优化芯片。”冷却将允许多个组件“通过芯片通孔”（TCV）进行堆叠和连接，芯片通孔是穿过硅芯片的铜连接。这些塔式芯片可能需要更低的能量，并且工作速度更快，因为组件之间的距离更近：“总的来说，你在性能上得到了提升，你在冷却上得到了提升，而且由于距离很近，所以延迟也得到了提升。还有另一个好处。如果微流控技术允许芯片达到更高的热设计点（TDP），这可以消除硅设计人员目前面临的障碍之一。

散热的困难意味着当今最大的芯片不能一次使用所有晶体管，否则它们会过热。芯片上有“暗硅”区域，应用微流体可以让设计人员点亮这些区域，从而提高芯片性能。但不要指望微流体可以解决所有问题。早在2012年，Nikos Hardavellas教授就预测了下一个问题：“即使采用奇特的冷却技术，例如液体冷却与微流体相结合，芯片的功率传输也可能会带来新的限制。一旦我们弄清楚如何从芯片中获得更多的热量，我们将不得不开发提供大量功率的方法，这些方法可以在晶体管所需的低电压下提供信号完整性。

知识补充：Dark silicon暗硅

当前和未来几代芯片都存在一个根本性问题。随着更多的晶体管被封装到单个处理器中，性能一直在提高。但是现在，数量太多了，如果不出现芯片过热，它们就无法一次全部使用。处理器制造商公布了每个芯片的热设计功耗（TDP），即它可以安全处理和耗散的能量，并假设芯片上有良好的散热器。TDP 增长得非常高。例如，H100 SXM5 Nvidia GPU 的 TDP 为 700W，与英特尔至强等标准 CPU 相比，这是巨大的，后者的功耗约为 130W。

目前，以 4nm 制造的晶体管每个晶体管消耗 10 阿托焦耳（10-18 焦耳），因此如果其中一个以 1.8GHz 切换，它将消耗 18 微瓦（18 x 10-9 W）。这很小，但今天的处理器拥有大量晶体管。瑞典研究机构 RISE 的 Jon Summers 计算出，拥有 800 亿个晶体管的 Nvidia H100 GPU 将产生 1,440W 的功率——是 Nvidia 为其发布的 TDP 的两倍多。“TDP 为 700W，这意味着 51% 的芯片是暗硅，”萨默斯在 2023 年 11 月在伦敦 DCD Connect 上告诉观众。

持续的小型化并不能解决这种情况。较小的晶体管具有较低的开关能量，因此可以在TDP包络内点亮更多晶体管，但晶体管的数量也在增加。萨默斯说，英特尔计划到 2030 年在芯片上拥有一万亿个晶体管，每个开关使用大约 1aJ。如果时钟频率达到4GHz，芯片为1000平方毫米，热通量，那么这意味着40%的晶体管必须保持黑暗。现在，TDP基于可以从芯片中去除的最大热流（或通量）。Nvidia H100 的面积为 814 平方毫米，因此热通量为每平方米 860kW。这与核聚变的水平相当，萨默斯预计英特尔将提高到每平方米2.4MW。

暗硅的问题早已为人所知：2012年，西北大学的Nikos Hardavellas教授在高级计算协会的杂志Usenix上说：“如果没有技术奇迹，我们正走向一个'暗硅'时代，能够制造出我们负担不起的密集设备。如果不能使用更多的晶体管或更快地运行它们，除非我们改变方向，否则性能改进可能会停滞不前。解决这个问题的方法有很多种，最明显的是增加了芯片中专用内核的使用，这些内核只在需要时使用。但是，也许减少暗硅的一种方法是，如果流体可以在芯片内部流动，在那里它们可以去除更多的能量，并允许更多的热通量。