数据中心混合冷却是未来方向吗?

2023-08-31 15:26:39

    如今,许多数据中心的每个 IT 机架的功率密度都在不断增加,上升到几年前看似极端且遥不可及的水平,但如今在部署空气冷却的同时被认为既常见又典型。例如,Uptime Institute在2020年的调查发现,由于计算密集型工作负载,密度为20 kW及更高的机架正在成为许多数据中心的现实。


    这种增长让数据中心利益相关者想知道风冷 IT 设备 (ITE) 以及用于将冷供气与热废气分离的密封装置是否最终达到了其极限,以及液体冷却是否是长期解决方案。然而,答案并不像“是”或“否”那么简单。


    展望未来,预计数据中心将从100%风冷过渡到包含风冷和液冷解决方案的混合模型,所有新的和现有的风冷数据中心都需要密封以提高效率、性能和可持续性。此外,那些转向液体冷却的人可能仍然需要遏制来支持其关键任务应用,具体取决于部署的服务器技术的类型。


    有人可能会问,为什么空气冷却与液体冷却的争论现在成为业界的热门话题?为了回答这个问题,我们需要了解是什么推动了液体冷却的需求、其他选择,以及如何在继续利用空气作为主要冷却机制的同时评估这些选择。


风冷和液冷可以共存吗?


    对于那些刚进入数据行业的人来说,这是我们以前所处的位置,空气和液体冷却成功共存,同时通过板内空气-水热交换器去除大量热量。这个过程一直持续到 20 世纪 90 年代行业主要转向 CMOS 技术为止,从那时起我们就一直在数据中心使用空气冷却。


    由于空气是数据中心冷却的主要来源,ASHRAE(美国供暖、制冷和空调工程师协会)一直致力于使这项技术尽可能高效和可持续。自 2004 年以来,在 ITE 和冷却系统制造商的参与下发布了一套冷却 IT 服务器的通用标准,名为:TC9.9 数据处理环境热指南。


    ASHRAE 重点关注数据中心 ITE 冷却的效率和可靠性。已发布多个修订版本,最新版本于 2021 年发布(修订版 5)。最新一代 TC9.9 突出了新型高密度风冷 ITE(H1 级),更注重冷却高密度服务器和机架,但由于冷却送风温度较低,因此在能源效率方面进行了权衡建议冷却 ITE。


    至于空气冷却和液体冷却是否可以在数据中心空白中共存的问题——这种情况已经存在了几十年,而且展望未来,许多专家预计这两种冷却技术将在未来几年中共存。


服务器功耗趋势揭示了什么?


    人们很容易认为,在冷却方面,无论是现在还是将来,一种尺寸都可以满足所有功耗和冷却消耗,但这并不准确。更重要的是关注我们正在设计或运营的数据中心的实际工作负载。


    过去,对于空气冷却的一个常见假设是,一旦每个机架的功率超过25kW,就应该过渡到液体冷却。但业界对此做出了一些改变,使数据中心能够通过传统风冷方式将每个机架冷却至甚至超过35kW。


    科学数据中心主要包括机器学习人工智能等 GPU 驱动的应用和加密货币挖掘等高级分析,是该行业通常正在向液体冷却过渡或转向的领域。但如果你看看其他一些工作负载,比如云和大多数企业,增长率正在上升,但从成本角度来看,风冷仍然有意义。关键是从业务的角度看这个问题,我们每个数据中心要实现什么目标?


是什么推动了服务器功率的增长?


    直到 2010 年左右,企业还在使用单核处理器,但一旦可用,他们就转向多核处理器。然而,这些双核和四核处理器的功耗仍然相对平稳。这使得服务器制造商能够专注于冷却 ITE 的较低气流速率,从而提高整体效率。


    2018 年左右,随着这些处理器的尺寸不断缩小,更高的多核处理器成为常态,随着这些处理器达到性能极限,计算密集型应用程序继续实现新性能水平的唯一方法是增加功耗。服务器制造商一直在尽可能多地安装服务器,但由于CPU功耗,在某些情况下,数据中心很难通过空气冷却来散热,从而需要替代冷却解决方案,例如液体冷却。


    几年来,服务器制造商也一直在提高服务器之间的温度增量,这对效率也有很大帮助,因为温度增量越高,散热所需的气流就越少。然而,服务器制造商反过来也达到了极限,导致数据中心运营商不得不增加气流来冷却高密度服务器并跟上不断增加的功耗。


空气冷却的附加选项


    值得庆幸的是,业界正在采用多种方法来成功冷却每个机架高达甚至超过35 kW的功率密度,通常采用传统的空气冷却。这些选项首先是部署冷通道或热通道遏制。如果通常不使用密封装置,则每个机架的机架密度不应高于5 kW,并需要额外的送风量来补偿再循环空气和热点。


    那么降低温度呢?2021年,ASHRAE 发布了第五代 TC9.9,重点介绍了新型高密度风冷 IT 设备,该设备需要使用比上一类服务器更严格的供电温度。


    在某些时候,高密度服务器和机架也需要从空气冷却过渡到液体冷却,特别是在未来几年内,每个处理器的 CPU 和 GPU 预计将超500瓦或更高。但这种转变不是自动的,也不适合所有人。


    液体冷却并不是满足未来所有冷却需求的理想解决方案或补救措施。相反,选择液体冷却而不是空气冷却与多种因素有关,包括特定位置、气候(温度/湿度)、功率密度、工作负载、效率、性能、热再利用和可用物理空间。


    这凸显了数据中心利益相关者需要采取整体方法来冷却其关键系统。它不会也不应该是我们只考虑空气冷却或液体冷却的方法。相反,关键是要了解每种冷却技术的权衡,并仅部署对应用最有意义的技术。