英伟达正在用“热水”为AI降温。
当地时间6月21日,英伟达官方博客发布文章,详细介绍了即将量产的Rubin平台所采用的100%全液冷技术,并将其称为“数据中心历史上最重要的能效突破之一”。Rubin是全球首个实现100%液冷的AI计算平台——系统中的每一颗芯片、每一个网络组件都完全依靠液冷散热,不再依赖任何风扇。
这一技术最反直觉之处在于冷却液的温度——高达45摄氏度,比热水浴缸(38至40℃)还要热。传统数据中心依赖冰水冷却机房环境空气,冷却系统占电力消耗的40%。英伟达的思路则是直接放弃“冰水”,转而采用45℃冷却液流经直接贴附于处理器的冷板,从源头捕获热量。芯片工作温度远高于冷却液,冷却液从45℃入口流经芯片后,变成约55℃的出口液体——只要冷板能把芯片表面温度控制在正常工作范围内,芯片就能全速运行。
这一温度选择带来了显著的能效连锁反应。英伟达数据中心冷却与基础设施总监AliHeydari表示,采用Rubin液冷架构后,“消除了大量电力消耗,也几乎完全消除了所有用水需求”。传统空气冷却数据中心每兆瓦每年耗水约260万加仑,而Rubin的闭环液冷系统将用水量降至接近于零。
全液冷带来的效益可量化呈现。行业估算显示,冷冻站温度每提高1摄氏度,即可降低约4%的制冷能耗成本。一座50兆瓦的超大规模数据中心转向液冷基础设施后,每年可节省超过400万美元的相关能源和水费。在气候适宜地区,该架构甚至可以全年实现无冷水机组运行。
更重要的是,全液冷设计大幅提升了机架密度——过去需要6个机架单元的系统,如今仅需2个即可容纳。
这一技术变革的背后是AI芯片功耗的指数级攀升。上一代GB200单芯片功耗约1200W,Rubin直接飙升至2300W,单机柜功耗突破200kW。风冷的物理极限约800至1000W,Rubin远超这一阈值。
施耐德电气总裁兼CEO Richard Whitmore直言:“当单颗芯片功耗达到某个水平之后,液冷就不再是可选项,而是必需品。”英伟达在博客中明确表示,所有为Rubin平台建设系统的云服务商和数据中心运营商都必须完成向液冷技术的整体转型。