①用户对机柜部署密度的要求越来越高,液冷已经成为一种有效解决数据中心高密度散热的新型技术; ②曙光数创方面经过内部测算,冷板式的液冷初投资已经低于风冷,浸没式液冷系统运行4.5年后也将出现TCO低于风冷系统的拐点。
《科创板日报》8月14日讯(记者 郭辉) “现在选择冷板式的液冷初投资已经低于风冷。”在近期的一场发布会上,曙光数创副总裁张鹏表示,经过公司内部的建设测算,即便是浸没式液冷系统,运行4.5年也将出现TCO低于风冷系统的拐点。
成本的优化——乃至相对风冷形成优势,意味着液冷方案将正式进入市场拓展阶段。同时当前在算力以及经济节能需求提升背景下,液冷方案在算力中心高功率密度场景中的部署必要性凸显。
▍高密度算力加速液冷方案推广
AI大模型带来了更高密度、更大规模的数据中心建设需求。实际我国算力与存力建设一直处于高速发展阶段,截至2022年底,国内算力总规模达180EFLOPS,存力总规模超过1000EB。
在数据中心建设规模与密度都在不断加快和提升的情况下,当前液冷技术的推广投用有两大驱动因素,一是算力需求提升,计算中心形成更加刚性的散热需求;二是出于节能经济层面的考虑。
“算力芯片功率不断提高,用户对机柜部署密度的要求也在越来越高。”曙光数创总裁何继盛表示,在单机柜功率密度达到20KW以上,继续增加投资都不能满足数据中心散热需求。液冷已经成为一种更有效的解决数据中心高密度散热的新型技术。
张鹏表示,“现在风冷方案在大于10KW之后经济性很差,冷板目前部署过的项目有做到60多KW的,之后随着AI需求下对GPU的更多投用,机柜功率密度可能更高,相变浸没甚至能做到150KW”。
天风证券以英伟达DGX A100 640GB为例,指出其配置了8片A100 GPU,系统功耗最大6.5千瓦,未来随着A100服务器应用增多,数据中心机柜功耗或将进一步提升,单机柜的功率或将超过30KW,更适宜应用液冷冷却方案,从而带动数据中心液冷应用需求。
计算中心机柜密度提升后,还将会带来制冷系统造价成本的提升。
从赛迪顾问的数据中心能耗分析数据来看,过去传统数据中心建成后,电费占运维总成本的60%-70%;数据中心有一半以上的电能用于计算机等IT设备,有近三分之一的电能则是用于冷却系统。
张鹏表示,相比风冷,“冷板式液冷的节能效率将能够降低25%的用电,相变浸没则是到30%以上”。
实际上,算力中心的耗能成本水平,可用能效比这一概念更加直观地去衡量。从数据中心模式诞生起,高耗能便成为一项“原罪”,PUE则被用来衡量数据中心消耗的所有能源与IT负载使用能源的比例。PUE越接近1,代表能效水平越好。
据了解,行业头部冷板式液冷方案的PUE值可小于1.20,曙光数创浸没相变式液冷PUE可进一步小于1.04。高算力、低PUE,以及用户对于成本控制的需求,让性能、能耗、成本的三元关系平衡,成为当前每个数据中心建设者、管理者和运营者面临的难题和挑战。液冷方案几乎成为无可质疑的选择。
在算力压力和成本压力双双攀升的同时,行业政策对数据中心能效提出更高要求。今年6月,多部门联合印发的《绿色数据中心政府采购需求标准》施行,其中明确要求,2023年6月起数据中心PUE不高于1.4,2025年起数据中心PUE不高于1.3。与此同时北京、上海、深圳等地方亦分别出台相关标准。
▍液冷成本初现比较优势 运营商筹划规模落地
从近年国家出台的多项算力中心发展指导政策来看,“更加强调算力运行效率,强调企业个人责任”。工信部旗下研究机构赛迪顾问分析师袁钰表示,不仅要求企业竭尽全力为自身带来最大利润,同时也要对整个行业、生态负起一定的责任,“算力建设不能按照原先那种比较粗放的方式进行推广了”。
根据国家发布的算力总规模的情况,预计到2025年将会有超过300EFLOPS的算力规模,而考虑到AI大模型这一今年以来的最重要变量,赛迪顾问测算后,预计到2025年可以超过1000EFLOPS的算力需求。
袁钰表示,国家政策层面的基础设施一体化、地区算力平衡化,将催生数据中心集群的重大散热需求。目前新建数据中心中,按照曙光数创方面统计和估算,有5%到8%采用的是液冷方案,张鹏认为,到2025年这一数字将会是30%。
赛迪顾问《2023中国液冷应用市场研究报告》显示,国内液冷数据中心市场近三年来飞速发展,市场部署规模达到111.6MW。但实际上,成本一直是液冷方案在过去难以大范围推广、发展进展受限的最核心因素。
不过目前有行业信号显示,液冷投入成本得到了有效改善。
以曙光数创为例,公司副总裁张鹏近期表示,经过公司自己内部的建设测算,现在选择冷板式的液冷投资已经低于风冷,浸没式液冷系统运行4.5年后也将出现TCO低于风冷系统的拐点。
张鹏接受《科创板日报》记者采访表示,随着液冷应用的越来越广泛,产业链上游到下游肯定会有越来越多的供应商会去往这个方向投入,成本随着行业大家共同努力也会有降低。
从行业来看,液冷正在有计划地大规模落地。今年6月,中国移动、中国电信、中国联通三大运营商联合发布《电信运营商液冷技术白皮书》。其中提到的三年发展愿景指出,三大运营商将于2023年开展技术验证;2024年开展规模测试,新建项目10%规模试点液冷技术;2025年开展规模应用,50%以上项目应用液冷技术,共同推进形成标准统一、生态完善、成本最优、规模应用的高质量发展格局。
不仅如此,字节跳动等对数据中心有大量布设需求的互联网公司,也在推动以冷板液冷为主的技术方案。日前火山引擎相关负责人在一场演讲中表示,冷板液冷是高功率密度和高效散热平衡的绝佳解决方案,适合于大多数地区气候条件,具备极高性价比。
▍液冷行业标准暂缺
不可忽视的是,成本因素之外,目前液冷技术推广还面临其他挑战。
近期,曙光数创副总裁张鹏接受《科创板日报》等媒体采访表示,目前公司液冷部署的客户服务案例,既包括新增业务,也有存量改造。他提到,部分原有机房大多按照风冷数据中心进行设计,机房承重对部署液冷设备会有一些困难,同时老旧机房用电容量并没有液冷数据中心这么大、没有按照高功率密度的部署方式考虑,都会对存量市场业务提出一些挑战。
另外,液冷行业标准各异,兼容、互通较为困难。
据了解,很多液冷厂商有自己的液冷产品以及基础设施产品,目前华为、浪潮、曙光、阿里均在冷板式液冷或浸没式液冷方案中具备交付或部署能力。但是不同品牌之间往往并不兼容,对于数据中心用户来说,往往需要采购不同类型的产品,以此保证系统运行稳定性。
张鹏表示,首先如果行业标准对于供水的温度、温差、压力等能够统一,对液冷成本进一步下降是非常有意义的,也是他们在实际落地中遇到的问题。
在实际业务开展过程中,张鹏也发现,行业标准的不一,甚至滋生了损害社会经济效益的行为。“业内存在为了达到PUE要求,人为把服务器的风扇设备功耗调高的情况。因为PUE本身衡量的是除服务器之外的液冷系统、配电系统的损耗多少,把分母做大、PUE就降低了。”
这意味着没有任何技术升级、社会效益没有任何提升,单纯为了纸面数据而徒增耗能。张鹏表示:“其实这反映的是,新形势下对数据中心或者对服务器能效评价是有问题的,都还需要标准更新、统一”。