2023年6月5日,在第31届中国国际信息通信展览会上,中国移动、中国电信、中国联通三家基础电信运营企业,邀请液冷产业链的相关代表企业,共同面向业界发布《电信运营商液冷技术白皮书》。白皮书提出三年发展愿景,三大运营商将于2023年开展技术验证; 2024年开展规模测试,新建数据中心项目10%规模试点应用液冷技术; 2025 年开展规模应用,50%以上数据中心项目应用液冷技术。
AI算力服务器功耗较传统服务器大幅度的提高,NVIDIA DGXA100 640GB 最高功耗可达6.5KW。AI服务器一般会用CPU+GPU/FPGA/TPU等异构架构,使用大量高功率的CPU、GPU芯片,整机功率随之大幅走高,如用于训练ChatGPT的英伟达AI服务器(NVIDIA DGXA100 640GB)包含8颗GPU (NVIDIA A100 80GB Tensor Core GPU)和1颗CPU处理器(AMD Rome 7742), 系统功耗最大可达到6.5KW。
大模型的陆续问世拉动AI算力需求持续提升,对数据中心的功率需求随之提高。面对快速且持续增长的算力需求,IDC 建设速度及土地面积成为制约因素之-,提高单机柜功率成为发展的新趋势,AI 高功率数据中心机柜占比进一步提升。标准机柜一般尺寸为19英寸*42U机柜,即宽48. 2厘米*槁186.7厘米,以英伟达A100服务器为例,高264.0毫米、宽482.3毫米、长897. 1毫米,单从机柜尺寸方面出发,标准机柜最多可以放7个A100服务器,单机柜上限功率可达到45. 5KW。
传统风冷技术冷却机柜功率密度较低,不足以满足AI服务器散热需求。目前IDC主流的散热冷却技术主要可大致分为风冷和液冷两大类别,根据《冷板式液冷服务器可靠性白皮书》多个方面数据显示,自然风冷的数据中心单柜密度一般只支持8-10kW,通常液冷数据中心单机柜可支持30kW以上的散热能力,并能较好演进到100kW以上。散热冷却系统所采用冷却技术不同,对应的移热速率差距也不同,一旦选择不合适的冷却系统,单机柜功耗与冷却系统能力不符合,会导致机柜温度不断升高,进而导致算力下降,对硬件设备造成不可逆损伤。
液冷技术是有效应对高单机柜功率密度的冷却技术。A1训练及推理应用、超算等高算力业务需求持续推升,由此带来的芯片性能需求、服务器功率需求逐步的提升,散热问题成为发展痛点之一,以英伟达DGXA100640GB服务器为例,此前测算的单机柜上限功率为45. 5KW,传统风冷没办法做到及时散热,液冷技术利用液体较高的比热容和换热能力可以支撑更高功率散热,有望成为新型制冷刚需。
国家、地方及行业积极推出有关政策引导液冷技术落地,2021 年7月肛信部《新型数据中心发展三年行动计划(2021-2023年)》要求“加强核心研发技术。鼓励企业加大研发技术投入,开展新型数据中心预制化、液冷等设施层,专用服务器、存储阵列等IT层,总线级超融合网络等网络层的研发技术”。2021 年11月发改委《贯彻落实碳达峰碳中和目标要求推动数据中心和5G等新型基础设施绿色高水平质量的发展实施方案》明确“支持采用液冷等方式”。
三大运营商不断进行实践,助力液冷技术落地。中国移动积极开展液冷系统试点应用,2019-2021 年分别在河北、山东、江苏、浙江组织液冷试点,并在2023年于呼和浩特智算中心项目中启动液冷规模试点。
互联网巨头早已积极布局液冷技术,白皮书发布有望拉动互联网公司液冷规模化布局加速落地,进一步提升液冷市场空间。阿里巴巴从2016年就开始大规模部署液冷技术试点,2018 年建成首个互联网液冷数据中心,2020 年投产首个5A级绿色液冷数据中心(杭州云计算数据中心);百度在2021年发布《天蝎4.0液冷整机柜开放标准》,积极布局冷板液冷方案;京东在2021年即采用整机柜液冷技术,并规模投入“双11”机房中。伴随液冷技术的进一步成熟、 国家PUE指标趋严、三大运营商白皮书发布进一步明确IDC温控技术路径指引,有望带动互联网大公司积极跟进,加速液冷规划化落地进程。
重要声明:以上内容由本公司整理提供,投资者使用前请予以核实,风险自负。