数据中心的浪浪山

来源:IT之家中国新闻报道作者:柳暮雪发布时间:2023-01-20 19:57   

2023年初,一只小猪妖走出了郎朗山的圈子在中国气坛第一股,国家踌躇满志,想要成就一番事业结果,他的工作被否定了接着,小猪妖说出了经典台词我要离开郎朗

小猪妖的经历戳中了当代农民工的隐痛,也如同数据中心那些鲜为人知,令人挠头的困境。

最近几年来,我们在很多论坛,峰会,会议上都能听到一些富有远见,言简意赅的话语,比如计算力就是生产力,数字经济的基础设施,在云端用数字赋能智慧这些宏观层面的趋势和路线支撑了云数据中心,智能计算中心等计算集群的快速发展,我们在之前的文章中也分析过很多

但是在实际的建设过程中,会有这样具体的挑战,可能坐办公室/研究所的人很难想象。

比如西部某大学计算中心的一位女工作人员曾经跟我说,服务器的散热主要靠风冷,维持散热会加大风力,所以他们的女员工进机房不能穿裙子,机房噪音很大,常年负责运维的同事听力也受到了损害。

这些细致而真实的问题,构成了数据中心必须攀登的浪尖,否则就会像猪妖一样疲惫无用,而这些问题只能来自脚下扎根的土地,来自与一线人员的交流今天,我们将谈论一些数据中心等待攀登的山峰

第一座山:电

说到中美在数据中心上的差异,你会想到什么芯片,架构,软件,产业链有一个容易被忽视但很重要的因素:电源

易奇研究院从2018年开始走访了国内多家云数据中心,发现2U是国内服务器市场的主流规格IDC的服务器市场跟踪报告也证实,2018—2021年,机柜服务器中2U规格约占70%可是,在美国市场,1U更受欢迎

1U和2U到底是什么这种差异的原因是什么这是什么意思

计算机房中的2U服务器)

我们知道,伴随着IT设备技术的变化,现代数据中心使用的服务器高度一般为1U或2U,其中U是指机架式服务器的厚度,1U为4.45 cm,而早期数据中心的机架式服务器高度一般为3—5U。

u的数量越少,服务器的高度越低,单台计算机的计算密度越高1U服务器的计算密度可以达到2U服务器的两倍而京津冀,长三角,粤港澳大湾区,成渝的枢纽节点,在东西计算工程中对数据中心集群的需求都强调高密度因为只有更高的密度,才能在有限的土地面积上供给更多的计算能力,提高土地资源的效率

这样的话,1U应该是更好的选择,但是实地走访的结果是,2U规格在中国云数据中心占了很大的比重为什么这里有一个决定性因素——供电能力

因为1U比2U消耗更多的功率,所以支持大约18台2U服务器的单个机柜的电源需要达到6kW如果改为部署36台1U服务器,电力供应将达到12kW如果达不到单个机柜的供电能力,就无法充分发挥1U的密度优势

目前中国数据中心的机柜功率仍然普遍较低,主流功率以4—6KW为主在东算西算项目的宣传中,甚至可以看到2.5 kW标准机架的配置,6kW以上的机柜占比只有32%

数据中心的供电系统既有老问题,也有新问题老问题是传统数据中心机电系统各自为政,采集精度不足,调控范围有限供电能力和IT需求无法细化和对等一旦单个机柜的功率密度增加,电源连续运行的可靠性可能会受到影响,停机中断的风险也会增加对于云服务商来说,云数据中心停电会直接导致客服终端瘫痪,带来经济损失,无法承受

新的麻烦是,国家提出双碳战略后,建设绿色节能数据中心已经成为共识,单机功率密度的提高会直接增加制冷需求,从而增加空调设备和风冷用电量以2021年神州数码万里行参观的云数据中心为例腾讯云怀来贝瑞数据中心使用52U机柜,UCloud乌兰察布云基地使用47U和54U机柜如果两者都使用1U服务器,并不会真正提高密度,反而会增加服务器散热设计的挑战

众所周知,数据中心必须提高计算密度,因此需要提高单个机柜的密度单个机柜的电源需要更高的可靠可用电源容量来保证因此可以得出结论,供电能力将是中国数据中心接下来必须攀登的一座大山

第二座山:寒冷

如前所述,机柜功率密度的增加会增加冷却功耗有些机智的朋友可能会问,难道不能采用更高效节能的制冷方式,平稳地向高密度演进,来解决这个问题吗

事实上,数据中心行业已经为更节能的制冷系统伤透了心一方面是加快西算,充分发挥乌兰察布等西部地区的气候优势,新建数据中心,利用室外自然冷源数字中国万里行实地走访了7个数据中心集群,发现张家口数据中心集群和和林格尔数据中心集群的数据中心一年可以使用自然冷源10个月以上,平均PUE为1.2

另一种是充分发挥液冷在降低能耗方面的优势,逐步用液冷服务器替代风冷例如,2018年,阿里巴巴在河北张家口市张北县部署了浸没式液冷机房,卧式54U机柜,32台1U双通道服务器和4台4U JBOD一开始我们提到风冷机房给女员工的着装带来的麻烦不大,液冷技术可以很好的解决这个问题

这是否意味着液冷技术即将在数据中心行业普及2021年数字中国万里行之后,易奇研究院发布的《2021年中国云数据中心调查报告》给出了谨慎观望的答案

我们认为有三个原因:

1.成熟期的生态问题。

虽然液冷的制冷效率远高于风冷,但长期以来,风冷机房在数据中心建设中一直占据主流制造了几十年的风冷服务器已经形成了成熟的生态链,在建设和运营成本上有优势因此,在一些气候优越的地区,风冷方案可以满足降低PUE的需求比如华为乌兰察布云数据中心,以8 kW风冷机柜为主另外,部分东中部地区有引入液冷的需求和意愿,但成本也要考虑如果通过优化UPS架构和采用智能能效管理方案可以实现显著的节能效果,那么就可以实现风冷

2.过渡时期的技术问题。

当然,对于HPC,AI等计算,液冷有很大的优势,所以有些公司想尝试液冷技术,但是不想改造风冷机房所以在风冷到液冷的过渡期,一直有气液混布的市场需求

我们知道,风冷服务器可以与制冷设备松耦合,具有很高的环境适应性和灵活性浸没式液冷需要将服务器的板卡,CPU,内存等发热部件完全浸没在冷却液中,而喷雾液冷需要改造机箱或机柜,这两者都带来了高昂的成本在过渡期内,混合使用冷板液冷与风冷是一种比较合适的方案而冷板液冷需要将冷板固定在服务器的主发热器件上,靠流经冷板的液体带走热量,对密封性和防漏性要求很高,设计制造难度很大

3.产业链合作。

液冷数据中心需要产业链上下游协同创新,包括制造,设计,材料,施工,运维风冷模式也是松耦合,导致制冷行业和数据中心行业割裂推动数据中心向液冷转型,必须构建新的生态,加强各角色之间的联系,降低液冷服务器的前期制造成本和后续维护成本这需要多方的磨合和合作过程,不可能一蹴而就

从这些角度来看,虽然液冷数据中心是大势所趋,但还有很长的路要走,整个行业都在不断关注变化。

第三座山:核心

如果说供电效率和风冷液冷是云数据中心机房基础设施的重要变化,那么芯片可能就是IT基础设施的重点。

2021年,由安谋科技独家赞助的数字中国万里行,在走访贵州,内蒙古乌兰察布,和林格尔等地时,发现了一个新现象——中国的核心力量正在崛起,国内技术的成熟度和应用程度正在提升,赶超主流阿里云的永恒710,AWS的Graviton,安培的Altra等都取得了长足的发展和应用

造成这种情况的原因有很多比如云栈正在走向自主化,为中国芯提供了市场支撑,政务,金融,交通,电力,制造等行业数字化加速,为中国芯提供了应用落地场景,x86和Arm的共存为中国芯基于新架构进行定制优化提供了研发基础

但必须指出的是,月球也有阴暗面中国芯崛起的背后,也要看到中国半导体领域的探索依然艰难

首先是流程的束缚我们知道摩尔定律的延续是建立在工艺技术进步的基础上的,但是半导体工艺技术的提升在很长一段时间内已经到了天花板,跟不上芯片规格提升的速度因此,云数据中心开始采用堆叠CPU的做法来提高机柜密度,但堆叠材料带来的性能提升是有边界的,不能止步于此

于是在后摩尔时代,小芯片开始被很多国产芯片厂商选择这种新的芯片设计模式可以将多个硅片封装在一起,形成一个芯片网络,x86和Arm生态系统都在采用这种技术但需要注意的是,在目前的IP复用方式中,已经有成熟的IP测试验证方法,但如何测试和保证多个小芯片封装后的良品率,仍然是中国芯必须解决的问题

更重要的是,小芯片的封装依赖于先进的封装技术,芯片I/O接口可以配合封装进行设计和优化,这对提高芯片性能非常重要这就要求先进的封装设计和芯片设计有很强的互动性,也对设计工具提出了一定的要求众所周知,EDA工具一直是中国半导体领域的软肋之一这一点不解决,在Chiplet越来越重要的当下,中国芯很难高枕无忧

目前,数据中心集群作为数字化基础设施的重要组成部分,正在发生一系列的变化做的怎么样,有什么问题是一个必须回答却不容易回答的问题

我认不出庐山的真面目,因为我在庐山很多事情,只有当我们靠近现场,再看一眼全局,才能看到一座重重的浪山困住了数据中心的进度

2023年数据中心需要跨越的大山还有很多虽然路很长很长,但只要一直在路上,总会有鸟儿会飞的一天

声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。

中国新闻报道

上一篇: 微星笔记本国行发布会定档2月2日:将发布新一代泰坦/绝影/创造者Z型号

标签