运营服务人们可能认为如今的数据中心硬件的物理设计已经非常标准。但是不要那么肯定。 图片来自“pexels”

在真正的数据中心出现之前,服务器就已经安装在19英寸机架中。数据中心建筑的空气冷却技术也发展到很高的水平,数据中心的配电也是一项非常成熟的技术。而在过去的几年,数据中心技术只有一些增量的改变。

考虑到这一切,人们可能会认为数据中心硬件的设计已经很标准,其未来的变化只是一些调整。不过这种想法是错误的。数据中心机架、冷却、配电方面还有很多前沿技术和方法。有一些技术已推出多年,有些技术似乎突然出现。但并非所有技术都会获得市场驱动力。

机架的革命

对于习惯于服务器机架成排垂直部署的人来说,进入法国提供商OVH公司运营的云计算数据中心之一就会有一种错乱的感觉。与业界的标准做法背道而驰,OVH公司数据中心的服务器机架不是垂直排列部署的,而是水平堆叠部署的。OVH公司希望成为欧洲主要的云计算提供商,该公司基于VMware和OpenStack的平台即服务(PaaS)公共云并为客户托管企业私有云。

OVH公司在法国Roubaix的数据中心设施附近运营一家生产机架的小型工厂,其生产的“Hori-Racks”机架与传统48U机架尺寸相同,但配置完全不同。在它们内部,三个小型16U机架并排放置。工厂预先将这些“Hori-Racks”机架与服务器一起运送到OVH公司的数据中心设施,这些数据中心主要在法国运营。

OVH公司首席工业官FrançoisStérin说,“机架立平堆叠部署方式的原因是生产速度快,并且易于部署,可以使用叉车将它们部署在数据中心,并将其更快地堆叠和安装。”

其机架经过快速构建和测试,采用即时方法,可以最大限度地减少库存。三名工作人员可以并排工作来装载和测试硬件,然后采用叉车、卡车或拖车可以将机架移动到目的地,例如在法国格拉夫林和斯特拉斯堡或新加坡。在数据中心机房中,可以最多将三个机架堆叠在一起,提供与传统机架相同的服务器密度。

OVH公司可以自由地选择或部署硬件,因为提供PaaS级别销售服务,而不会与客户的硬件搭配。此外,OVH公司采用了一种新颖的冷却方法。

其他公司在改变机架时不会像OVH公司的机架技术那样激进,但还有很多公司希望采用新方法来构建它们。最明显的例子是采用开源硬件,如由Facebook推出的Open Compute Project(OCP)和由LinkedIn公司推出的Open19。

这两家公司都是“买家俱乐部”成员,共享硬件的定制设计,以便多个客户可以从这些调整中获得大订单的好处——通常旨在简化套件,并减少最终产品中浪费的材料和能源。事实证明,传统的机架和IT硬件浪费了大量资源,从不必要的电源设备到制造商的品牌标签。

OCP由Facebook公司于2011年推出,旨在开发和共享机架和其他硬件的标准化OEM设计。该公司推出的理由是,由于规模庞大,网络规模的公司可以向供应商要求自己定制的硬件设计。通过更广泛地分享这些设计,将有可能将这些好处传递给规模较小的厂商,同时从他们那里获得改进设计的建议。

虽然OCP的创始人都是针对大型云计算厂商,但有迹象表明,这些想法已经进一步扩展到托管数据中心服务商。在这里,提供商对数据中心空间中的硬件没有最终控制权,因此它无法提供OCP设想的单片数据中心架构,但是一些客户正在接受这个想法,而OCP已经发布了设施指南,并提出“OCP就绪”的理念,这意味着OCP机架和OCP硬件将得到欢迎和支持。

OCP提出了一种新的机架设计,它将更多的硬件装入与传统机架相同的空间。通过使用机架内的更多空间,它允许采用21英寸规格的设备,而不是通常的19英寸。它还允许更深的套件,OpenU的1U尺寸为48mm,而普通机架的1U尺寸为44.5mm。

该设计还使用直流电源,通过机架背面的是电源分配总线。这种方法吸引了像Facebook公司这样的大规模用户,因为它允许数据中心取消IT工具包中的多个电源。它没有采用交流电源,而是在每个设备中将其整流为直流电,并且在一个地方完成。

Open Rack版本1使用12V直流电源,版本2中也允许使用48V直流电源,这也增加了机架内锂离子电池的选项,可以将其作为一种分布式UPS系统。

这对某些人来说过于激进。例如,LinkedIn公司在2016年推出了Open19基金会,该基金会在不打破19英寸模式的情况下提出了大规模市场简化。Open19机架通过简化的配电系统划分多个机架,类似于硬件供应商提供的专用刀片服务器。该基金会还共享LinkedIn公司开发的网络交换机规范。

机架标准正在升级,但Open Rack或Open19是否会名列前茅?

Open19创始人Yuval Bachar说,“我们看到已经推出21英寸的Open Rack机架产品,我们仍然推出19英寸的标准机架。我们希望在PDU、电源、机架等常见器件方面降低50%的成本,但实际上降低了65%的成本。”

就在其推出Open19的同时,LinkedIn公司也被微软公司收购,微软公司是OCP的主要支持者,也是Azure云计算数据中心的OCP标准设备的大型用户。微软为OCP提供一些新技术,例如机架内置锂离子电池,为IT套件提供电源连续性,可能取代UPS设备。

在完成LinkedIn收购之后,OCP和Open19将会继续并行,OCP为大型数据中心提供服务,而Open19则针对中小公司使用的较小数据中心设施。然而像LinkedIn这样的公司正在运营自己的数据中心。此外,Open19还将专注于边缘计算部署。

然而,LinkedIn公司在2019年7月宣布,不再计划运行自己的数据中心,并将其所有工作负载转移到公共云,显然其使用了微软公司的Azure云平台。

同样,LinkedIn宣布其Open19技术规范将为OCP做出贡献。OCP规范和Open19规范有可能在未来合并,但现在说为时尚早。即使LinkedIn公司不再需要它,该组织还有25个以上其他成员采用。

对于网络规模数据中心设施,OCP正在推进第三版OCP Rack,由微软公司和Facebook公司提供支持,这似乎是由人工智能和机器学习所需的功率密度增加所驱动的。

Facebook公司在博客宣布推出OCP Rack v3时说,“在组件层面,我们看到各种处理器和网络芯片的功率密度在不久的将来会超出空气冷却设备的能力。在系统层面,人工智能硬件解决方案将继续推动更高的功率密度。”

新版本旨在标准化用于在机架内循环液体冷却剂的歧管,以及用于柜门的热交换器,并包括完全浸入式冷却系统的选项。目前尚不清楚其详细的规格是什么,但它们将来自OCP的机架和电源项目,以及其先进的冷却解决方案子项目。

液体冷却

在过去的几十年里,液体冷却技术展现出巨大的潜力。液体比空气具有更高的捕获和移除热量的能力,而液体冷却机架中的硬件是对现有冷却实践的重大改变。因此,液体冷却一直列在那些不值得付出额外代价和精力的技术名单上。

如果数据中心每个机架功率低于20kW,采用空气冷却技术可以有效地降低成本,并且无需采用液体冷却技术。如果机架的功率密度通常低于20kW,大多数数据中心可以在不必采用液体冷却技术的情况下轻松构建。

然而,有两种可能性将液体冷却推向应用前沿:首先,用于人工智能等技术的GPU和其他专用硬件将驱动功率密度上升。其次,对于那些实施液体冷却的公司来说,还有其他好处。一旦实施,液体冷却为数据中心设施开辟了很大的灵活性。风冷式机架是冷却系统的一部分,必须包括空调、空气处理和控制系统,并包括整个建筑物的墙壁和地板。

液冷机架只需要一条电缆连接,可以单独放置在水泥地板上、铺有地毯的空间或小机柜中。这可能很难应用在零售托管空间中,因为它会影响IT设备的部署和运营。因此,除非最终客户特别需要液体冷却技术,否则不会采用。但它确实适用于数据中心日益增加的灵活性,其中设备提供商可以控制硬件,并且没有建筑级别的冷却遏制系统。

小型边缘计算设施通常是微型数据中心,并不具备数据中心的多种资源。而其他数据中心正在重新利用的建筑物内建设,通常是小规模的增量。液体冷却系统可以很好地满足这些要求。

早期的大型机采用的是水冷却技术,但在现代,数据中心采用各种液体的冷却技术。

Asperitas、Submer、GRC等公司完全将机架设备浸入在惰性液体中。其冷却不需要电能,但其维护很复杂,因为其机架设计完全改变,并且必须在更改硬件之前将服务器和开关从窗口中取出并排干。Iceotope公司将IT组件浸入机架内托盘的系统,现在获得施耐德公司的技术支持。

另一些冷却技术则提供直接循环,通过耗电器件的散热器进行液体冷却。这是由那些想要超频的游戏玩家开发的技术,以消除产生的额外热量。像CoolIT这样的公司为机架中的商业设备开发了冷却循环系统,但它们一直是特别针对超级计算机的利基产品。它们需要更换机