金属污染物“锌晶须”对数据中心设备可靠性的影响与解决方案探索
0 引言
随着全球经济的数字化转型,数据的运算、存储与传输已成为一种生产资料,而数据中心作为数据的枢纽和应用载体,既是产业数字化的关键基础设施,也是数字经济的基石。2019年全世界共有180个10万台服务器规模的数据中心在建设,但远远满足不了全球经济对数据中心的需求。在中国,随着新基建政策落地,5G基建和工业互联网时代来临,数据中心市场总体规模将快速增长。
与此同时,数据中心一旦发生故障,带来的损失将更加无法估量。艾默生网络能源与Ponemon研究院合作发布的《2016年数据中心宕机成本》中表明,数据中心故障每分钟为企业带来损失近9 000美元。其中,意外宕机平均每分钟总成本从2010年的5 617美元增加到2013年的7 908美元,再到2016年的8851美元。数据中心宕机的成本在持续攀升,同时给各行各业带来了巨大的损失,如图1所示。
因此,随着数据中心行业的蓬勃发展,如何保障数据中心的运维安全,减少意外宕机事故也变得更为重要。近年来,数据中心使用的高性能计算机和刀片服务器等IT设备功耗的不断提升,内部电子附件封装密度越来越高,都对硬件的可靠性造成了很多不利影响,使得IT电子设备更容易受到数据中心循环空气中锌晶须、粉尘、腐蚀性气体等污染物的影响,发生故障的可能性随之增加,进而导致意外宕机事故发生的概率大大提升。
本文着眼数据中心金属颗粒污染物-锌晶须,阐述其对数据中心设备可靠性的影响,并给出行之有效的解决方案,为行业提供有价值的参考,降低高昂的意外宕机成本。
1 数据中心的锌晶须污染分析
1948年,贝尔实验室首次发现镀锌支架上的锌晶须会导致电话传输系统中使用的石英滤波器的损耗增加。之后的数十年内,航天航空和通信领域发现的各种不明原因的电气和电子设备故障渐渐引起人们的关注。2003年,美国航天局数据中心新安装的大型存储器在一个月内发生了18起以上的灾难性电源故障。随后的调查认定故障原因是锌晶须引发的电气短路。经过研究分析后,NASA的事故调研小组成员Jay Brusse等人发表文章介绍了该次事故的详细调查过程,并指出锌晶须引起的电路短路已经是世界范围内造成损失惨重的计算机系统故障的主要原因之一。
锌晶须是由锌形成的导电细丝,通常直径为1μm~5μm,远小于人的头发,肉眼几乎不可见;少数情况下,长度会超过1cm。它们从经过防腐蚀镀锌处理的金属表面自发生长出来,生长速度约为每年250μm,主要的几种形态为柱状、弯折状和结节状。目前的研究成果表明锌晶须是从底部生长而不是顶部生长的,虽然其生长机理尚未证实,但长期以来的主流观点认为镀层内部的压缩应力是锌晶须生长的主要驱动力。
虽然锌晶须的体积很小,但对于今天的微电路而言,它们已经足以引发问题。数据表明,NTF(未发现故障)统计资料中可能由于锌晶须污染导致的间歇性故障占比很高。这种污染已成为最容易引起电子和计算机设备故障的异常因素之一。
数据中心中的锌晶须来源于常见的镀锌产品,例如电镀锌网格桥架、静电地板底部的镀锌钢板等。锌晶须原本是附着在锌层表面,当它受到干扰时就会脱落,比如数据中心进行维护时,拖动电缆就会使得锌晶须从附着物的表面脱落,进入到空气中。然后锌晶须通过空调系统循环流通从而遍布到整个数据中心,最后钻入到设备中,桥接上间隔紧密的电导体,就会导致设备短路、电压变化和其他信号干扰,造成系统宕机、数据丢失,更严重者还会引发电气火灾。
进入21世纪后,关于锌晶须引发的数据中心故障的报道更加频繁。一是因为更小型的电子元器件使电路板导体间距越来越小,锌晶须更容易桥接导体;二是更低的电压和电流不足以熔化锌晶须,造成永久性短路;三是更频繁的机房升级改建,使得锌晶须断裂从附着物上脱落。
2 锌晶须污染解决方案的探索
随着数据中心行业日益认识到锌晶须污染引起的问题,各相关行业也开始致力于探索消除锌晶须污染的解决方案。同时,数据中心不得含有锌晶须也被写入相关的行业指南和标准当中。来自美国采暖、制冷与空调工程师学会(ASHRAE)于2008年发布的数据中心环境设备指南对“建议的运行环境”进行了描述,描述如下。
(1)温度:18℃(64.4)至27℃(80.6)。
(2)湿度:上限为60%的相对湿度或15℃(59)的露点湿度;下限为5.5℃(41.9)的露点湿度。
(3)气体污染物:ANSI/ISA 71.04-1985的G1级严重等级规定,铜试样的反应速率低于300C/月(η0.0039μg/cm2一小时的增量)。此外银试样的反应速率应低于300C/月(η0.0035μg/cm2一小时的增量)。应在机架进气口侧前端2英寸(5cm),离地面1/4及3/4机架高度处或者空气流速较高的地方进行气体腐蚀性的反应监测。
(4)颗粒污染物
1)数据中心必须达到ISO 14644-1 8级所规定的清洁等级。
对于没有安装空气侧节能装置的数据中心,只需采用以下过滤方式,就能轻松地达到ISO 14644-1 8级清洁标准:Ⅰ.使用MERV 8过滤器不断过滤室内空气;Ⅱ.使用MERV 11过滤器(MERV 13更佳)过滤进入数据中心的空气。
对于配有空气侧节能装置的数据中心,为达到ISO 8级清洁标准,应根据数据中心的特定情况来选择过滤器。
2)颗粒污染物的潮解相对湿度不应大于60%RH。
3)数据中心内不得含有锌晶须。
目前数据中心产业链条中关于解决锌晶须隐患的方案主要分为两种。第一种属于围堵措施,针对含有镀锌部件的数据中心进行定期监测。如果检测到锌晶须的存在,可请专业的清洗技术服务商对数据中心定期进行清洗。以美国Data Clean、AMB Solution等为代表的清洗服务提供商便专门为数据中心提供清除锌晶须的服务。
另一种方案则属于预防措施,从根源上杜绝锌晶须的存在,即在方案设计时就采用其他表面处理方式代替电镀锌。以数据中心电缆敷设中经常使用到的电镀锌网格桥架为例,英国
以上两种方案虽然为解决锌晶须污染提供了不同的方向,但在实践操作中也存在一定的缺点。围堵方案中,锌晶须清除以后仍会继续生长,定期、专业清洗服务成本高昂,性价比低。替代方案中,其他替代电镀锌的材质存在表面处理方式、综合性价比低等一系列问题。
例如,(1)采用不锈钢替代方案,由于其材质特性多用于食品加工行业或腐蚀性环境,若用于数据中心则建设成本过高,难以推广。(2)采用热浸锌替代方案,虽然具有优异的耐腐蚀性,但是表面残留大量锌瘤需要人工打磨,增加人工成本,并导致锌层厚度不可控,带来防腐隐患;另一方面热浸锌工艺对环境污染严重。(3)采用预镀锌替代方案,预镀锌为加工前镀锌,虽然价格低廉但自身耐腐蚀性差,再加上加工过程中的断面、切口和焊点处无镀层保护,容易产生锈蚀。(4)采用喷塑替代方案,没有经过电镀直接喷塑,容易刮花,有防腐隐患。
3 一种环保无晶须的纳米膜技术
目前在国内,数据中心不应使用锌晶须已被列入相关的行业规范中(参见表1)。但是一方面国内缺乏为数据中心提供专业锌晶须清除服务的清洗技术公司,另一方面上述替代电镀锌的方案由于其自身的各种不足,并不能很好地满足数据中心建设中对于预防锌晶须的要求。
表1 来自中国通信行业协会于2019年发布的《金属网格式电缆桥架规范》
注:(1)√推荐使用,-可以使用,×不建议使用。(2)电镀锌产生的锌晶须会引发设备短路,因此数据中心不应使用电镀锌。锌晶须事故原理详见该规范附录A。(3)数据中心环境中,喷塑网格桥架应在不锈钢材质或镀镍或热镀锌后再喷塑,不应在电镀锌,或镀锌丝焊接产品上直接喷塑。(4)腐蚀环境划分参照见该规范附录B。
化学镀镍作为金属表面防护性工艺的一种,因金属镍稳定性好、硬度高,其镀层具有良好的耐腐蚀性和耐磨性,且镀层表面光滑美观,工艺经济性相对较高,是替代电镀锌的优选方案。一支基于硅谷资深科学家领导的研发团队创新性地开发了具有自主产权的环境友好型表面纳米合金催化镀膜技术。该技术利用化学氧化还原反应,将镍离子还原沉积在基材表面,形成致密、均匀、高结合力的镍合金纳米膜。在金属表面形成的镍镀层的生长机理为无晶体取向的层状生长,镀层致密且无晶须生长,是一种较为理想的解决锌晶须给数据中心带来的安全隐患的方案。
其次,该镍镀层有优异的耐磨性和耐腐蚀性。电镀锌的薄膜硬度为120 HV左右;镀镍的薄膜硬度在500 HV左右,经过400℃热处理或共沉积Si C等纳米颗粒可以超过1 100 HV,达到硬镉的硬度(>800 HV)水平。镀镍与电镀锌的硬度对比测试和不同表面处理的网格桥架盐雾试验时间详见表2~3。
表2 镀镍与电镀锌的硬度对比测试
表3 不同表面处理的网格桥架盐雾试验时间
镀锌薄膜腐蚀后形成的氧化锌白色粉体,黏附力弱、容易脱落,影响其他设备的稳定性和清洁度。而镀镍层被腐蚀后形成的氧化镍黏附力好,不容易脱落。
第三,环保无晶须纳米膜技术可实现丰富的镍层颜色,符合数据中心的色彩管理理念。
第四,环保无晶须纳米膜的生产工艺采用无污染的食品级原料配制镀液,废液可以重复利用,达到近乎零排放的环保处理。
综合对比分析后,镀镍桥架的优势突出,真正从安全防腐、环保、经济、美观等各方面契合现代化数据中心环境建设的要求。不同材质/表面处理的桥架性能对比详见表4。
表4 不同材质/表面处理的桥架性能对比表
4 结束语
镀锌工件会自发性地生长出锌晶须,当其受到干扰从锌层表面断裂脱落时,会造成数据中心的硬件短路、电压异常和信号干扰,不仅影响设备的长期寿命和可靠性,还很可能造成巨大的经济损失。环保无晶须纳米膜技术的应用可以从根本上消除锌晶须隐患,对比不锈钢钢、热浸锌、预镀锌、喷塑等替代方案更加经济环保,是解决数据中心锌晶须危害的理想应用方案。
[2]Ponemon Institute,Cost of Data Center Outages[R].January 2016,Emerson Network Power.
[3]K.G.Compton,A.Mendizza,and S.M.Arnold.Filamentary Growth on Metal Surfaces-“Whiskers”[J].CORROSION,1951,7(10):327-334.
[4]J.Brusse,M.Sampson.Zinc Whiskers:Hidden Cause of Equipment Failure[J].IEEE IT Professional Magazine,2004,6(6):43-47.
[5]J.Brusse,M.Sampson.Zinc Whisker Awareness:Could Zinc Whiskers Be Impacting Your Electronics[R].April,2003,NASA Goddard Space Flight Center.
[6]David Loman.Zinc Whisker Contamination:A Paper on the Effect and Abatement of Zinc Whiskers in Data Processing Centers[C].2001,HP Services.
[7]NASA.NASA Photo Gallery[EB/OL].2012.nepp.nasa.gov/whisker/photos/index.html.
[8]WU,L.,ASHWORTH,M.A.and WILCOX,G.D..Zinc Whisker Growth From Electroplated Finishes-A Review[J].Transactions of the Institute of Metal Finishing,2015,93 (2):66-73.
[9]The American Society of Heating,Refrigerating and AirConditioning Engineers.ASHRAE.9.9 Gaseous and Particulate Contamination Limits for Data Centers[S].2008.
[10]BEAMA Limited.Best Practice Guide to Cable Ladder and Cable Tray Systems[EB/OL].November,2012.https://www.beama.org.uk/resourceLibrary/beamabest-practice-guide-to-cable-ladder--cable-traysystems.html.
[11]Thomas&Betts Limited.Express Tray[EB/OL].2015.http://www.tnbmobile.ca/portal/uploads/133822_151210104346_250ExpressTrayBrochureEn.pdf.
[12]Panduit Corp.GridRunnerTMUnderfloor Cable Routing System[EB/OL].2012.http://www.panduit.com/ccurl/868/745/SA-FRCB03%20 (GridRunner)%20WEB%202-8-13,0.pdf.
[13]Chatsworth Products.What are Zinc Whiskers and How Can You Prevent Them[EB/OL].September 10,2012.https://www.chatsworth.com/en-us/news-events/blogs/september-2012/what-are-zinc-whiskers-and-how-canyou-prevent-the.
[14] 中国通信企业协会,等.T/CAICI 10-2019金属网格式电缆桥架规范[S].2019.