数据中心运维之UPS故障处理及分析

作者:石玮 张立林 万劲松
单位:北京中联云服数据科技有限公司
摘要:数据中心A级能力得以保持需要强大的运维团队,支撑和保障数据中心的安全性、可靠性。本文通过分析两个品牌UPS在某数据中心运行中发生的故障案例,重点阐述问题排查的过程和心得体会。
关键词:数据中心UPS模块故障
作者简介:石玮,高级工程师,Email:shiwei@cnispgroup.com。

0 引言

数据中心的安全性、可靠性和延展性是在立项阶段规划,在设计和建造阶段落实,在竣工验收阶段验证,在运行维护阶段延续。获得CQC(中国质量认证中心)场地基础设施等级增强型(A级)证书仅是数据中心安全性、可靠性里程的开始。数据中心A级能力得以保持需要一支技术完备的运维团队,包括电气、暖通、楼宇自控(弱电)、保养运维和消防安防五个主要专业的技术人才。其中,最重要的应该是电气和暖通技术人才,电气又是五大专业的支撑与保障。本文着重阐述两个品牌的UPS在运行中发生的两个故障案例及解决路径,揭示故障根源,望对电气运维人员有所帮助。

1 北京某数据中心模块化UPS异音问题

1.1 某数据中心模块化UPS异音来源排查

北京某数据中心P106机房中共有2台A厂商100k VA UPS (每台UPS有2个50k VA模块)。在UPS设备进行假负载测试时发现,其中一台100k VA UPS B机柜内存在异音问题,而另一台100k VA UPS A异音要小很多。如果没有很好的解决此问题,很可能会对UPS的正常使用寿命和公司客户带来不可估量的经济损失。下面是对此问题的现场排查及分析处理过程。

(1)排查问题一:模块风扇工作异常导致

通过热插拔UPS模块,更换模块风扇后发现此设备的异音仍然存在,且UPS模块风扇运行正常,证明此台UPS的异音不是来自模块风扇。

(2)排查问题二:UPS输入侧电源存在的谐波干扰

查看图纸与现场实际核查,发现UPS A和UPS B的输入电源来自两台不同的变压器(P202配电室T15和T16变压器),说明两台UPS的输入侧电源的市电都有可能存在谐波干扰的问题,谐波干扰的大小不同,判定谐波的大小会导致5000E-100k VA UPS模块机内部电器元件出现一些问题(其中包括某些在市电正常稳定供电情况下运行的电子元器件,一旦市电质量不稳定就会出现异常损坏设备)。

通过上述分析,异音UPS模块可能是市电谐波干扰造成的。接下来对两台UPS的输入电源进行互换测试。

1)将异音UPS B输入从配电柜A引入,即UPS A与UPS B同时从配电柜A中引入电源,测试结果为UPS B声音明显变弱。

2)将正常UPS A输入电源从配电柜B引入,即UPS A与UPS B同时从配电柜B中引入电源,测试结果为UPS A声音明显变强。

3) UPS B旁路供电状态,拔出所有功率模块后,仅旁路模块在位工作,异音消失,说明异音与旁路模块无关。

4) UPS B转外部维修旁路,拔出旁路模块,仅功率模块在机架运行,异音存在,说明主路接入时就有存在异音。

根据如上测试排查,初步判断,UPS异音与UPS的输入电源有关。

1.2 A厂商5000E-100k VA模块化UPS输入电压排查

用示波器分别对两台UPS的输入电压波形进行测量,UPS A和UPS B的输入电压波形相比,异音较大的UPS B输入电压波形明显呈现锯齿状,存在高频谐波,而UPS A的输入电压高频谐波较小。根据波形判断,异音与输入电压的高频谐波有关。

1.3 A厂商5000E-100k VA模块化UPS输入电压高频谐波模拟实验

现场UPS处于正常工作模式,市电输入经过整流器由AC变换成DC电压,再经逆变器由DC变换成AC输出,经由两级变换以后,能得到精度和质量都较好的输出电压,可以防止输入谐波、毛刺、电压瞬变等干扰影响负载。UPS主路模式工作原理如图1所示。

图1 5000E-100k VA (UPS A)主路模式工作原理图

根据现场试验检查,当UPS输入电源加入高频谐波后,与正常输入电压相比异音明显变大,异音来自功率模块内部的输入滤波薄膜电容。在电容的两端加上纯净的直流电压对电容进行充电,两张金属化薄膜会由于静电库仑力的作用而互相吸引;如果在电容器的两端加上交流电压或叠加有干扰杂波的直流电压,电容上吸引的电荷就会随着电压的周期性变化而产生变化,相应的两张金属化薄膜间静电库仑力的作用也会产生变化,这就引起金属化薄膜的振动,从而产生声响。

1.4 输入电压谐波对A厂商5000E-100k VA模块化UPS输出的影响

根据如上分析,UPS输入电压含有高频谐波导致功率模块内部滤波薄膜电容出现异音。薄膜电容器在交流电压工况下都会有一定的异音存在。这会导致UPS模块中的电子元件缩短使用寿命,其根本的解决办法就是在UPS输入端加装滤波器从而降低谐波对电容造成的伤害,同时也可以解决异音的问题,经过项目团队的技术改造,有异音的UPS已经恢复了正常运行。

2 某数据中心B厂商G7K Customer Q5N误报警导致设备本身保护退出运行分析

2.1 某数据中心现场误报警导致设备本身保护退出运行现象

在并机系统正常工作时,一台UPS的客户端输出开关Q5N会出现误报警“Customer Q5N断开”的现象,而实际该开关未断开,设备本身保护而退出运行。目前为止共有6台UPS出现该现象。报警从出现到消失的时间为0~8s不等。

2.2 Customer Q5N信号链路图

Customer Q5N的辅助触点信号链路如图2所示。

图2 G7K UPS Customer Q5N的辅助触点信号与UPS输出并机柜(PDU柜)内的主断路器分合闸的辅助触点链路图

该信号取自UPS并机输出柜(PDU柜)内的输出开关Customer Q5N的辅助触点,经过信号线接入UPS的并机板INTT/EXTT。

2.3 Customer Q5N断开报警机制分析

并机板内产生Customer Q5N断开报警的电路如图3所示。

图3 G7K UPSCustomer Q5N并机板内断开报警电路图

这个电路的前端是脉动信号产生电路,信号的频率是8.7k Hz。该脉冲信号控制三极管VT5的工作,只要+15V有电,VT5就工作在开关状态,不受其他任何因素和信号的影响。当VT5导通时,在变压器T2的原边产生电流,原边产生电压,T2的两个副边的同名端产生电压信号。由于Customer Q5N闭合,其触点信号也处于闭合状态,b1绕组短路,原边受到串联电阻的限流作用,原边的电压基本降为0,这样,副边两个绕组的电压也为0,b2绕组无信号输出。后边的比较电路如图4所示。

图4 脉冲信号控制三极管VT5的比较电路图

当VT5不工作时,变压器T2原边的储能释放,T2的两个副边的非同名端产生电平信号。B1绕组二极管反向截止,b2绕组会有反向的瞬时电压信号,但由于受到后边电路中二极管的反向截止作用,该信号不会对最后的输出信号造成影响。可见,当Customer Q5N闭合,其触点信号闭合时,这个产生开关状态信息的信号Inf_Q5是没有输出的。

当Customer Q5N断开时,b1处于开路状态,没有电流,b2送出的信号就是脉动信号,就会产生开关断开的报警信号。

开关触点给过来的是短接信号,由于受到触点短接的钳制作用,即使上面的电路(脉动信号产生电路和状态信号产生电路)故障不工作的情况下都不会送出脉动信号。

而误报警就是本来应该没有信号的输出点变成了有信号输出。所以,产生这一变化的原因只能是短接的触点信号发生了变化。而这一变化是来自信号线所受到的干扰(触点本身的问题已经被盘厂的工程师排除)。

2.4 现场检查情况

(1)从UPS输出并机柜(PDU柜)到UPS的Customer Q5N信号线布放不符合规范,现场情况为:信号线与功率线随意布放,而且信号线的屏蔽层没有接地。这样很容易导致信号线受到功率线的电磁干扰。

(2) UPS输出并机柜(PDU柜)内的Customer Q5N触点及其信号线问题每个Customer Q5N内部有4个辅助接点,由图5中可见有2个触点信号是有交流电源电压220V。

图5 UPS输出并机柜(PDU柜)内的Customer Q5N触点接线图

该信号在UPS输出并机柜(PDU柜)内极易受到其他信号或者电源线的干扰。

2.5 整改措施及验证工作

所有UPS输出并机柜(PDU柜)到UPS的Customer Q5N信号线进行分类布线整改,必须按照规范重新进行布放到UPS输出并机柜(PDU柜)内,现场先对一套G7K 4台并机系统P201-T14U-SA(SA1,SA2,SA3曾误报Customer Q5N OPEN)的UPS进行整改工作。将该触点连到UPS输出并机柜(PDU柜)后,端子排的信号线重新布放一根屏蔽线并将屏蔽层的一端接地。就地使用仪表模拟对未接屏蔽线的G7K Customer Q5N触点(UPS内部触点)进行电流测量实验:电流约为7.9m A。然后现场在对整改后的G7K Customer Q5N触点(UPS内部触点)进行电流测量:电流约为8.66m A。现场未整改的UPS并机输出柜内Customer Q5N触点进行电流测量:电流约为1m A。由测试结果可见,整改后的触点电流明显大于整改前的电流,与实验室正常的开关触点电流非常接近。说明整改后的触点信号已经正常。在前面对G7K Customer Q5N的报警机制电路图分析中,流过触点的电流就是线圈b1中的电流。当触点信号正常闭合时,触点输入端的电势为零,线圈中的电流最大;而当触点信号受到干扰时,在触点输入端就会有干扰电势存在,将会使线圈中的电流变小。上述测试数据说明,未整改时的电流较小,说明触点的输入端有干扰信号存在,而整改后触点受到的干扰基本没有。

现将所有UPS输出并机柜(PDU柜)进行整改检测工作并对全部整改完的34台并机G7K UPS进行Customer Q5N触点电流进行检测(UPS正常运行情况下),以检查整改效果是否达到使用要求。测量结果为:302房的一套UPS (用户编号:P302-T24U-SB1,P302-T24U-SB2,P302-T24U-SB3)的G7K Customer Q5N触点电流波形中有较大的干扰成分存在,其他UPS的G7K Customer Q5N触点电流波形较为正常,最后重新对302配电室的UPS进行了检测并查找干扰的原因。经过排查干扰的主要来源是地线,在将从配电柜端子排到UPS的Customer Q5N信号线的屏蔽接地线断开时,触点的电流波形得到了非常明显的改善。目前在用的所有并机UPS的Customer Q5N信号线所受到的干扰已经降到最小,同时将SB1和SB2 UPS的Customer Q5N信号线进行了重新布放,目前满足了数据中心的使用要求。如果将UPS侧Customer Q5N信号输入端直接短接来代替触点闭合的信号,这样可以将外部的所有干扰全部排出,是最理想的状态。

2.6 误报警的根本原因

综合对G7K Customer Q5N的报警机制电路图与现场勘查及整改前后的分析测试数据的分析,可以得出产生误报警的原因就是G7K Customer Q5N的信号受到干扰所致。

3 数据中心UPS问题总结

此次UPS问题的处理,是通过多年的电气工作经验和理论知识相结合,从实际工作经验中一步一步分析排查出来的结果。任何系统的可靠性都不是绝对性的,更不是一成不变的,数据中心IT用户所关心的也不仅仅是供电系统是否会突然断电、是否能在不影响设备安全运行的前提下迅速处理故障恢复设备运行这么简单的层面上,他们更想知道的是断电故障的原因是怎么发生的,为什么会发生此类事故,如何才能有效的避免控制故障和事故的再发生。在风险管控实际预案演练的基础上如何安全、稳定、可靠的保证人身以及设备正常的运行。

综上所述,数据中心的供配电系统是运营保障的核心工作,不间断电源(UPS)的供电质量、安全及稳定运行是重中之重。保障不间断电源稳定运行一定要做到以下几个方面。(1)在建转运阶段一定要收集好不间断电源的技术资料,保存好厂商提供的设备电路图纸以及核心部件的参数信息,以供测试结果比对时使用;(2)遇到问题冷静很重要,先排查输入电质量,特别是电压、电流、频率和谐波质量问题,尽快锁定焦点缩短解决问题的时间;(3)故障现象模拟重现的方法、技巧和思路一定要多元、深入、开阔,不要经验化和格式化,经验不能代替当下问题的解决依据。运维团队平时要善于收集不间断电源的技术资料,深入了解设备正常运行状态下的标准参数值,以供解决问题时比对参考;(4)还需提到的是不间断电源缺乏国家统一规范的验收测试标准,亟待国家标准层面解决。

 

 

参考文献[1] 赵景波.电工电子技术[M].北京:机械工业出版社,2008.
[2]王其英.机房与UPS选型技术手册[M].北京:中国电力出版社,2008.
[3]王其英,何春华.UPS供电系统综合解决方案[M].北京:电子工业出版社,2005.
[4]赵刚,梅桂华等.电能质量电压波动和闪变[M].北京:中国标准出版社,2008.
[5] 曲涛,任元,林海雪等.电能质量公用网谐波[M].北京:中国标准出版社,1993.
[6]景德炎,顾文,曾幼云等.电能质量三相电压不平衡[M].北京:中国标准出版社2008.
[7] 邱见青,王敖生,江伟石等.不间断电源设备(UPS)[M].北京:中国标准出版社,2008.
[8] GB/T 14715-2017昂信息技术设备用不间断电源通用技规范[S].北京:中国计划出版社,2018.
UPS Fault Handling and Analysis of Data Center Operation and Maintenance
Shi Wei Zhang Lilin Wan Jiansong
(Beijing Zhonglian Cloud Service Data Technology Co.,Ltd.)
Abstract: A strong operation and maintenance team is needed to support and guarantee the security and reliability of the data center. This paper focuses on the process and experience of troubleshooting by analyzing the fault cases of two brands of ups in a data center.
Keywords: data center; UPS; module; failure;
1991 12 12
文字:     A-     A+     默认 取消