在大自然的肆意凌虐下,人类总是显得如此渺小。但是渺小的抵抗往往也能为我们带来顽强的生机。在330这天,红色雷暴下的鹏城电网有31条10千伏线路没能逃过浩劫——中断了,而其中一条10千伏线路,就是腾讯宝安数据中心的一条主用市电供电线路。这条10千伏线路的罢工,意味着近万台服务器会转由柴油发电机供电,而其中5个T1级别的模块内的近千台服务器将在15分钟的电池耗尽后停机。宝安48小时惊魂记拉开序幕……
没有侥幸
宝安数据中心是腾讯第一个自建自运营的数据中心。。数据中心内IT设备的稳定运行完全依赖于机房提供的电源、制冷及其他基础设施配套。平常,作为宝安数据中心经理的小明,收到六、七级类似机房温度过高的手机报警信息是家常便饭,但八级及以上类似于大面积空调停机、消防火警等之类的告警却未曾见过。
嘀嘀…嘀嘀…嘀嘀…手机短信送达的频率像热恋中如漆似胶的情人短信,不留一点喘息:
“2014-03-3019:25:37腾讯宝安数据中心1楼四期1#UPS 输入故障”
“2014-03-3019:25:37腾讯宝安数据中心1楼四期2#UPS 输入故障”
……
机房最高级别报警-——十级警报信息突然刺破屋内的宁静,异常清晰地传送过来。
小明在这次雷暴还未真正到来之前就在心中拉响了预警,并提前加强了现场的值守和监控。看到告警信息后,小明立即电话联系现场工程师,确认了一个坏消息:机房内有市电中断了,不是“闪断”;更让人揪心的是这条中断的线路下面还有5个没有柴发后备支持,断电后仅靠电池短时间支撑的T1模块。这意味着如果没有紧急措施,15分钟后,QQ邮件、手机浏览器等业务会部分受到影响。
争分夺秒
应急预案第一时间启动:先启动两台柴油发电机正常帯载;然后运营团队立即与供电局沟通了解故障情况并努力协调临时市电的转换来保障T1模块的供电。暴风雨没有一丝因为暴虐成功而收敛的意思,距第一次十级报警40分钟后,形势更加严峻:5个T1级别的模块,由于电池逐步耗尽,服务器开始出现断电的情况。紧急与NOC(网管监控中心)沟通后,现场工程师根据紧急预案内的设备清单对部分服务器进行关停操作,延长重点服务器的可运行时间。
因为全市同时有很多线路发生故障,需要切换,与供电局协调市电转换的沟通变的异常艰难。报警1个多小时过去了,距离T1模块出现服务器断电情况又过去了30分钟,宝安运营团队像川剧变脸一样各种各样白脸红脸招数唱尽,蜜糖和炮弹同时奉上,终于让供电局确认了临时市电线路的负荷,将部分负载切换到临时市电线路上,至此5个T1级别的模块终于恢复了电力供应。
此刻,小明和宝安运营团队的心上的石头才慢慢落回肚里。第一阶段的战斗——紧急恢复供电总算告一段落。
故障清查
临时市电加上后备柴油发电机,毕竟只是权宜之际。在极端天气情况下,供电局的临时线路分分钟会根据实际情况进行转换,柴油发电机也不适合长时间满负荷带载,因此排查中断原因和快速解决成为重中之重。
三小时后,故障原因终于定位:线路上一个户外环网开关柜,由于暴雨导致的严重内涝被淹没了,而在持续的暴雨中,故障点的洪水不退下去是完全不可能修复的。如此一来,平时后备的1#、2#柴油发电机成为此时唯一的希望寄托。柴油发电机长时间带载是比较严峻的考验,不仅有设备工作状态的风险,也有供油不及时的担心(曾出现过加油车辆因道路被水淹没而无法按时到达加油的血泪经验)。
如今唯有以不变应万变,360度的布局:
增加值守人员;
沟通好加油站确保24小时的用油及多种供油方式;
做好1#、2#柴油发电机的互备切换方案;
增加关键设施巡检点及巡检频次(发电机的输出状态、油位、冷机等);
增加IT驻场等。
一切都严阵以待。
这个夜晚,伴随着宝安的小伙伴们度过的,不仅是那八千道闪电和倾盆的大雨,还有柴油发电机的巨大轰鸣声,以及油站隔一段时间就开过来的加油车——这首人与大自然抗争的交响曲,令人一夜难眠。
雨后归来
第二天早上,经过16个小时,红色警报终于解除,天气小雨。小明和他的小伙伴们第一时间赶到故障点查看现状,积水退下的现场一片狼藉,环网开关柜内塞满了淤泥、树枝,除此外还有一片烧焦的痕迹,高压电缆的短路不像一般低压柜的跳闸,让人心有余悸地想像昨晚是否发生过爆炸,还好没有伤及周围无辜的人群。
解决故障是此时头等大事。故障原因定位于原环网开关柜的地势太低,离周围最近的排水口距离太近,仅五米之余。更换新环网柜,并重新在高位定位的解决方案被快速确定下来并第一时间开始实施。但据初步估计,哪怕供电单位施工人员日夜施工抢修也需要48小时才能修复。成,有修复完成时间总比无望强。
安排好抢修事宜,一行人刚喘口气,供电局又来凑热闹,来了一个丝毫不容商量的电话:进入用电应急状态,宝安数据中心临时市电线路负荷超载,请立即减载到一半以下,否则10分钟后将强行切掉负载。
在临时市电+柴油发电机组合中,原本最好的策略是:赶紧抢修线路;同时1#,2#柴油发电机轮流带载,留一台备用,防止有某台柴油发电机因突发情况罢工。如今临时市电要减载一半,意味着两台柴油发电机要同时上阵,不再富余一点退路。小明倒吸一口凉气,在抢修完成前还有48小时要熬过,面对未来,小明从来没有这样担心过。最终软磨硬泡和供电局达成协议:争取在晚间线路负载降低后,再把我们的负载切上来。当天23时20分,经过大量沟通,在柴油发电机连续运行30小时后,供电局终于同意再次切换部分负荷回到临时市电上。累感不想再言,想来也就是这个境界了。
在收到十级报警45个小时后,和供电局就切换临时市电做了多次拉锯战后,新的环网柜终于安装完成。
老天的玩笑总是一桩一桩:在专心做环网柜安装最后的电缆头连接电缆的时候,机房现场传来着火的消息。小明第一反应是:Are you kidding me? 机房正在用的临时市电线路,在旁边的“东望洋”工业区内的开关和线路出现打火现象,现场能看到着火点,已经报了119,也第一时间启用灭火器。经供电局的人到现场查看,反馈原因是由于线路负载太高,绝对不能再加负载,而当时机房在临时市电上的负载只有不能使用柴油发电机的5个T1模块,已经是最小负载了,如果临时市电停电,这些T1模块都会面临停机的风险。最后,宝安的小伙伴们再次争取到供电局的妥协:鉴于我们已经在抢修线路,所以他们协助暂时不处理,但是不排除情况严重会随时因故障停电。
十级报警之后近48小时,故障点现场抢修工程终于不负期望提前完成,新的环网柜经现场测试相序正常后,机房完成正式市电的切换,一切重新走上正轨!宝安的小伙伴们,踩了两天的钢丝,终于到达彼岸。
后序:
每一次与突发事故的短兵相见都是一次宝贵的经验积累。对小明和他的小伙伴们而言,这次他们不仅见证了鹏城近年来罕见的大暴雨;也度过了工作生涯中首次遭遇的48小时惊魂。事后,他们还有话说:
1、与油站的供油协议,以及与油站、业主、供电局等单位的日常关系维护,很重要!
停电期间48小时两台柴油发电机轮流开机,总共耗油近10吨(10700L)!油站在保障如此大的油量供应的前提下,在恶劣的天气里能做到快速响应,这是对协议油站服务能力的一次检验。频繁的油罐车进出、供电局临时市电供应以及供电单位通宵紧急抢修等等各方面的配合协调,也表明与相关单位的日常关系维护达到预期效果。
2、柴油发电机的日常保养及维护,很重要!
停电期间,其中1#柴油发电机最长连续运行时间为30小时。这是腾讯数据中心运营有史以来的最长的满负载连续运行时间,业内如此长时间的连续运行也不多见。停机后检查机组一切正常。1#发电机从投产至今已将近7年时间,从每天的日常巡检,每周的空载、每月的带载测试,到每年的综合保养,是现场运营同事的精心维护保养才使得设备拥有良好稳定的运行状态。
3、应急处理预案及日常应急演习,很重要!
每季度的应急预案的真实场景演习,保证了现场运营人员对各种场景的操作步骤烂熟于心,如此才能在真正遇到极端情况时可以按部就班的进行操作,大大降低紧急情况下的人为操作失误风险。
|