欢迎来到中国IT及布线行业权威网站! [请登录],新用户?[免费注册]
用户名: 密码:
| 设为首页 | 加入收藏
您当前的位置:首页 >> Tab栏目 > 数据中心
对近20年的数据中心事故原因研究,结果发现:
来源:网络 作者:未知 更新时间:2019-03-14

传统观念认为“人为失误”是导致大多数系统运行中断的罪魁祸首,而管理失误才是导致系统运行中断的真正元凶,而非一线操作失误。


数据中心、石油勘探、船舶、发电厂和飞机看起来像是截然不同的实体产业,但这些庞大而复杂的系统都会发生故障——有时甚至是灾难性的故障。地震或风暴等自然灾害都可能会引发复杂的系统故障。但人们常常把由于缺乏正当的应急程序和资源或组织而导致的管理决策失误归咎于一线“人为操作错误” 。


“人为操作故障”有时候会令人产生误解。一线操作人员在事故现场很容易承担主要责任。但这往往会掩盖由于管理不善造成事故的事实。


绝大多数事件的责任可归咎于上级决策失误,比如设计缺陷、预算短缺、人员匮乏、供应商选择或资源分摊有误,好像都与事件发生的时间与空间无关。那么是什么原因使一线人员在处理事件时因准备或技能不足导致处理不当?


为了预防故障发生,目前很多标准和实践都印证了许多行业在系统设计时就采用了严格的操作规范和要求,包括检验制度和认证。每个行业的相关机构和部门制定编译、编纂和执行措施,这些制度和要求帮助使用者免受故障造成的人身伤害或财产损失,并激励各支柱产业保持准备和最佳实践。


Uptime Institute对近20年的数据中心事故原因进行了研究,结果发现除了很小比例的事故是由机械故障引起的,绝大多数事故的原因都是由于管理疏忽。


这个基本的和永久的真相迫使Uptime Institute进一步涉足数据中心和IT行业特有的标准和认证。Uptime Institute研究与各种利益相关方采取协作方法,以制定基于成果的数据中心标准,该标准将由业界持久地发展并为业界服务。 Uptime Institute认证旨在以公平的方式评估管理结构和组织行为背景下的一线操作。


故障借鉴


泰坦尼克号的沉没、深水地平线漏油事件、20世纪70年代的DC-10空难事故、新奥尔良堤防体系的失败、三里岛核泄漏、2003年美国东北部大停电、波音787的电池起火、挑战者号航天飞船灾难、福岛第一核电站灾难、壳牌公司北极钻油项目终止,这些只是历史上最具标志性和悲剧性的工程系统故障的冰山一角。 虽然这些事故发生在不同的行业,每个事故都有其特殊的原因,但它们之间和数据中心之间一样都有一些共同点,都属于在技术复杂的工业中运行着的高度复杂系统。


这些所谓的复杂系统的标志是“大量交互的组件,难以从单一组件预见的紧急特性,具备随机中断的适应性,以及在不利条件下极易受到广泛故障的影响(Dueñas-Osorio和Vemuru,2009)” 此外,复杂系统的组件通常以非线性方式交互,在大型互联网中运行。


大型系统及它们所属的行业使用各种预防措施和备份保护策略来防止故障发生。 因此,它们失败的原因就不仅仅是单一因素或差错。


不言而喻,复杂系统的故障也越来越复杂。仅从不同行业的几个例子中,我们一次又一次发现,并不是某个单一因素而是多重复合效应打乱了这些复杂系统的运行。“级联故障”,是指复杂的系统故障通常在系统的一个组件或元件发生故障时就开始了,从而要求周围的“节点”(或系统网络中的其他组件)承担故障组件的工作或服务。如果因此增加的负荷太重,周围的其他节点也会过载并失败,从而产生瀑布效应,因为每个组件的故障都会增加其它已经受到故障的组件负载。以下概念来自电力行业:


电力传输系统是具有大量以各种方式交互的组件的异构网络。当超过部件操作极限时,各组件之间就会断开彼此的连接从而起到保护作用——各部件的状态为不可用。部件也可能因为老化、火灾、天气、维护不当或设计缺陷等原因而导致误操作或损坏。部件故障的影响可能是局部的,也可能影响距离很远的其它组件,因此整个网络中许多其他的组件负载都会增加,整个网络的流量也因此发生变化(Dobson,et al.2009)。


因为由一线操作人员来应对新出现的危机,所以网络的组件可以是机械的、结构化的或人工代理的。正如工程组件超载时会故障一样,人类在面对压力时的处理效率和决策能力也会下降。高风险组织的一个明显特征是,尽管是在情有可原的情况——在充满威胁的标准操作环境下,它仍然能够提供架构和指导支持。


泰坦尼克号的沉没可以算是历史上最著名的复杂系统故障。这场灾难由结构性问题、管理决策和操作失误造成的复合效应而导致1495人丧生。有一些关键因素包括设计妥协(例:通过降低水密舱壁的高度使水流过顶部,为了追求美学而限制救生艇的数量),随意决策(例:收到前面有冰山报告仍以过快的速度航行),操作员错误(例:瞭望台没有配备双筒望远镜,因为内舱钥匙被落在了南安普顿),以及危机应对中的错误决断(例:当发现冰山时,航海员试图减速,停船倒车,而不是全速前进并利用船的动力扭转航向从而减少冲击力)。当然,当时人们狂妄自大的认为这艘船是永不沉没的。


图1a(左图)2013年1月7日在波士顿洛根国际机场起火的日本航空公司波音787燃烧的辅助动力装置电池的照片。 照片来源:国家运输安全委员会(NTSB),来自维基共享资源。


图1b(右图)是波音梦幻客机(787)原电池的并排比较。 照片来源:由国家运输安全委员会(NTSB),来自维基共享资源。


再看一个更近的例子,日本航空公司(JAL)波音787的电池火灾事件于2013年曝光(见图1),最终归咎于设计、制造和管理方面的不足(Gallagher)2014)。 经过调查,美国国家运输安全委员会报告如下(NTSB 2014):


制造商在设计和质量控制方面的问题。 制造商未能充分考虑热失控现象:电池的初始过热引发的化学反应产生了更多热量,从而导致电池爆炸或起火。 电池的“制造缺陷以及制造过程中监督的缺失”导致了电池行业中锂矿物质的发展。 这些沉淀物称为锂枝晶,他们与电池发生的化学反应会导致电路短路从而产生热量。 在一些电池电解质材料中发现锂枝晶的存在,是制造业质量控制问题的体现。


•   

认证过程的不足。 NTSB在美国联邦航空管理局(FAA)的指导和认证过程中发现了问题。 在电池安全评估过程中一些应该考虑的重要因素被忽略了。


•   

•缺乏对承包商的监督和正式变更单。 一批承包商和分包商参与了787电气系统和电池组件的制造。 某些承包商未经适当批准或监督而对规范和说明进行了更改。 当美国联邦航空局进行审计时,发现波音公司的主承包商没有遵循电池组件装配和安装说明,而且错误标记了部分零件。 美国联邦航空局评价缺乏“遵守书面程序和沟通”。


这些情况中有多少与数据中心建设和运营期间可能发生的情况相同? 在施工过程中发现与设计系统的偏差,质量控制监督不一致以及使用多个分包商是很常见的。 外包和外部资源可能会忽略或匆忙通过书面程序、文档和通信协议(搜索:避免数据中心构建问题@ journal.uptimeinstitute.com)。


复杂系统故障的本质


大型工业和工程系统本质上具有风险。 组件数量越多,这些组件的能量和热量水平、速度、尺寸和重量越高,安全地规划、管理和运维操作系统所需的技能和团队合作就越多。在机械组件和人为操作之间,存在成千上万个可能发生错误并触发一系列故障的点。


Richard I. Cook博士在他发表于1998年,至今仍被广泛引用的关于复杂系统故障主题的开创性文章《复杂系统如何崩溃》中,识别并讨论了复杂系统失败的18个核心要素:


1. Complex systems are intrinsically hazardous systems.

1.复杂系统本身就是危险系统。


2. Complex systems are heavily and successfully defended against failure.

2.复杂的系统在很大程度上成功地防御了故障。


3. Catastrophe requires multiple failures—single point failures are not enough.

3.多重故障导致了灾难的产生——不仅仅是单点故障。


4. Complex systems contain changing mixtures of failures latent within them.

4.复杂系统包含潜在的多重故障。


5. Complex systems run in degraded mode.

5.复杂系统以降级模式运行。


6. Catastrophe is always just around the corner.

6.随时都可能发生灾难。


7. Post-accident attribution to a root cause is fundamentally wrong.

7.事故后归因于某个根本原因是根本是错误的。


8. Hindsight biases post-accident assessments of human performance.

8.后见之明偏重事故后对人类表现的评估。


9. Human operators have dual roles: as producers and as defenders against failure.

9.系统运维人员具有双重角色:系统的创造者以及防止事故发生的系统维护者。


10. All practitioner actions are gambles.

10.所有从业者的行为都是赌博。


11. Actions at the sharp end resolve all ambiguity.

11. 锐利的行动解决一切歧义。


12. Human practitioners are the adaptable element of complex systems.

12.人类从业者是复杂系统的适应性要素。


13. Human expertise in complex systems is constantly changing.

13.复杂系统的人类专业知识是不断变化的。


14. Change introduces new forms of failure.

14.变更引起新的故障可能。


15. Views of cause limit the effectiveness of defenses against future events.

15.对事故原因的看法限制了防御未来事件发生的可能性。


16. Safety is a characteristic of systems and not of their components.

16.安全是系统的一个特征,而不是其组成部分。


17. People continuously create safety.

17.人们不断地完善安全措施。


18. Failure-free operations require experience with failure (Cook 1998).

18.无故障运营需要失败的经验(Cook 1998)。


让我们在数据中心日常的工作中实践以下的一些原则。 某些高压电气系统、大型机械、基础设施部件、高压水管、发电机和其他元件会对人类和机械系统或结构造成危害[要素1]。 数据中心系统通过广泛的预防维护来防止事故的发生,这些措施包括技术层面(例:设备的冗余、报警和安全特征)和人工运维层面(例:知识、培训和流程)[要素2]。由于这些多层保护,多个系统或者多个单点故障才能引起灾难性的故障[要素3]。


临界故障运行


复杂系统科学建议,大多数大型复杂系统,即使是运行良好的大型复杂系统,本质上都是以“降级模式”运行[要素5],即接近临界故障点。 这是由于各种因素随着时间的推移而发展,包括稳定增加的负荷需求,工程力和经济因素。


对数据中心和其他高可用性基础设施系统的巨大投资反过来造成了数据中心的高风险和高失败率。通过安装基础设施而实现的容量最大化、密度增加以及快速投产,提高了这些主要资本投资的投资回报率(ROI)。 无论是由于预算不足或工期导致还是由于提高产量导致的维护延期,都会进一步推动设备工作到它的性能极限 ——也就是故障点。


数据中心基础架构的高密度是将系统持续不断地推向严重故障的动态过程。 服务器密度的增加是由技术力量(服务器设计和效率的提高)和经济压力(需要更高处理能力而不增加设施占地面积)复合造成的。 密度增加则需要增加相应的制冷元件的数量。 那么此时,系统的组件更多(每个组件都可能出现故障),设备使用电流更大,产生的热量更高,系统运行的风险也就更高。


这一发展轨迹向我们展示了任何复杂系统都存在的的一小部分强大的“自组织”力量。 根据Dobson等人(2009年)的说法,“这些力量驱使系统达到动态平衡,使其保持运行在相对于负荷的极限边缘上。 请注意,技术的改进和负荷的增长是由不易改变的强大的潜在经济和社会力量驱动的。“


由于这种动态的力量组合,灾难发生的可能性是复杂系统固有的本质[要素6]。 对于大型关键项目和关键业务系统的深刻含义是,设计人员、系统规划人员和运维人员必须承担故障的可能性并建立安全保障。


为什么容易归罪于人为失误?


人为错误通常被认为是许多工程系统故障的根本原因,但人为失误本身并不经常造成重大灾难。 根据对20年数据中心事件的分析,Uptime Institute认为人为失误必然意味着管理层未能推动变革和改进。 领导决策和其优先级导致人员和培训的缺失,由消防演练、或为削减预算而减少主动维护所导致的公司企业文化可能导致真正自上而下的级联故障。


尽管一线操作员失误有时可能会导致事故,但是单个错误(就像单个数据中心组件故障一样)通常不足以击败大型且强大的复杂系统,除非系统已经摇摇欲坠在严重失败的边缘,并有多个潜在的风险因素。 例如,媒体在1983年埃克森美孚(Exxon Valdezoil)漏油事件后报道,船长约瑟夫·黑兹尔伍德(Joseph Hazelwood)在事故发生时没有在桥上,并指控他当晚大量饮酒。 然而,NTSB和其他机构对事故进行的更多检测评估发现,埃克森美孚一直未能监督船长或提供足够的船员以保证必要的休息时间(见图2)。


图2.埃克森瓦尔迪兹离开瓦尔迪兹港后不久,在布莱礁上搁浅。 这张照片是在船只停船三天后拍摄的,就在风暴到来之前。 照片来源:国家海洋局响应和恢复办公室,国家海洋和大气管理局,来自维基共享资源。


也许更为关键的是缺乏必要的导航系统:油轮雷达在事故发生时无法运行。 报告显示,因为RAYCAS雷达系统的运行成本很高,埃克森管理层默许RAYCAS雷达系统在船舶搁浅之前一整年都是损坏状态。尽管以前发生过小规模的石油泄漏事故,该地区的灾备设备数量以及漏油控制设备数量不足。事故发生前四年,当时是埃克森石油集团瓦尔迪兹港口指挥官的詹姆斯伍德船长写过一封信,警告上层管理人员,“由于人员减少,设备老化,培训有限及人员未受到应有的培训,我们能否有效地控制和清理中型或大型石油泄漏”。(Palast 1999)


正如库克博士指出的那样,事故后归因于某个具体原因是根本错误的[要素7]。一个故障是由于多个错误导致的,因此将责任归咎于某个孤立元素是不全面的,并且可以说是在找替罪羊。埃克森美孚指责黑兹尔伍德上尉引起了事故,而他的指责掩盖了真正导致失败的潜在管理疏漏。美国海岸警卫队和其他监管机构执法不力也进一步加剧了这场灾难。


同样,壳牌公司石油钻井平台的搁浅是一系列互不相关的故障、失误和意外事件的直接结果,但这场灾难由荷兰皇家壳牌公司的行政决策引起,尽管风险很高,将钻井平台从阿拉斯加海岸线移开以避税(Lavelle 2014)。正因如此,该钻机及其拖船于2012年12月在阿拉斯加湾的冰冷的暴风雨水域行驶了1,700海里。(Funk 2014)。


壳牌公司之前已经出现了一系列工程和检查不力和缺陷,包括安装旧的和未经认证的拖车镣铐,拖船的匆忙翻新,以及与没有按要求向海岸警卫队报备的其他拖船Aivik相关的电力系统问题。(发现在接下来的几个月里经历了排气系统爆炸和其他机械问题。最终承包商拖车公司因多次违规而被指控犯有重罪。)


这也是壳牌公司的最后一次航海行程,其中包括一系列额外的失误和不幸。大风强风对牵引线和绞车施加持续的压力。最后这次行程中拖船更换了一位经验不足的船长,他似乎将拖线拉伸警报(当张力超过300吨时设置为熄火)误认为是另一种已知错误通知的警报。有一次,拖船Aivik试图绕回并连接一条新的牵引线被波浪淹没,将水送入燃油泵(此前已经识别但尚未解决的问题),导致了发动机在接下来的几个小时内无法运转(见图3)。 



2013年1月1日,位于阿拉斯加Sitkalidak岛东南侧的移动式海上壳牌钻井平台发生海浪冲击。为了解决搁浅,由海岸警卫队、联邦、州、地方和部落合作伙伴以及行业代表组成建立的统一指挥部。 美国海岸警卫队照片由Petty Officer 3rd Class Jonathan Klingenberg拍摄。


尽管情况危急,海岸警卫队的直升机最终成功救起壳牌钻井平台上的18名机组人员。 修复后的Aivik拖船和海岸警卫队拖船在石油钻井平台被风和水流搁浅之前,进行了最后一次拖曳试验后不得不放弃。


管理决策不当、违反正常程序和安全要求、在关键机械设备维修方面采取捷径、对承包商监督不力,人员培训或经验匮乏,所有这些复杂系统故障的因素都造成了壳牌公司灾难的发生。


数据中心系统故障演练


最近发生的两起事件表明,复杂系统故障的渐进变化如何在数据中心迅速发挥作用。


案例A


Tier III并发维护数据中心标准(请参阅Uptime Institute Tier 标准:拓扑)需要多个不同的独立分配路径,为所有关键设备提供服务,以便在不影响关键负载的情况下进行维护。 本例中的数据中心设计合理,燃油泵和发电机组由多个配电箱供电。然而,无论是由于监督实施还是成本降低措施,单个电路都可以提供动力。问题不在于安装人员,而在于实施团队和运营团队的沟通质量。


在操作过程中,技术人员必须在电气开关设备的日常维护期间关闭公用电源。 这意味着该建筑物由发电机组供电。 之后,当发电机组由于燃料管路堵塞而开始喘振时,UPS自动切换为电池供电。发电机组的日益油箱油越来越少。如果思维敏捷的运维人员没有及时发现燃油泵问题,那么整个设施就会中断服务,这就是从简单的日常维护由一系列事件演进到系统完全故障。


案例B


Tier IV级容错数据中心标准要求具备在线满载维护,能够在线检测并隔离故障。 在此示例中,一家Tier IV级企业的数据中心与公司办公室在同一建筑内,单一冷冻水厂用于冷却建筑物的两侧,办公室空气处理单元还用外部空气以降低冷却成本。


一天晚上,现场经历了特别寒冷的温度,而制冷控制系统没有从外部空气切换到冷冻水,这也影响了数据中心的冷却效果。 监控热交换器以防止其线圈冻结的温度传感装置无法跳闸; 因此温度继续下降,冷却盘管冻结并爆裂,冷冻水泄漏到数据中心的地上。当时安装了漏水检测系统并处于连接状态,但尚未完全调通。 冷却水继续泄漏直到压力下降,接着冷冻水机离线脱机。 一旦冷冻水机器离线,办公楼和数据中心都没有办法冷却。


在这时候,尽管外面极度寒冷,数据中心机房的温度整晚持续上升。由于机房内温度升高,在接下来几周出现无数的设备级故障(例如,服务器,磁盘驱动器和风扇)。 虽然单个部件关机不是问题,但是对部件和系统的损坏,以及清理和更换部件的人工成本是很显著的。一个单一的诱发因子——一个寒冷的夜晚,结合其他因素形成级联故障。


以上两个事例虽未出现严重的灾难,但依靠一线运维人员来挽救局面既不稳健也不可靠。


数据中心故障预防


正如Tier标准中提到的遵循并发可维护性或容错原则的配置,在降低数据中心故障或中断风险方面迈出了重要的第一步。


但是基础设施只是预防故障的一部分, 如何在日常运营工作中维护好基础设施同样至关重要。 正如库克博士所指出的那样,正如人类扮演着双重角色,复杂系统既能产生潜在的故障,也能很好地防御故障[元素9]。


在两个数据中心示例中可以看到人为操作失误的痕迹。 示例A中电源未按原设计设置,示例B中的漏水检测系统未实现报警功能。


库克博士还指出,运维操作员是复杂系统中适应性最强的部分[要素12],因为他们“积极调整系统以最大限度地提高产量并最大限度地减少事故。”例如,运维人员可能“为了减少脆弱的部分而重组系统“,针对多需求领域重组关键资源,提供”回退或恢复的途径“,并”建立能够早期发现变化的系统性能的手段,以便在生产过程中轻松减少或增加弹性。“鉴于复杂系统环境的高度动态性,这种人为驱动的适应性很重要。


标准化能够解决管理问题


在最近几十年的较值得注意的故障中,已经制定的标准和认证被破坏或规避。并不是没有标准,而是不按照规范执行甚至是懈怠导致了灾难性后果。 例如,波音电池事件发生的原因是设计不良、质量检查不足及承包商监督不够。埃克森公司的事件关键原因是不可操作的导航系统、船员数量不足以及灾备不足。如果领导层、运维人员和监督机构遵守了各自的规章制度和要求,并且没有因为经济原因或权宜之计而偷工减料,那么这些灾难可能就会被避免。


因此,可持续性运行和管理实践以及对公认的标准和要求的遵守必须成为长期缓解风险的重点。事实上,库克博士表示,“无故障运行是人们努力将系统性能保持在可容忍范围内结果,人类实践者对不断变化环境的适应实际上会不时地创造安全”[元素17]。对人类行为在预防故障方面具有决定性的强调,与Uptime Institute倡导的卓越运营一致,如Tier标准“可持续性运行”所述。这是数据中心行业内第一次为解决最先进、最复杂、最智能、最不易解决的管理缺陷,而由数据中心研发并为数据中心量身打造的标准。Uptime Institute的调查结果强调,尽管技术、监控和自动化方面都取得了进步,但绝大多数数据中心事件都由运维不善引起。


可持续性运维标准指出了影响数据中心长期绩效的要素,包括现场管理、运行、文档纪录以及针对现场特定风险的缓解,标准里详细记录了包括人员资质、培训以及支持运营团队有效防止故障发生并在发生小故障时做出适当响应的策略和程序,以避免级联到大型关键故障中。正如库克博士所说,“无故障运行需要故障经验”[要素18]。我们有机会学习其他行业的经验,更重要的是从Uptime Institute的事件报告数据库中收集和分析数据中心行业自身的经验。Uptime Institute在过去20年中捕获并记录了从5,000多个故障和事件中汲取的经验教训,并利用该研究知识库研发了一套权威标准。此标准已经获得领先行业专家的认可,并获得数据中心行业各部门股东的共识。 Uptime Institute的Tier认证和管理与运营(M&O)认证为有效的风险缓解和运维管理提供了最明确的指导和验证。


库克博士解释说:“能够被运维人员识别出风险的系统,越可能展现出更强大的性能。 它还取决于校准他们的行为如何使系统性能朝向或远离风险移动。 [要素18]“Uptime Institute深入的主题专业知识,长期经验和基于证据的标准可以帮助数据中心运营商识别并保持在这一优势的右侧。 像CenturyLink这样的组织意识到应用一套一致的标准以确保卓越运维并最大限度地降低数据中心资产组合所代表的复杂系统失败的风险的价值。


结论


复杂系统的故障也是复杂多样的,由于业务需要在复杂系统的故障边缘操作更加危险。 建造和运营飞机、轮船或石油钻井平台的高度动态环境与运行高可用数据中心的许多特征类似。 数据中心的风险承受能力同样非常低,而且数据中心容易受到许多失误的影响。 综合来说数据中心的管理能力,可确保一线运维人员具备所需的运维能力、工具、零件、流程,以及公正的监督和认证,以识别风险并推动持续改进,防止数据中心持续暴露于复杂故障之下。


翻译:

李民嘉

DKV(Deep Knowledge Volunteer)计划精英成员

民生银行生产调度中心


编辑:

梁鸿雁

中能测(北京)科技发展有限公司秘书处处长


公众号声明:

本文并非Uptime Institute官方认可的中文版本,仅供国内读者学习参考,不得用于任何商业用途,文章内容请以英文原版为准。本文英文版权属于Uptime Institute,中文版未经公众号DeepKnowledge书面授权,请勿转载。


关于公众号 DeepKnowledge

中立、系统、深入的数据中心专业知识公众号。


关于 Deep Knowledge VolunteerDKV)计划:

加入DKV计划,以个人名义成为Deep Knowledge翻译志愿者,对国外数据中心的经典技术文献进行中文翻译,并通过微信公众号DeepKnowledge进行分享。


目前DKV创始成员已经满额,DKV正开放接受DKV精英成员加入,相关DKV精英成员计划加入细节请咨询Uptime Institute中国区业务发展总监于登科(手机、微信:18682156158)。



版权声明:凡本站原创文章,未经授权,禁止转载,否则追究法律责任。

深圳联络处:0755-86317321 18929377662  华东:13761669165  北京:010-88283829 © Copyright 2007-2027 万瑞网 wiring.net.cn. All Rights Reserved