谷歌表示,在英国最近创纪录的热浪期间,托管其伦敦云区域之一的数据中心遭遇了“多个冗余冷却系统同时发生故障”。该公司没有透露故障的性质,但表示其工程师正在对引发此事件的系统进行分析,并将审查全球谷歌云所在数据中心的冷却系统设备和标准。
谷歌关闭了该区域的这一部分,以防止更长时间的中断或机器损坏。这导致该区域的部分容量出现故障,从而导致部分客户的实例终止、服务降级和网络问题。公司表示,由于其团队“无意中修改了内部服务的流量路由”以避开欧洲西部地区的所有三个区域。区域存储服务(包括 GCS 和 BigQuery)跨多个区域复制客户数据。由于区域流量路由发生变化,无法访问许多存储对象的任何副本,并在路由错误发生时阻止客户读取这些对象。
由于该事件,谷歌表示将修复并“仔细重新测试”其故障转移自动化。它还表示将研究和开发“更先进的方法”,以逐步降低单个数据中心空间内的热负荷,从而降低需要完全关闭的可能性。
点评:重大中断事故的经验教训值得总结
|