英国航空公司中断:它的数据中心出了什么问题?
英国航空公司为其银行假日数据中心崩溃的原因提供的解释是不够的,说专家们表示,他们抨击该航空公司将事件陷入“人为错误”。
对计算机每周发表讲话,正常研究所李基比总裁李基比表示,该短语常常被公司使用,以隐藏众多的数据中心设计和培训缺陷,在他们的服务器场中的多年来造成的。
“我们收集了事件数据,并进行了20多年的根本原因分析,并拥有最大的事件数据库,从中绘制行业级趋势,”他说。“我们注意到的一件事是”人为错误“是一个统一标签,描述了管理决策差的结果。”
自上班时间研究所发布了二十多年来,已经发表了它的层标准拓扑分类系统,这为运营商提供了一种关于如何在其数据中心构建冗余的转向,但似乎仍然没有到某些消息,克拉比说。
“从高级别的角度来看,令我困扰我的事情是我们仍然在我们解决这个问题20或更多年前的推出标准时,我们仍然有了重大的数据中心中断,”他说。
“如果您拥有冗余分发路径和设备的第3层数据区,则不会运行这些问题。”
BA母公司的首席执行官IAG威利Walsh本周确认,愿银行假期停电是由一个工程师断开电源的工程师,然后在错误地恢复时恢复。
据了解,这导致了电力浪涌,这对航空公司用来运行其在线登机手续,行李处理和客户联系系统的主要损坏,导致从希思罗机场和盖特威克的航班接地为两者最好的一部分天。
如果系统被正确设计,这一性质的事件不应导致事件严重,因为这是一个BA所遭受的,但这在很大程度上取决于所讨论的网站,CTO Chris Brown的正常运行赛CTO Chris Brown告诉计算机。
“当他们建造时,一些行业接受的规范可能是一个单一的系统和单一的分配,因为当时使用的大多数设备是单一的,例如,”他说。
“关于预算和成本和支出的管理决策并不允许随着时间的推移升级这些设施,以跟上这些系统的需求和关键性。”
特别是在航空公司行业中,飞行运营商在凯比竞争中竞争中削减成本,以削减成本,柯比表示,他们的维修屋苑可能是第一件事。
“减少构建的冗余是他们看起来的第一个地方之一,当他们这样做时,他们会冒着风险。当这样的事情发生时,他们寻找的第一件事是责备的技术或分包商,当它真的很早的管理决策,而不是支持基础设施,而不是将培训计划运行24 / 7,“他说。
布朗表示,市场力量也使航空公司使用的方式和依赖其IT资产改变,依赖于其其资产。
“自20世纪70年代后期以来,很多系统都已经存在,他们并不是真正的[设计]的客户端系统。他们是为了内部使用,“他说。
“全文,系统已经更新和修改,但没有全面地进行了修改,因为进入从地下重写所有系统以使用多个数据中心,而IT资产的大量冗余将产生大量成本。
“更多的大型承运人被更高的预算航空公司模型迫使,以减少他们在较短的航班上以保持客户的成本,同样适用于Datentres。”
出于这个原因,柯比和布朗正在敦促BA对其数据中心的设计和管理进行彻底的审查,以防止将来重复这些问题。
“他们需要做的就是退后一步,得到整个情况的整体视图,”布朗说。“他们的IT系统的地位和住房的设施是什么?他们的运营人员和团队和方案的地位和条件是什么?
“然后,他们将需要创建一个计划来解决这个问题。它不会在很短的时间内解决 - 它将需要时间,金钱和投资。“
计算机每周提出柯比和布朗与BA制造的积分,并被告知该公司正在进行彻底的审查。
“这不是IT问题 - 这是一个权力问题,”Ba发言人说。“我们知道发生了什么,我们正在调查它发生的原因。”