CloudFlare中断:公司责备常规软件更新的全球网站中断消失了流氓
CloudFlare确认了一个停电,即将在7月2日之前将无法访问全球数百万个互联网网站的中断是由流氓软件更新引起的,而不是对其网络的分布式拒绝服务(DDOS)攻击引起的。
停电导致Web用户在尝试访问依赖CloudFlare的内容传递和网络安全性以使其保持并运行的站点时遇到502个“Bad Gateway”错误。
这反过来促使该公司遭遇了对其网络的相当大规模的DDOS攻击,尽管其高级管理团队的各种成员早期保证,但它是一个内部基础架构未能落后一切。
在停机后发布的博客文章中,内容送货服务的首席技术官John Graham-Cumming表示,事业是一个“糟糕的软件部署”在其网络上创造了CPU利用率的“大量尖峰”。
“一旦回滚,服务就返回正常运行和使用CloudFlare返回正常流量水平的所有域,”Graham-Cumming写道。
几个小时后,该公司发布了更全面的展开进入事件的细节,其中“坏软件部署”被揭示在常规更新过程中更广泛的CloudFlare Web应用程序防火墙中的单个MISCONPD规则。
这些更新定期由CloudFlare团队进行,以保护其客户网站免受新的和新兴的互联网安全威胁。该过程依据依照新的管理规则依赖于新的管理规则,并且在这里源于中断。
“这些规则正处于模拟模式下部署,其中新规则识别和记录问题,但实际上没有客户流量被阻止,以便我们可以测量虚假的阳性速率并确保在部署时不会导致问题不会导致问题融入全产品,“博客文章继续。
“遗憾的是,其中一个规则包含了一个正则表达式,导致CPU在全球机器上飙升到100%。这种100%CPU Spike导致客户看到的502个错误。在最糟糕的是,交通率下降了82%。“
底层事件的事件总共持续了大约30分钟,博客确认,这次常规更新的原因是由于如何在规模上接近部署。
“我们在网络上不断进行软件部署,并拥有自动化系统来运行测试套件和逐步部署的过程以防止事件。遗憾的是,这些[Web应用程序防火墙]规则在全球范围内部署,并导致今天的停电,“邮政。
“我们认识到这样的事件对我们的客户来说非常痛苦。在这种情况下,我们的测试流程不足,我们正在审查和制定我们的测试和部署过程的变化,以避免将来这样的事件。“