AWS说,一个错字造成本周造成大规模的S3失败
每个人都犯了错误。但在亚马逊Web服务工作意味着输入错误输入的输入可能导致克拉普斯流行的网站和服务的大规模中断。当AWS简单的存储服务(S3)在提供者的北部弗吉尼亚地区的AWS简单的存储服务(S3)经历了11小时的系统故障时,这显然是本周早些时候发生了什么。
其他亚马逊服务在US-EAST-1区域,依赖S3,如弹性块商店,Lambda和Elastic Compute Cloud基础架构 - AS-Service产品的新实例发布都受到中断。
AWS为星期四发布的后期事件道歉。中断影响了Netflix,Reddit,Adobe和Imgur的喜欢。网站监控服务APICA表示,超过100个在线零售网站的超过一半在内的在线零售网站经历了较慢的负载时间。
这是出现的中断,以及亚马逊计划做什么:
根据亚马逊,一个授权的S3员工执行了一个应该“删除S3计费过程中使用的一个S3计费过程中的一个S3子系统的少数服务器的命令,”响应服务的计费过程更慢地工作比预期。命令的一个参数输入不正确,并占用了支持一对关键S3子系统的大量服务器。
索引子系统“管理区域中所有S3对象的元数据和位置信息,”虽然放置子系统“管理新存储的分配,并且需要索引子系统正常运行以正确操作。”虽然这些子系统被构建为容错,但是服务器的数量关闭需要完全重新启动。
事实证明,Amazon Hasn“T将这些系统完全重新启动到其较大的地区几年,S3在中间时间经历了大量增长。重新启动这些子系统花费的时间超过预期,这增加了停电的长度。
在响应此事件时,AWS正在对其内部工具和流程进行多次更改。负责导致停电的工具已被修改为更慢地取下服务器,并阻止将容量低于安全检查级别的操作。AWS还在评估其其他工具,以确保它们具有类似的安全系统。
AWS工程师也将开始重构S3索引子系统,以帮助加快重启并减少未来问题的爆炸半径。
云提供商还将其服务健康仪表板管理控制台更改为跨多个区域运行。AWS员工在中断期间无法更新仪表板,因为控制台依赖于受影响区域的S3。