AWS说,一个错字造成本周造成大规模的S3失败
金融行为权限提出了TSB IT回归测试的问题
Wi-Fi增长的移动,物联网和云最大驱动因素
微软的Windows Server OS在ARM上运行,Qualcomm的帮助
5G计划击中了加速器
MongoDB将免费层和迁移实用程序添加到其云服务
Goonhilly地球站阐述了2018年开放绿色枢头数据中心的计划
Microsoft通过团队发射致讨唱一组聊天竞争
Domino的CISO说网络安全焦点太多了
谷歌的新AI旨在使用“透视”结束滥用在线评论
优步终于同意揭示多样性数据
FCC将刹车对10月份通过的ISP隐私规则
什么SAP C / 4 HANA为APAC企业表示
退出欧盟委员会的牛生物政府“数据充足率”
Google宣传其企业股在云主题演讲中
Qualcomm详细说明Windows 10 PC与Snapdragon 835的计划
Microsoft放松了一些Windows 10更新和升级规则
物联网和5G正在向边缘推动计算
政府必须挑战流行的智能城市误解
UPS从送货卡车推出一个自主寄生虫
Mingis关于Tech:视频会议到达,“数字转型”背后的现实
Chess Grandmaster Garry Kasparov告诉Tableau用户人类智慧仍然有同扮演
纤维携带多少钱?Facebook和诺基亚正在推动它
英国政府网络安全标准欢迎
技术钥匙让员工快乐
大多数英国营销人员GDPR准备就绪,但并非所有公司都有计划
资本市场公司加速公共云支出
爱谷歌?你可能会很快地欺骗聚会聊天
Rails 5.1中有哪些新型:更好的JavaScript,适用于初学者
蓬勃发展的Fintech,AI部门促进了英国技术资金
MPS将严重基础设施视为最高威胁的风险
数字弹射伙伴与cray提供ai启动超级计算能力
CloudFlare错误暴露了密码,来自网站的其他敏感数据
DBS现代化计划是一个“无能为力”的“MasterClass”,说MPS
谷歌删除了来自Hoogouts的SMS集成:这就是为什么
政府的宽带服务义务被行业纳入
Techuk呼吁英国采用最近的欧盟贸易协议提升数字部门
机器人行业从福岛的成功和失败中学习
Microsoft对Windows 10 LTSB VOID Allure的支持规则到企业客户
Infosec社区欢迎银行行业专注于网络弹性
Apple在最新的iPhone专利案中赢得Samsung 539米
Reliance Jio Hasten Indian Mobile Consolidation的免费赠品
商业管理员的Skype获取工具来诊断呼叫问题
MPS呼吁询问智能电表推出
新兴行业网络在东盟升起数据保护
英特尔 - 移动式合并,以提高宝马的自动驾驶汽车计划
四分之一的英国人认为他们已经拥有全纤维宽带
2016/17年政府与中小企业的支出下降
机器人可以阅读你的思想来解决他们的错误
Intel比赛在自动驾驶汽车中播放15.3亿美元Mobileye购买
您的位置:首页 >论坛 > 研究报告 >

AWS说,一个错字造成本周造成大规模的S3失败

2021-08-09 15:44:05 [来源]:

每个人都犯了错误。但在亚马逊Web服务工作意味着输入错误输入的输入可能导致克拉普斯流行的网站和服务的大规模中断。当AWS简单的存储服务(S3)在提供者的北部弗吉尼亚地区的AWS简单的存储服务(S3)经历了11小时的系统故障时,这显然是本周早些时候发生了什么。

其他亚马逊服务在US-EAST-1区域,依赖S3,如弹性块商店,Lambda和Elastic Compute Cloud基础架构 - AS-Service产品的新实例发布都受到中断。

AWS为星期四发布的后期事件道歉。中断影响了Netflix,Reddit,Adobe和Imgur的喜欢。网站监控服务APICA表示,超过100个在线零售网站的超过一半在内的在线零售网站经历了较慢的负载时间。

这是出现的中断,以及亚马逊计划做什么:

根据亚马逊,一个授权的S3员工执行了一个应该“删除S3计费过程中使用的一个S3计费过程中的一个S3子系统的少数服务器的命令,”响应服务的计费过程更慢地工作比预期。命令的一个参数输入不正确,并占用了支持一对关键S3子系统的大量服务器。

索引子系统“管理区域中所有S3对象的元数据和位置信息,”虽然放置子系统“管理新存储的分配,并且需要索引子系统正常运行以正确操作。”虽然这些子系统被构建为容错,但是服务器的数量关闭需要完全重新启动。

事实证明,Amazon Hasn“T将这些系统完全重新启动到其较大的地区几年,S3在中间时间经历了大量增长。重新启动这些子系统花费的时间超过预期,这增加了停电的长度。

在响应此事件时,AWS正在对其内部工具和流程进行多次更改。负责导致停电的工具已被修改为更慢地取下服务器,并阻止将容量低于安全检查级别的操作。AWS还在评估其其他工具,以确保它们具有类似的安全系统。

AWS工程师也将开始重构S3索引子系统,以帮助加快重启并减少未来问题的爆炸半径。

云提供商还将其服务健康仪表板管理控制台更改为跨多个区域运行。AWS员工在中断期间无法更新仪表板,因为控制台依赖于受影响区域的S3。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。