亚马逊 AWS 大规模宕机原因公布:自动化服务出现 Bug,导致网络过载
来源:本站原创 浏览:529次 时间:2021-12-12
12 月 7 日,亚马逊 AWS 云服务出现宕机,导致部分互联网服务离线数小时。
近日,亚马逊已经查明了本次宕机的原因,一项自动化过程导致了中断,该中断始于美国东部时间上午 10:30 左右。
[亚马逊 AWS 大规模宕机原因公布:自动化服务出现 Bug,导致网络过载]
据解释称,一项用于 AWS 主网络中的自动化容量扩展服务出现错误,触发了内部网络大量客户端的意外行为,这导致连接活动大量涌现,使内部网络和 AWS 主网络之间的网络设备不堪重负,并最终导致网络之间的通信延迟。
这个错误甚至影响了亚马逊修复该问题的能力,它阻止了运营团队使用实时监控系统和内部控制,不得不使用日志来查明发生了什么。亚马逊指出,服务启动直到美国东部时间下午 4:34 才开始改进,问题在美国东部时间下午 5:22 完全解决。
了解到,由于亚马逊的支持联络中心也在 AWS 网络上运行,因此客户在中断期间的七个小时内无法创建支持案例,亚马逊服务健康仪表板也受到影响。
亚马逊表示,它正在努力改进对中断的响应,并计划发布服务健康仪表板的改进版本,如果发生中断,应该可以帮助客户及时收到更新。
近日,亚马逊已经查明了本次宕机的原因,一项自动化过程导致了中断,该中断始于美国东部时间上午 10:30 左右。
[亚马逊 AWS 大规模宕机原因公布:自动化服务出现 Bug,导致网络过载]
据解释称,一项用于 AWS 主网络中的自动化容量扩展服务出现错误,触发了内部网络大量客户端的意外行为,这导致连接活动大量涌现,使内部网络和 AWS 主网络之间的网络设备不堪重负,并最终导致网络之间的通信延迟。
这个错误甚至影响了亚马逊修复该问题的能力,它阻止了运营团队使用实时监控系统和内部控制,不得不使用日志来查明发生了什么。亚马逊指出,服务启动直到美国东部时间下午 4:34 才开始改进,问题在美国东部时间下午 5:22 完全解决。
了解到,由于亚马逊的支持联络中心也在 AWS 网络上运行,因此客户在中断期间的七个小时内无法创建支持案例,亚马逊服务健康仪表板也受到影响。
亚马逊表示,它正在努力改进对中断的响应,并计划发布服务健康仪表板的改进版本,如果发生中断,应该可以帮助客户及时收到更新。