主要观点总结
AWS 官方发布了关于 10-20 日美东大故障的事后复盘报告,老冯将其翻译并附有解读与评论。此次故障涉及 Amazon DynamoDB 服务中断、EC2 API 错误率上升、新实例启动失败、网络负载均衡器(NLB)连接错误率上升、AWS Lambda 函数延迟问题、以及 AWS 的其他服务如 Amazon Elastic Container Service(ECS)、Amazon Elastic Kubernetes Service(EKS)和 AWS Fargate 服务受到的影响。故障的根本原因是 DynamoDB DNS 管理系统中存在的竞态条件,导致服务的区域端点 DNS 记录被错误地清空,引发服务中断。AWS 工程团队在事故发生后立即投入调查,并采取了一系列措施进行恢复。
关键观点总结
关键观点1: Amazon DynamoDB 服务中断
10月19日23:48至10月20日02:40期间,Amazon DynamoDB 在美国东部区域(us-east-1)的 API 错误率显著升高,导致服务中断。此次故障由 DynamoDB 服务的自动化 DNS 管理系统中的一个潜在缺陷所触发,导致 DynamoDB 服务端点的 IP 地址解析失败。
关键观点2: EC2 API 错误率上升与新实例启动失败
在 DynamoDB 服务中断期间,EC2 API 错误率上升,新实例启动失败。原因在于负责管理 EC2 实例状态变化的底层物理服务器(称为 droplet)与 Droplet Workflow Manager (DWFM) 之间的租约因 DynamoDB 不可用而失效,导致新实例启动失败。
关键观点3: 网络负载均衡器(NLB)连接错误率上升
在 DynamoDB 恢复后,NLB 出现连接错误率上升,原因是健康检查子系统将新启动的 EC2 实例纳入服务时,这些实例的网络配置尚未完全传播,导致健康检查失败,进而影响 NLB 的服务。
关键观点4: AWS Lambda 函数延迟问题
在 DynamoDB 区域端点不可用期间,Lambda 函数的创建和更新请求无法完成,SQS/Kinesis 事件源的处理出现延迟并伴随调用错误。在 DynamoDB 恢复后,Lambda 服务功能逐渐恢复。
关键观点5: AWS 其他服务的影响
故障还影响了 Amazon Elastic Container Service(ECS)、Amazon Elastic Kubernetes Service(EKS)和 AWS Fargate 服务,导致容器启动失败和集群扩容延迟。这些服务在 DynamoDB 恢复后也陆续恢复正常。
免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。
原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过
【版权申诉通道】联系我们处理。