AWS 故障官方复盘报告

老冯云数 · 公众号 · 互联网安全 · 2025-10-24 08:57

主要观点总结

AWS 官方发布了关于 10-20 日美东大故障的事后复盘报告，老冯将其翻译并附有解读与评论。此次故障涉及 Amazon DynamoDB 服务中断、EC2 API 错误率上升、新实例启动失败、网络负载均衡器（NLB）连接错误率上升、AWS Lambda 函数延迟问题、以及 AWS 的其他服务如 Amazon Elastic Container Service（ECS）、Amazon Elastic Kubernetes Service（EKS）和 AWS Fargate 服务受到的影响。故障的根本原因是 DynamoDB DNS 管理系统中存在的竞态条件，导致服务的区域端点 DNS 记录被错误地清空，引发服务中断。AWS 工程团队在事故发生后立即投入调查，并采取了一系列措施进行恢复。

关键观点总结

关键观点1: Amazon DynamoDB 服务中断

10月19日23:48至10月20日02:40期间，Amazon DynamoDB 在美国东部区域（us-east-1）的 API 错误率显著升高，导致服务中断。此次故障由 DynamoDB 服务的自动化 DNS 管理系统中的一个潜在缺陷所触发，导致 DynamoDB 服务端点的 IP 地址解析失败。

关键观点2: EC2 API 错误率上升与新实例启动失败

在 DynamoDB 服务中断期间，EC2 API 错误率上升，新实例启动失败。原因在于负责管理 EC2 实例状态变化的底层物理服务器（称为 droplet）与 Droplet Workflow Manager (DWFM) 之间的租约因 DynamoDB 不可用而失效，导致新实例启动失败。

关键观点3: 网络负载均衡器（NLB）连接错误率上升

在 DynamoDB 恢复后，NLB 出现连接错误率上升，原因是健康检查子系统将新启动的 EC2 实例纳入服务时，这些实例的网络配置尚未完全传播，导致健康检查失败，进而影响 NLB 的服务。

关键观点4: AWS Lambda 函数延迟问题

在 DynamoDB 区域端点不可用期间，Lambda 函数的创建和更新请求无法完成，SQS/Kinesis 事件源的处理出现延迟并伴随调用错误。在 DynamoDB 恢复后，Lambda 服务功能逐渐恢复。

关键观点5: AWS 其他服务的影响

故障还影响了 Amazon Elastic Container Service（ECS）、Amazon Elastic Kubernetes Service（EKS）和 AWS Fargate 服务，导致容器启动失败和集群扩容延迟。这些服务在 DynamoDB 恢复后也陆续恢复正常。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
文章地址：访问文章快照

分享到微博