专栏名称: 老冯云数
云计算泥石流,数据库老司机。
TodayRss-海外RSS稳定源
目录
相关文章推荐
FreeBuf  ·  Wireshark ... ·  2 天前  
安天集团  ·  安天AVL ... ·  3 天前  
今天看啥  ›  专栏  ›  老冯云数

AWS 故障官方复盘报告

老冯云数  · 公众号  · 互联网安全  · 2025-10-24 08:57
    

主要观点总结

AWS 官方发布了关于 10-20 日美东大故障的事后复盘报告,老冯将其翻译并附有解读与评论。此次故障涉及 Amazon DynamoDB 服务中断、EC2 API 错误率上升、新实例启动失败、网络负载均衡器(NLB)连接错误率上升、AWS Lambda 函数延迟问题、以及 AWS 的其他服务如 Amazon Elastic Container Service(ECS)、Amazon Elastic Kubernetes Service(EKS)和 AWS Fargate 服务受到的影响。故障的根本原因是 DynamoDB DNS 管理系统中存在的竞态条件,导致服务的区域端点 DNS 记录被错误地清空,引发服务中断。AWS 工程团队在事故发生后立即投入调查,并采取了一系列措施进行恢复。

关键观点总结

关键观点1: Amazon DynamoDB 服务中断

10月19日23:48至10月20日02:40期间,Amazon DynamoDB 在美国东部区域(us-east-1)的 API 错误率显著升高,导致服务中断。此次故障由 DynamoDB 服务的自动化 DNS 管理系统中的一个潜在缺陷所触发,导致 DynamoDB 服务端点的 IP 地址解析失败。

关键观点2: EC2 API 错误率上升与新实例启动失败

在 DynamoDB 服务中断期间,EC2 API 错误率上升,新实例启动失败。原因在于负责管理 EC2 实例状态变化的底层物理服务器(称为 droplet)与 Droplet Workflow Manager (DWFM) 之间的租约因 DynamoDB 不可用而失效,导致新实例启动失败。

关键观点3: 网络负载均衡器(NLB)连接错误率上升

在 DynamoDB 恢复后,NLB 出现连接错误率上升,原因是健康检查子系统将新启动的 EC2 实例纳入服务时,这些实例的网络配置尚未完全传播,导致健康检查失败,进而影响 NLB 的服务。

关键观点4: AWS Lambda 函数延迟问题

在 DynamoDB 区域端点不可用期间,Lambda 函数的创建和更新请求无法完成,SQS/Kinesis 事件源的处理出现延迟并伴随调用错误。在 DynamoDB 恢复后,Lambda 服务功能逐渐恢复。

关键观点5: AWS 其他服务的影响

故障还影响了 Amazon Elastic Container Service(ECS)、Amazon Elastic Kubernetes Service(EKS)和 AWS Fargate 服务,导致容器启动失败和集群扩容延迟。这些服务在 DynamoDB 恢复后也陆续恢复正常。


免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
文章地址: 访问文章快照