专栏名称: 运维
关注互联网运维技术,分享知识
目录
今天看啥  ›  专栏  ›  运维

OpenAI 史上最长宕机:自研 K8s 成“拦路虎”,导致数小时无法修复

运维  · 公众号  · 运维  · 2024-12-25 12:28
    

主要观点总结

OpenAI旗下AI聊天机器人平台ChatGPT、视频生成工具Sora及其面向开发人员的API发生全球性服务中断。文章介绍了故障发生的经过、原因以及OpenAI为恢复服务所采取的措施。此次故障源自新部署的遥测服务无意压垮了Kubernetes控制平面,导致关键系统发生连锁故障。OpenAI发布了一份完整的事故报告,分析了事件的影响、根本原因、补救措施以及预防措施。

关键观点总结

关键观点1: 故障经过

OpenAI旗下服务在太平洋时间下午3点左右发生严重中断,导致ChatGPT、Sora及API无法使用,影响全球用户。社交媒体上出现了各种反应,从玩笑、嘲讽到幽默、恼怒,各种情绪都有。OpenAI很快承认问题的存在并着手修复,但耗费了约三个小时才顺利恢复所有服务。

关键观点2: 故障原因

故障的根源是新部署的遥测服务配置导致Kubernetes控制平面承受了巨大的API负载,进而引发了连锁反应。这个问题在规模较大的集群中尤为明显。DNS缓存在一定程度上掩盖了问题,使得测试未能及时发现。

关键观点3: 补救措施

OpenAI在客户感受到影响的几分钟内就检测到了问题,但由于必须绕过不堪重负的Kubernetes服务器,因此无法快速实施修复。他们采取了缩小集群规模、阻止对管理员API的网络访问以及扩展API服务器等措施来恢复服务。

关键观点4: 预防措施

为了防止类似事件再次发生,OpenAI正实施多项预防措施,包括改进登台发布机制、进行故障注入测试、应急Kubernetes控制平面访问、解耦Kubernetes数据平面与控制平面以及加快恢复速度等。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照