




![]()
![]()
![]()
10月30日,AWS官方發文,完整復盤了上周的大規模宕機事件。
首先點個贊,這從報告從工程細節、故障鏈條到后續改進措施,內容非常完整、詳實、透明,技術披露深度罕見,可以看出公有云老大哥的誠意。
簡要總結下↓
一、宕機時間線
10月19日23點38分發生故障
10月20日14點20分全面恢復
總時長約14個小時。
二、宕機原因分析
DynamoDB DNS管理系統觸發競態條件。
簡單講就是負責更新DNS的兩個執行器掐起來了,最終導致DNS記錄被清空,DynamoDB主終端節點無法解析,所有依賴DNS的服務都被影響。
(關于“DNS競態”可以看上面的圖片解讀)
接下來帶來連鎖反應↓
DynamoDB掛了,EC2依賴DynamoDB存儲droplet狀態租約,EC2也掛了。
Lambda、ECS/EKS等上層服務依賴EC2,也跟著掛…
最終導致AWS內部141個服務收到影響。
誰能想到,兩個底層牛馬(DNS執行器)互掐,最終搞癱了全球半個互聯網。
三、改進措施
對于此次故障的“罪魁禍首”DynamoDB DNS系統,AWS出重拳整治。暫停全球自動化更新功能,修復競態條件,增加保護機制防止舊規劃覆蓋新規劃。
同時,改進NLB健康檢查機制,優化EC2控制平面組件(DWFM)并增加壓測手段。
當然還包括建立對這種「故障連鎖反應」的預演機制,縮短恢復時間,防患于未然,畢竟這種級聯故障,爆炸面太大了。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.