![]()
工程師正在給老板演示新監控大屏。99.97% uptime,滿屏綠色對勾,專業得像份財報。手機突然炸了——不是PagerDuty,不是Datadog,不是那個月燒4000刀的觀測平臺,是Twitter。
@angry_user_47的推文躺在最上面:「yo @OurStartup your login has been broken for 2 hours wtf」。過去兩小時,2000人卡在登錄頁,而他們的儀表盤安靜得像在休假。
事后復盤發現,監控探針只檢查"服務是否響應",不檢查"用戶能否真的進去"。登錄接口返回200 OK,但數據庫連接池早滿了,新請求全在排隊餓死。換句話說,系統在說"我很好"的同時,正在把用戶拒之門外。
團隊現在給探針加了" synthetic user "——模擬真實登錄流程的假賬號。每月多花幾百刀,換來一條規則:如果假用戶進不去,PagerDuty必須在Twitter之前響。
那條推文至今沒刪。截圖貼在工位墻上,綠色對勾旁邊。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.