![]()
工程師正在給老板演示新監(jiān)控大屏。99.97% uptime,滿屏綠色對勾,專業(yè)得像份財報。手機突然炸了——不是PagerDuty,不是Datadog,不是那個月燒4000刀的觀測平臺,是Twitter。
@angry_user_47的推文躺在最上面:「yo @OurStartup your login has been broken for 2 hours wtf」。過去兩小時,2000人卡在登錄頁,而他們的儀表盤安靜得像在休假。
事后復盤發(fā)現(xiàn),監(jiān)控探針只檢查"服務是否響應",不檢查"用戶能否真的進去"。登錄接口返回200 OK,但數(shù)據(jù)庫連接池早滿了,新請求全在排隊餓死。換句話說,系統(tǒng)在說"我很好"的同時,正在把用戶拒之門外。
團隊現(xiàn)在給探針加了" synthetic user "——模擬真實登錄流程的假賬號。每月多花幾百刀,換來一條規(guī)則:如果假用戶進不去,PagerDuty必須在Twitter之前響。
那條推文至今沒刪。截圖貼在工位墻上,綠色對勾旁邊。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.