支付寶、淘寶、閑魚又雙叕崩了,Cloudflare也癱了連監控都掛,根因藏在哪?
最近兩天的互聯網堪稱 “故障連連看”——12 月 4 號晚上阿里系集體 “掉鏈子”,支付寶、淘寶、閑魚付款亂套!
5 號 Cloudflare 又崩了,連帶著 Shopify、宕機監控平臺 DownDetector 一起 “躺平”!
![]()
先看 12.4 阿里系:支付扣錢不更新訂單,用戶被逼重復付款
這事兒發生在 12 月 4 日晚 21 點左右,不少人正趁著睡前刷淘寶、閑魚下單,結果直接撞上 “支付黑洞”—— 銀行卡明明扣了錢,訂單卻一直顯示 “待付款”;有人以為沒付成功,手一抖多點了幾下,同一筆訂單被扣了兩三遍。
星哥翻了下用戶反饋和媒體報道,這波故障的 “癥狀” 太典型了:
?時間線很清晰:21 點開始有用戶反饋異常,21:41 米哈游《原神》直接發公告 “甩鍋”,說支付寶服務異常導致充值不到賬;22 點左右 “淘寶崩了”“支付寶崩了”“閑魚崩了” 三個話題直接沖上天眼熱搜前十;直到 23:37,第一財經才確認故障基本修復,前后折騰了近 2 個半小時。

?影響范圍超廣:不只是支付寶和淘寶,閑魚、1688、餓了么、盒馬整個阿里電商生態的支付鏈路全受波及;第三方應用更慘,除了《原神》,還有不少小平臺因為接入支付寶接口,直接沒法收付款。
?客服徹底癱瘓:閑魚客服排隊人數破 9000,用戶想查個訂單、退個款都找不到人;淘寶客服只會機械回復 “不要重復支付,稍后更新”,至于 “到底為啥崩”,截至星哥發稿,阿里和螞蟻還沒給過明確的技術說明。
從技術角度扒:大概率還是 “消息隊列” 惹的禍?
熟悉分布式系統的朋友應該知道,支付寶這種量級的支付平臺,靠的是 “分布式事務” 保證數據一致性 —— 這里就得提支付寶用的 TCC(Try-Confirm-Cancel)模型:用戶點支付后,支付服務先扣錢(Try 階段),再發一條 “Confirm 消息” 給訂單服務,通知它把狀態改成 “已支付”。
這次故障的核心,就是 “Confirm 消息” 沒傳到位。星哥分析了下,排除掉三種不可能:
1.不是風控誤殺:要是風控觸發,用戶會看到 “登錄環境異常” 之類的提示,但這次所有人都是 “扣錢成功訂單不變”,沒任何風控報錯;
2.不是數據庫宕機:核心數據庫要是掛了,支付本身就會失敗,根本不會出現 “扣錢成功” 的情況;
3.不是網絡中斷:網絡問題只會導致請求超時,不會出現 “支付成了、訂單沒成” 這種 “半吊子” 狀態。
最可能的還是消息隊列或分布式事務協調出了問題—— 支付寶用的消息中間件是基于 RocketMQ 的,負責在支付、訂單、賬務這些微服務之間傳消息。要是消息隊列積壓、消費端超時,或者事務回查機制失效,訂單服務收不到 “付款成功” 的通知,自然就卡在 “待付款”。
![]()
再看 12.5 Cloudflare:500 錯誤連串炸,監控平臺都崩了
這邊阿里系的故障剛平息,12 月 5 號下午 Cloudflare 又 “掉鏈子” 了 —— 打開 Cloudflare 官網、Shopify,甚至監控宕機的 DownDetector,全是 “500 Internal Server Error”。
![]()
星哥去 Cloudflare 狀態頁查了下,官方倒是更新了信息,但看下來更像是 “維護翻車”:
?故障范圍:不只是 Cloudflare 自身,依賴它的 Shopify(獨立站賣家哭暈)、Zendesk、GitLab 這些平臺都出現訪問問題;更諷刺的是,監控宕機的 DownDetector 也因為用了 Cloudflare,自己先崩了,用戶連 “看誰崩了” 都做不到。
?官方說法:狀態頁顯示,底特律(DTW)、芝加哥(ORD)數據中心正在進行計劃維護,時間是 12 月 5 日 07:00-13:00 UTC(對應國內下午 3 點到晚上 9 點),維護期間會重路由流量,可能導致延遲;同時還在調查 “控制面板及 API 服務問題”,用戶調用 API 會失敗或報錯。
?監控數據佐證:Datadog 的 Updog 監控顯示,從 5 號下午 4 點 45 分開始,Cloudflare API 出現 “持續降級”,截至星哥寫稿,故障已經持續了 25 分鐘以上 —— 要知道 Cloudflare 號稱 “賽博菩薩”,負責全球大量網站的 CDN 和安全防護,它一崩,連鎖反應比想象中還大。
結合10月微軟、11月的Cloudflare的事故,2025年的注定是個不安定的時間
雖然影響對象不同,但暴露的問題很值得行業反思:
對阿里系這種支付生態來說,分布式事務的 “最后一公里” 太關鍵了—— 消息隊列作為微服務之間的 “信使”,一旦出問題,支付和訂單就會 “各說各的”,用戶的錢和訂單狀態對不上,信任度很容易崩塌。而且相比 2024 年雙十一還給了 “消息庫故障” 的說明,這次至今沒給技術細節,沉默反而容易引發更多猜測。
最后說句實在的:現在大家的生活、工作全靠互聯網撐著,支付系統扣錢不接單、云服務說崩就崩,影響的是千萬人的體驗。
希望不管是阿里還是 Cloudflare,都能盡快給出完整的技術復盤,也給行業提個醒 —— 大型系統的穩定性,真的容不得半點馬虎。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.