亞馬遜云崩完,微軟云崩!當(dāng)全球第二大云“摔了一跤”:Azure 宕機背后的配置風(fēng)險與警示
首先來回顧一下10天前的aws事故。
AWS事故簡介
此次事件始于10月19日 PDT23:48,結(jié)束于10月20日 PDT14:20。在此過程中,客戶應(yīng)用的影響大致可分為三個不同階段:
首先,10月19日23:48至10月20日02:40,Amazon DynamoDB 在美國東部(弗吉尼亞北部,us-east-1)區(qū)域的 API 錯誤率顯著升高。
其次,10月20日05:30至14:09,網(wǎng)絡(luò)負(fù)載均衡器(Network Load Balancer,NLB)在該區(qū)域出現(xiàn)部分負(fù)載均衡實例連接錯誤率上升的情況(源于 NLB 集群的健康檢查失敗)。
第三,10月20日02:25至10:36,新的 EC2 實例啟動均告失敗;盡管從10:37開始實例啟動逐步恢復(fù)成功,但部分新啟動實例出現(xiàn)了網(wǎng)絡(luò)連接問題,直到13:50才完全解決。
![]()
事故原因:此次事件是由該服務(wù)的自動域名系統(tǒng) (DNS) 管理系統(tǒng)中一個潛在缺陷引發(fā)的,該缺陷導(dǎo)致 DynamoDB 的終端節(jié)點解析失敗。
官方事故報告: https://aws.amazon.com/cn/message/101925/這場持續(xù)15小時的故障,在全球數(shù)字經(jīng)濟中掀起了一場"賽博地震"。Catchpoint CEO 受CNN采訪時表示:這次故障的預(yù)估經(jīng)濟損失達"數(shù)十億甚至數(shù)千億美元"。
金融服務(wù)業(yè)
Robinhood 在美東交易時段完全離線,數(shù)百萬散戶投資者被鎖在賬戶之外;
Coinbase 的宕機讓加密貨幣交易者在市場波動中束手無策;
Venmo 收到8000份故障報告,用戶的數(shù)字錢包瞬間"消失"。在現(xiàn)代無現(xiàn)金社會,這相當(dāng)于所有人同時失去了錢包。
游戲行業(yè)
Roblox 7000萬日活用戶被迫下線,虛擬經(jīng)濟瞬間停擺;
Epic Games 的 Fortnite、任天堂的 Pokémon GO、育碧的彩虹六號集體失聲。
對這些依賴用戶粘性的平臺而言,每小時的宕機都可能意味著永久的用戶流失。
政府
英國的政府網(wǎng)站,稅務(wù),海關(guān),銀行系統(tǒng)受到影響,多家航空公司內(nèi)部系統(tǒng)受損導(dǎo)致部分航班運營混亂。
更諷刺的是,Amazon 自家產(chǎn)品全線翻車 —— 購物網(wǎng)站、Alexa、Ring 門鈴、Prime Video,甚至 AWS 自己的工單系統(tǒng)都未能幸免。 這充分說明:即使是 AWS 的創(chuàng)造者,也無法避免對 us-east-1 的單點依賴。
![]()
微軟云Azure事故
2025 年 10 月 29 日,微軟 Azure 在全球范圍內(nèi)發(fā)生大規(guī)模宕機,持續(xù)近 9 小時。受影響的不僅包括微軟自家核心服務(wù)(Office 365、Xbox Live、Copilot 等),還波及航空、醫(yī)療、零售等多個行業(yè)。
Downdetector 的統(tǒng)計顯示,短時間內(nèi)全球上千起用戶報告,堪稱一次“互聯(lián)網(wǎng)半邊天的停擺”。
更具戲劇性的是,這一事故發(fā)生在微軟發(fā)布 2026 財年 Q1 財報的前夕,而財報中 Azure 云業(yè)務(wù)收入同比增長 40%,形成了鮮明反差。
![]()
根本原因
根據(jù)微軟初步調(diào)查報告:
? 觸發(fā)點 :Azure Front Door(全球內(nèi)容分發(fā)與應(yīng)用加速服務(wù))中一次 意外的租戶配置更改 。
? 問題機制 :該更改引入了無效/不一致的配置狀態(tài),導(dǎo)致大量 AFD 節(jié)點無法正常加載。
? 連鎖反應(yīng) :異常節(jié)點退出全局池,健康節(jié)點流量驟增,進一步放大了宕機范圍。
? 防護缺陷 :原本應(yīng)阻止錯誤部署的保護機制因軟件缺陷失效,未能攔截。
微軟隨后采取措施:凍結(jié)所有新的配置更改、回滾至“上一次已知良好配置”,并逐步恢復(fù)流量分配。
事件起因是一次無意的租戶配置變更,該變更在 Azure Front Door 內(nèi)部觸發(fā)了大范圍服務(wù)中斷,影響了依賴 AFD 進行全球內(nèi)容分發(fā)的微軟服務(wù)和客戶應(yīng)用。
該變更引入了無效或不一致的配置狀態(tài),導(dǎo)致大量 AFD 節(jié)點無法正確加載,進而引發(fā)下游服務(wù)的延遲、超時和連接錯誤。
隨著不健康節(jié)點退出全局節(jié)點池,流量分布在健康節(jié)點間變得不平衡,放大了影響,導(dǎo)致即使部分地區(qū)仍健康也出現(xiàn)間歇性可用性問題。
我們立即阻止所有新的配置更改以防止錯誤狀態(tài)進一步傳播,并開始在全球范圍內(nèi)部署“上一次已知的良好配置”。
恢復(fù)過程需要在大量節(jié)點上重新加載配置,并逐步重新平衡流量,以避免節(jié)點恢復(fù)時過載。
這種分階段恢復(fù)是為了在確保系統(tǒng)穩(wěn)定的前提下恢復(fù)規(guī)模并避免問題復(fù)發(fā)。
觸發(fā)根因追溯到租戶配置部署流程中的缺陷。
本應(yīng)阻止錯誤部署的防護機制因一個軟件缺陷而失效,使該部署繞過了安全驗證。
我們已審查并立即加強驗證與回滾控制機制,以防止未來出現(xiàn)類似問題。
影響范圍
受影響的 Azure 服務(wù)清單幾乎覆蓋其生態(tài)半壁江山,包括:
? PaaS 層 :App Service、Azure SQL Database、Databricks
? 安全與身份 :Entra ID、Defender EASM、Sentinel
? 開發(fā)與數(shù)據(jù) :Container Registry、Media Services、Video Indexer
? 終端體驗 :Virtual Desktop、Azure Maps、Healthcare APIs
此外,Alaska Airlines、夏威夷航空等航空公司無法在線辦理登機手續(xù),加拿大醫(yī)療機構(gòu) Santé Québec 報告部分系統(tǒng)停運,甚至開源社區(qū)的 Helm 官網(wǎng)也一度無法訪問。
行業(yè)警示
這不是孤立事件。僅僅不到10天前,AWS因DNS自動化管理系統(tǒng)的罕見軟件bug,引發(fā)了持續(xù)15小時的全球性故障。兩大云巨頭占據(jù)全球超55%的市場份額,它們的接連"掉鏈子",讓云服務(wù)集中化風(fēng)險再次成為焦點。
1. 集中化風(fēng)險 :少數(shù)巨頭掌控互聯(lián)網(wǎng)神經(jīng)中樞,一次配置錯誤即可波及全球。
2. 韌性不足 :即便是頂級基礎(chǔ)設(shè)施,仍存在防護機制失效的可能。
3. 多云與冗余 :企業(yè)在追求云的便利與彈性時,是否也該考慮多云部署與自主可控?
AWS事故的起因: 此次事件是由該服務(wù)的自動域名系統(tǒng) (DNS) 管理系統(tǒng)中一個潛在缺陷引發(fā)的,該缺陷導(dǎo)致 DynamoDB 的終端節(jié)點解析失敗。
Azure事故的起因:無意的租戶配置變更?又想到了某位偉人說的: 這個世界是個巨大的草臺班子。。。
給整個云計算行業(yè)敲響了警鐘。
云計算的魅力在于規(guī)模化與自動化,但這也意味著**“一處失誤,全球震蕩”**。對于企業(yè)用戶而言,不能只依賴 SLA 和廠商承諾,更要在架構(gòu)層面設(shè)計冗余與容災(zāi)。對于云廠商而言,如何在快速迭代與穩(wěn)定性之間找到平衡,將是未來十年的核心挑戰(zhàn)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.