亞馬遜云崩完,微軟云崩!當(dāng)全球第二大云“摔了一跤”:Azure 宕機(jī)背后的配置風(fēng)險(xiǎn)與警示
首先來(lái)回顧一下10天前的aws事故。
AWS事故簡(jiǎn)介
此次事件始于10月19日 PDT23:48,結(jié)束于10月20日 PDT14:20。在此過(guò)程中,客戶應(yīng)用的影響大致可分為三個(gè)不同階段:
首先,10月19日23:48至10月20日02:40,Amazon DynamoDB 在美國(guó)東部(弗吉尼亞北部,us-east-1)區(qū)域的 API 錯(cuò)誤率顯著升高。
其次,10月20日05:30至14:09,網(wǎng)絡(luò)負(fù)載均衡器(Network Load Balancer,NLB)在該區(qū)域出現(xiàn)部分負(fù)載均衡實(shí)例連接錯(cuò)誤率上升的情況(源于 NLB 集群的健康檢查失敗)。
第三,10月20日02:25至10:36,新的 EC2 實(shí)例啟動(dòng)均告失敗;盡管從10:37開(kāi)始實(shí)例啟動(dòng)逐步恢復(fù)成功,但部分新啟動(dòng)實(shí)例出現(xiàn)了網(wǎng)絡(luò)連接問(wèn)題,直到13:50才完全解決。
![]()
事故原因:此次事件是由該服務(wù)的自動(dòng)域名系統(tǒng) (DNS) 管理系統(tǒng)中一個(gè)潛在缺陷引發(fā)的,該缺陷導(dǎo)致 DynamoDB 的終端節(jié)點(diǎn)解析失敗。
官方事故報(bào)告: https://aws.amazon.com/cn/message/101925/這場(chǎng)持續(xù)15小時(shí)的故障,在全球數(shù)字經(jīng)濟(jì)中掀起了一場(chǎng)"賽博地震"。Catchpoint CEO 受CNN采訪時(shí)表示:這次故障的預(yù)估經(jīng)濟(jì)損失達(dá)"數(shù)十億甚至數(shù)千億美元"。
金融服務(wù)業(yè)
Robinhood 在美東交易時(shí)段完全離線,數(shù)百萬(wàn)散戶投資者被鎖在賬戶之外;
Coinbase 的宕機(jī)讓加密貨幣交易者在市場(chǎng)波動(dòng)中束手無(wú)策;
Venmo 收到8000份故障報(bào)告,用戶的數(shù)字錢包瞬間"消失"。在現(xiàn)代無(wú)現(xiàn)金社會(huì),這相當(dāng)于所有人同時(shí)失去了錢包。
游戲行業(yè)
Roblox 7000萬(wàn)日活用戶被迫下線,虛擬經(jīng)濟(jì)瞬間停擺;
Epic Games 的 Fortnite、任天堂的 Pokémon GO、育碧的彩虹六號(hào)集體失聲。
對(duì)這些依賴用戶粘性的平臺(tái)而言,每小時(shí)的宕機(jī)都可能意味著永久的用戶流失。
政府
英國(guó)的政府網(wǎng)站,稅務(wù),海關(guān),銀行系統(tǒng)受到影響,多家航空公司內(nèi)部系統(tǒng)受損導(dǎo)致部分航班運(yùn)營(yíng)混亂。
更諷刺的是,Amazon 自家產(chǎn)品全線翻車 —— 購(gòu)物網(wǎng)站、Alexa、Ring 門鈴、Prime Video,甚至 AWS 自己的工單系統(tǒng)都未能幸免。 這充分說(shuō)明:即使是 AWS 的創(chuàng)造者,也無(wú)法避免對(duì) us-east-1 的單點(diǎn)依賴。
![]()
微軟云Azure事故
2025 年 10 月 29 日,微軟 Azure 在全球范圍內(nèi)發(fā)生大規(guī)模宕機(jī),持續(xù)近 9 小時(shí)。受影響的不僅包括微軟自家核心服務(wù)(Office 365、Xbox Live、Copilot 等),還波及航空、醫(yī)療、零售等多個(gè)行業(yè)。
Downdetector 的統(tǒng)計(jì)顯示,短時(shí)間內(nèi)全球上千起用戶報(bào)告,堪稱一次“互聯(lián)網(wǎng)半邊天的停擺”。
更具戲劇性的是,這一事故發(fā)生在微軟發(fā)布 2026 財(cái)年 Q1 財(cái)報(bào)的前夕,而財(cái)報(bào)中 Azure 云業(yè)務(wù)收入同比增長(zhǎng) 40%,形成了鮮明反差。
![]()
根本原因
根據(jù)微軟初步調(diào)查報(bào)告:
? 觸發(fā)點(diǎn) :Azure Front Door(全球內(nèi)容分發(fā)與應(yīng)用加速服務(wù))中一次 意外的租戶配置更改 。
? 問(wèn)題機(jī)制 :該更改引入了無(wú)效/不一致的配置狀態(tài),導(dǎo)致大量 AFD 節(jié)點(diǎn)無(wú)法正常加載。
? 連鎖反應(yīng) :異常節(jié)點(diǎn)退出全局池,健康節(jié)點(diǎn)流量驟增,進(jìn)一步放大了宕機(jī)范圍。
? 防護(hù)缺陷 :原本應(yīng)阻止錯(cuò)誤部署的保護(hù)機(jī)制因軟件缺陷失效,未能攔截。
微軟隨后采取措施:凍結(jié)所有新的配置更改、回滾至“上一次已知良好配置”,并逐步恢復(fù)流量分配。
事件起因是一次無(wú)意的租戶配置變更,該變更在 Azure Front Door 內(nèi)部觸發(fā)了大范圍服務(wù)中斷,影響了依賴 AFD 進(jìn)行全球內(nèi)容分發(fā)的微軟服務(wù)和客戶應(yīng)用。
該變更引入了無(wú)效或不一致的配置狀態(tài),導(dǎo)致大量 AFD 節(jié)點(diǎn)無(wú)法正確加載,進(jìn)而引發(fā)下游服務(wù)的延遲、超時(shí)和連接錯(cuò)誤。
隨著不健康節(jié)點(diǎn)退出全局節(jié)點(diǎn)池,流量分布在健康節(jié)點(diǎn)間變得不平衡,放大了影響,導(dǎo)致即使部分地區(qū)仍健康也出現(xiàn)間歇性可用性問(wèn)題。
我們立即阻止所有新的配置更改以防止錯(cuò)誤狀態(tài)進(jìn)一步傳播,并開(kāi)始在全球范圍內(nèi)部署“上一次已知的良好配置”。
恢復(fù)過(guò)程需要在大量節(jié)點(diǎn)上重新加載配置,并逐步重新平衡流量,以避免節(jié)點(diǎn)恢復(fù)時(shí)過(guò)載。
這種分階段恢復(fù)是為了在確保系統(tǒng)穩(wěn)定的前提下恢復(fù)規(guī)模并避免問(wèn)題復(fù)發(fā)。
觸發(fā)根因追溯到租戶配置部署流程中的缺陷。
本應(yīng)阻止錯(cuò)誤部署的防護(hù)機(jī)制因一個(gè)軟件缺陷而失效,使該部署繞過(guò)了安全驗(yàn)證。
我們已審查并立即加強(qiáng)驗(yàn)證與回滾控制機(jī)制,以防止未來(lái)出現(xiàn)類似問(wèn)題。
影響范圍
受影響的 Azure 服務(wù)清單幾乎覆蓋其生態(tài)半壁江山,包括:
? PaaS 層 :App Service、Azure SQL Database、Databricks
? 安全與身份 :Entra ID、Defender EASM、Sentinel
? 開(kāi)發(fā)與數(shù)據(jù) :Container Registry、Media Services、Video Indexer
? 終端體驗(yàn) :Virtual Desktop、Azure Maps、Healthcare APIs
此外,Alaska Airlines、夏威夷航空等航空公司無(wú)法在線辦理登機(jī)手續(xù),加拿大醫(yī)療機(jī)構(gòu) Santé Québec 報(bào)告部分系統(tǒng)停運(yùn),甚至開(kāi)源社區(qū)的 Helm 官網(wǎng)也一度無(wú)法訪問(wèn)。
行業(yè)警示
這不是孤立事件。僅僅不到10天前,AWS因DNS自動(dòng)化管理系統(tǒng)的罕見(jiàn)軟件bug,引發(fā)了持續(xù)15小時(shí)的全球性故障。兩大云巨頭占據(jù)全球超55%的市場(chǎng)份額,它們的接連"掉鏈子",讓云服務(wù)集中化風(fēng)險(xiǎn)再次成為焦點(diǎn)。
1. 集中化風(fēng)險(xiǎn) :少數(shù)巨頭掌控互聯(lián)網(wǎng)神經(jīng)中樞,一次配置錯(cuò)誤即可波及全球。
2. 韌性不足 :即便是頂級(jí)基礎(chǔ)設(shè)施,仍存在防護(hù)機(jī)制失效的可能。
3. 多云與冗余 :企業(yè)在追求云的便利與彈性時(shí),是否也該考慮多云部署與自主可控?
AWS事故的起因: 此次事件是由該服務(wù)的自動(dòng)域名系統(tǒng) (DNS) 管理系統(tǒng)中一個(gè)潛在缺陷引發(fā)的,該缺陷導(dǎo)致 DynamoDB 的終端節(jié)點(diǎn)解析失敗。
Azure事故的起因:無(wú)意的租戶配置變更?又想到了某位偉人說(shuō)的: 這個(gè)世界是個(gè)巨大的草臺(tái)班子。。。
給整個(gè)云計(jì)算行業(yè)敲響了警鐘。
云計(jì)算的魅力在于規(guī)模化與自動(dòng)化,但這也意味著**“一處失誤,全球震蕩”**。對(duì)于企業(yè)用戶而言,不能只依賴 SLA 和廠商承諾,更要在架構(gòu)層面設(shè)計(jì)冗余與容災(zāi)。對(duì)于云廠商而言,如何在快速迭代與穩(wěn)定性之間找到平衡,將是未來(lái)十年的核心挑戰(zhàn)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.