網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

亞馬遜云崩完，微軟云崩！當(dāng)全球第二大云“摔了一跤”：Azure 宕機(jī)背后的配置風(fēng)險(xiǎn)與警示

2025-11-04 08:02:12　來(lái)源: 星哥說(shuō)事

廣東舉報(bào)

分享至

首先來(lái)回顧一下10天前的aws事故。

AWS事故簡(jiǎn)介

此次事件始于10月19日 PDT23:48，結(jié)束于10月20日 PDT14:20。在此過(guò)程中，客戶應(yīng)用的影響大致可分為三個(gè)不同階段：

首先，10月19日23:48至10月20日02:40，Amazon DynamoDB 在美國(guó)東部（弗吉尼亞北部，us-east-1）區(qū)域的 API 錯(cuò)誤率顯著升高。

其次，10月20日05:30至14:09，網(wǎng)絡(luò)負(fù)載均衡器（Network Load Balancer，NLB）在該區(qū)域出現(xiàn)部分負(fù)載均衡實(shí)例連接錯(cuò)誤率上升的情況（源于 NLB 集群的健康檢查失敗）。

第三，10月20日02:25至10:36，新的 EC2 實(shí)例啟動(dòng)均告失敗；盡管從10:37開(kāi)始實(shí)例啟動(dòng)逐步恢復(fù)成功，但部分新啟動(dòng)實(shí)例出現(xiàn)了網(wǎng)絡(luò)連接問(wèn)題，直到13:50才完全解決。

事故原因：此次事件是由該服務(wù)的自動(dòng)域名系統(tǒng) (DNS) 管理系統(tǒng)中一個(gè)潛在缺陷引發(fā)的，該缺陷導(dǎo)致 DynamoDB 的終端節(jié)點(diǎn)解析失敗。

                                                           官方事故報(bào)告： https://aws.amazon.com/cn/message/101925/

AWS事故影響

這場(chǎng)持續(xù)15小時(shí)的故障，在全球數(shù)字經(jīng)濟(jì)中掀起了一場(chǎng)"賽博地震"。Catchpoint CEO 受CNN采訪時(shí)表示：這次故障的預(yù)估經(jīng)濟(jì)損失達(dá)"數(shù)十億甚至數(shù)千億美元"。

金融服務(wù)業(yè)

Robinhood 在美東交易時(shí)段完全離線，數(shù)百萬(wàn)散戶投資者被鎖在賬戶之外；

Coinbase 的宕機(jī)讓加密貨幣交易者在市場(chǎng)波動(dòng)中束手無(wú)策；

Venmo 收到8000份故障報(bào)告，用戶的數(shù)字錢包瞬間"消失"。在現(xiàn)代無(wú)現(xiàn)金社會(huì)，這相當(dāng)于所有人同時(shí)失去了錢包。

游戲行業(yè)

Roblox 7000萬(wàn)日活用戶被迫下線，虛擬經(jīng)濟(jì)瞬間停擺；

Epic Games 的 Fortnite、任天堂的 Pokémon GO、育碧的彩虹六號(hào)集體失聲。

對(duì)這些依賴用戶粘性的平臺(tái)而言，每小時(shí)的宕機(jī)都可能意味著永久的用戶流失。

政府

英國(guó)的政府網(wǎng)站，稅務(wù)，海關(guān)，銀行系統(tǒng)受到影響，多家航空公司內(nèi)部系統(tǒng)受損導(dǎo)致部分航班運(yùn)營(yíng)混亂。

更諷刺的是，Amazon 自家產(chǎn)品全線翻車 —— 購(gòu)物網(wǎng)站、Alexa、Ring 門鈴、Prime Video，甚至 AWS 自己的工單系統(tǒng)都未能幸免。這充分說(shuō)明：即使是 AWS 的創(chuàng)造者，也無(wú)法避免對(duì) us-east-1 的單點(diǎn)依賴。

微軟云Azure事故

2025 年 10 月 29 日，微軟 Azure 在全球范圍內(nèi)發(fā)生大規(guī)模宕機(jī)，持續(xù)近 9 小時(shí)。受影響的不僅包括微軟自家核心服務(wù)（Office 365、Xbox Live、Copilot 等），還波及航空、醫(yī)療、零售等多個(gè)行業(yè)。

Downdetector 的統(tǒng)計(jì)顯示，短時(shí)間內(nèi)全球上千起用戶報(bào)告，堪稱一次“互聯(lián)網(wǎng)半邊天的停擺”。

更具戲劇性的是，這一事故發(fā)生在微軟發(fā)布 2026 財(cái)年 Q1 財(cái)報(bào)的前夕，而財(cái)報(bào)中 Azure 云業(yè)務(wù)收入同比增長(zhǎng) 40%，形成了鮮明反差。

根本原因

根據(jù)微軟初步調(diào)查報(bào)告：

? 觸發(fā)點(diǎn) ：Azure Front Door（全球內(nèi)容分發(fā)與應(yīng)用加速服務(wù)）中一次 意外的租戶配置更改 。
? 問(wèn)題機(jī)制 ：該更改引入了無(wú)效/不一致的配置狀態(tài)，導(dǎo)致大量 AFD 節(jié)點(diǎn)無(wú)法正常加載。
? 連鎖反應(yīng) ：異常節(jié)點(diǎn)退出全局池，健康節(jié)點(diǎn)流量驟增，進(jìn)一步放大了宕機(jī)范圍。
? 防護(hù)缺陷 ：原本應(yīng)阻止錯(cuò)誤部署的保護(hù)機(jī)制因軟件缺陷失效，未能攔截。

微軟隨后采取措施：凍結(jié)所有新的配置更改、回滾至“上一次已知良好配置”，并逐步恢復(fù)流量分配。

事件起因是一次無(wú)意的租戶配置變更，該變更在 Azure Front Door 內(nèi)部觸發(fā)了大范圍服務(wù)中斷，影響了依賴 AFD 進(jìn)行全球內(nèi)容分發(fā)的微軟服務(wù)和客戶應(yīng)用。

該變更引入了無(wú)效或不一致的配置狀態(tài)，導(dǎo)致大量 AFD 節(jié)點(diǎn)無(wú)法正確加載，進(jìn)而引發(fā)下游服務(wù)的延遲、超時(shí)和連接錯(cuò)誤。

隨著不健康節(jié)點(diǎn)退出全局節(jié)點(diǎn)池，流量分布在健康節(jié)點(diǎn)間變得不平衡，放大了影響，導(dǎo)致即使部分地區(qū)仍健康也出現(xiàn)間歇性可用性問(wèn)題。

我們立即阻止所有新的配置更改以防止錯(cuò)誤狀態(tài)進(jìn)一步傳播，并開(kāi)始在全球范圍內(nèi)部署“上一次已知的良好配置”。

恢復(fù)過(guò)程需要在大量節(jié)點(diǎn)上重新加載配置，并逐步重新平衡流量，以避免節(jié)點(diǎn)恢復(fù)時(shí)過(guò)載。

這種分階段恢復(fù)是為了在確保系統(tǒng)穩(wěn)定的前提下恢復(fù)規(guī)模并避免問(wèn)題復(fù)發(fā)。

觸發(fā)根因追溯到租戶配置部署流程中的缺陷。

本應(yīng)阻止錯(cuò)誤部署的防護(hù)機(jī)制因一個(gè)軟件缺陷而失效，使該部署繞過(guò)了安全驗(yàn)證。

我們已審查并立即加強(qiáng)驗(yàn)證與回滾控制機(jī)制，以防止未來(lái)出現(xiàn)類似問(wèn)題。

影響范圍

受影響的 Azure 服務(wù)清單幾乎覆蓋其生態(tài)半壁江山，包括：

? PaaS 層 ：App Service、Azure SQL Database、Databricks
? 安全與身份 ：Entra ID、Defender EASM、Sentinel
? 開(kāi)發(fā)與數(shù)據(jù) ：Container Registry、Media Services、Video Indexer
? 終端體驗(yàn) ：Virtual Desktop、Azure Maps、Healthcare APIs

此外，Alaska Airlines、夏威夷航空等航空公司無(wú)法在線辦理登機(jī)手續(xù)，加拿大醫(yī)療機(jī)構(gòu) Santé Québec 報(bào)告部分系統(tǒng)停運(yùn)，甚至開(kāi)源社區(qū)的 Helm 官網(wǎng)也一度無(wú)法訪問(wèn)。

行業(yè)警示

這不是孤立事件。僅僅不到10天前，AWS因DNS自動(dòng)化管理系統(tǒng)的罕見(jiàn)軟件bug，引發(fā)了持續(xù)15小時(shí)的全球性故障。兩大云巨頭占據(jù)全球超55%的市場(chǎng)份額，它們的接連"掉鏈子"，讓云服務(wù)集中化風(fēng)險(xiǎn)再次成為焦點(diǎn)。

1. 集中化風(fēng)險(xiǎn) ：少數(shù)巨頭掌控互聯(lián)網(wǎng)神經(jīng)中樞，一次配置錯(cuò)誤即可波及全球。
2. 韌性不足 ：即便是頂級(jí)基礎(chǔ)設(shè)施，仍存在防護(hù)機(jī)制失效的可能。
3. 多云與冗余 ：企業(yè)在追求云的便利與彈性時(shí)，是否也該考慮多云部署與自主可控？

星哥觀點(diǎn)

AWS事故的起因：此次事件是由該服務(wù)的自動(dòng)域名系統(tǒng) (DNS) 管理系統(tǒng)中一個(gè)潛在缺陷引發(fā)的，該缺陷導(dǎo)致 DynamoDB 的終端節(jié)點(diǎn)解析失敗。

Azure事故的起因：無(wú)意的租戶配置變更？又想到了某位偉人說(shuō)的：這個(gè)世界是個(gè)巨大的草臺(tái)班子。。。

給整個(gè)云計(jì)算行業(yè)敲響了警鐘。

云計(jì)算的魅力在于規(guī)模化與自動(dòng)化，但這也意味著**“一處失誤，全球震蕩”**。對(duì)于企業(yè)用戶而言，不能只依賴 SLA 和廠商承諾，更要在架構(gòu)層面設(shè)計(jì)冗余與容災(zāi)。對(duì)于云廠商而言，如何在快速迭代與穩(wěn)定性之間找到平衡，將是未來(lái)十年的核心挑戰(zhàn)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.