就是現在,根據 DownDetector 故障檢測器的報告,幾乎你能想到的主要互聯網服務供應商都出現了顯著故障與錯誤。背后的線索全部指向 Google 云平臺 GCP 上的一場全局性大故障。
![]()
GCP 疑似因為核心的身份和訪問管理(IAM)服務(內部名為 Chemist)出現全球地域,全局性的服務不可用。這場故障的原因幾乎與前年 如出一轍。
![]()
GCP 的故障影響到 Cloudflare 的關鍵服務,進一步導致承載了全球互聯網 20% 的流量的云平臺 Cloudflare 出現故障。CF 故障進一步將故障放大到互聯網的各個角落。包括 Cursor,Claude,Spotify,Discord,Snapchat,Supabase 等諸多知名應用與服務都收到影響。
事件時間線
![]()
同時,Cloudflare 也發布了故障報告:
![]()
故障根本原因分析
根據Google在故障初期發布的信息,此次中斷是由身份和訪問管理(Identity and Access Management,IAM)服務的問題引起 (theregister.com[1] 有相關報道)
這次故障的原因,與阿里云在 2023年雙十一 的原因類似,都是由于身份驗證、權限檢查的核心服務發生故障,進而導致幾乎所有的云產品故障。
事故發生后不久,Google狀態頁直接提示“多項GCP產品因IAM服務問題而受到影響。這一點也在后續各種跡象中得到印證:許多用戶報告調用GCP API時出現諸如“visibility check failed”(可見性檢查失敗)或“cannot load policy”(無法加載策略)之類的錯誤。這些錯誤信息表明,請求被阻斷在權限/策略驗證的環節,即云請求在到達目標服務前就因為權限或策略檢查無法通過而失敗。因此,可以推斷根因在于Google Cloud內部的全局權限控制/策略服務出現異常。
Hacker News等技術社區的討論挖掘出更多細節。一位疑似Google內部人士的評論提到,Google Cloud內部有一個代號為“Chemist”的核心服務,正是負責所有API請求的項目狀態和策略檢查。根據Google官方文檔描述:Chemist在每個API請求到來時,會檢查項目是否激活、帳戶有無欠費或被封禁、服務啟用狀態、地域訪問限制、VPC服務控制策略、超額配額(SuperQuota)以及其他各種策略;在請求完成后還會記錄遙測數據用于計費和監控
觸發因素分析
觸發因素分析:截至目前(事故發生次日),Google尚未公布詳細的事后分析報告(RCA),僅表示將在內部調查完成后對外發布分析。因此具體的觸發原因只能根據現有信息推斷。
老馮認為此次故障最大可能是因為配置或軟件更新錯誤導致的:大型云服務商的全球性事故,常常源于配置變更或代碼更新的失誤。考慮到此次事故在太平洋時間上午突然發生,可能恰逢某個全球發布窗口或變更操作。
一種合理推測是:Google對IAM/策略服務進行了某項更新(例如推送了錯誤的配置規則或部署了有缺陷的軟件版本),結果導致該服務崩潰或拒絕請求,例如,阿里云 IAM 大故障的原因就是更新了 IAM 黑白名單配置導致其 依賴的 OSS 無法訪問導致的。
歷史上Google也發生過類似情況:如2020年12月的全球宕機事故,就源于內部身份認證系統因為存儲配額配置變更而觸發bug,最終讓身份服務癱瘓45分鐘。此次2025年故障的癥狀與之相似——都是核心身份/權限系統出了問題。很可能一次不當的變更使Chemist或相關IAM服務無法正常允許請求,從而“一票否決”了各項云操作。Google官方在事故中后期的表述也支持這一點:工程師發現了根本原因并采取措施,表明他們找到問題所在并進行了回滾或修復
另外的可能觸發因素包括:網絡路由(BGP)故障,邊界/骨干網絡中斷,Google云內部SDN(如Andromeda)問題。但似乎都沒有更多證據可以證明這一點。
結論
本次事故有極大概率是Google自身軟件或配置失誤引發的一場控制平面災難,而非外部攻擊或純粹硬件故障。Google官方和多家媒體均未提及任何安全事件跡象。沒有證據表明發生了惡意入侵、DDoS等攻擊。一切線索都指向人為操作失誤:不是配置錯誤,就是軟件Bug。
另一個值得警醒的現象是,Cloudflare 作為一家云廠商,卻對第三方 GCP 云平臺有著依賴,在這次故障中被間接拖垮,這確實是一件非常奇怪的事情。
這場故障揭示出大型公有云平臺的脆弱性: Google這次的控制服務故障,其影響都超出了單個公司的范疇,成為全網用戶共同承受的“多米諾骨牌”式中斷。這警示著整個科技行業:大型公有云廠商已經成為互聯網世界的 “單點”,而這可并不是互聯網發明的初衷。
許多僅依賴自有服務器的獨立網站都在此次事故中完好無損 —— 大多數公司最好投資一些 IT人員,而不是將系統全部交給某個專有且極其復雜的云環境。否則,你會越來越依賴于你不認識、無法控制、也無法直接溝通的人與服務。
References
[1]: https://cloud.google.com/service-infrastructure/docs/service-management/reference/rpc/google.api#control[2]: https://status.cloud.google.com/[3]: https://www.cloudflarestatus.com/incidents/25r9t0vz99rp
云計算泥石流專欄
馬工
馬工
馬工
馬工
馬工
Leo
馬工
馬工
馬工
馬工
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.