網易首頁 > 網易號 > 正文申請入駐

阿里云爆發史上最嚴重宕機事故，友商們瘋搶客戶...

2022-12-21 11:38:09　來源: IT企導網

浙江舉報

分享至

阿里云香港區于2022年12月18日出現故障，多個香港和澳門的網站受到影響，包括Linux中國的官網（https://linux.cn/）、澳門金融管理局、澳門銀河、蓮花衛視、澳門水泥廠等關鍵基礎設施營運者的網站、澳覓和MFood等外賣平臺、以及澳門日報等APP一度無法正常訪問使用。

阿里云宕機事故發生后，最高興的莫屬各大公有云廠商的朋友圈了，瘋搶客戶的節奏：

事后阿里云官網立即發布關于宕機事故發布的公告

后經排查，阿里云香港地域故障確認系香港PCCW機房制冷設備故障所致。

2022年12月19日下午，根據最新的更新進展顯示，目前阿里云所租用的香港電訊盈科公司機房已修復制冷設備故障，阿里云香港地域所有可用區云產品功能正在陸續恢復正常。

此次故障，影響香港地域可用區C的云服務器ECS、云數據庫、存儲產品（對象存儲、表格存儲等）、云網絡產品（全球加速、NAT網關、VPN網關等）等云產品使用。這一故障也影響了香港地域控制臺訪問和API調用操作。

對于受本次故障影響的產品，阿里云將根據相關產品的SLA協議進行賠付。

可見，這次已超過24小時的服務器宕機，為各網站及平臺造成巨大損失，讓阿里云慘遭滑鐵盧。

在我們的運維技術社群多位阿里云用戶宕機時間超過24小時，部分用戶直到19日中午才得以恢復。另有電商用戶表示，其宕機超過28小時仍未恢復。“從昨天早上11點開始，打了11次售后電話。但卻一直無人回電。”

按照阿里云官網對云服務器ECS的服務可用性等級指標及賠償方案，用戶獲得的賠償方式，僅限于用于購買ECS產品的代金券，且賠償總額不超過月度服務費。

其實大家大可不必互相嘲笑對方，誰知道下一次大規模公有云宕機事件的主角是誰呢?

qidao123.com梳理了近年來著名宕機事件

01.2017年 1月26日，IBM

今年年初，IBM云的信用度受到影響，客戶用于訪問其Bluemix云基礎架構(以前稱為SoftLayer)的一個管理網站服務中斷了數小時。

雖然底層基礎架構沒有真的出現故障，但用戶發現他們無法管理自身的應用程序，添加或刪除支持工作負載的云資源。

IBM表示該問題是由于一次接口升級造成，只是間歇性的。

02.2017年 1月31日，GitLab

GitLab極受歡迎的線上代碼庫——GibLab.com遭遇了18小時的服務中斷，最終無法完全修復。故障原因是員工在維護過程中從錯誤的數據庫服務器中刪除了數據庫目錄。

一些客戶的生產數據最終丟失，包括對項目，評論與帳戶的修改。

該公司在事件后表示：“我們最合理的估計是此次影響了約5000個項目，5000個評論和700個新用戶帳戶。“

GitLab CEO在向用戶道歉時稱，“丟失生產數據是讓人無法接受的”。

03.2017年 2月9日,Instapaper

亞馬遜RDS服務上的MySQL數據庫文件大小限制引發了Pinterest服務器的長時間宕機。

之后，這家社交化書簽網站稱，其工程師從來不知曉在2014年4月之前創建的數據庫RDS容量限制為2TB，并且AWS服務也沒有發出表內存儲其“書簽”即將超過該限制容量的警告信息。

經過一天多的時間，Instapaper(Pinterest在2016年收購的閱后即焚服務提供商)的服務恢復了對存檔資料的受限訪問，同時工程師們盡力恢復數據庫的其它部分，四天后Instapaper完全恢復。

04.2017年 2月24日，Facebook

世界各地的一些用戶Facebook賬戶被鎖定了近三個小時，這讓他們擔心自己的帳戶被劫持了。

Facebook給出的解釋是為了預防黑客錯將用戶發送到恢復界面，讓人覺得其他人登錄了他們的帳戶。而受影響的用戶被阻止立即重新登錄。

Facebook確認沒有出現實際的安全漏洞。

這是那一周Facebook出現的第二次問題。幾天前，有人還稱他們無法看到自己發的動態。

05.2017年 2月28日, AWS

這次宕機事件極為轟動，相信大家對此記憶尤深。當時是一位AWS工程師試圖調試亞馬遜的弗吉尼亞數據中心S3存儲系統，但輸入了一個錯誤指令，導致許多互聯網——包括諸如Slack，Quora和Trello等眾多企業平臺宕機4個小時。

亞馬遜在事件后分析表示，該員工當時當時打算將一小部分用于計費過程的托管子系統服務器刪除。然而，錯誤命令導致了更多的服務器脫機，包括為數據存儲功能提供特定請求所需的一個子系統和另一個分配新存儲空間的子系統。

亞馬遜坐擁約三分之一的全球云市場，因此這次宕機事件重新引發了關于公有云的風險論。

06.2017年 3月16日，Microsoft Azure

微軟Azure公有云出現超過8小時的存儲可用性問題，主要影響到美國東部的客戶。有些用戶無法配置新的存儲空間或訪問本地現有資源。之后，一個微軟工程團隊確認原因為斷電導致的存儲集群不可用。

除此之外，微軟還在Azure狀態頁上列出了一個軟件錯誤，該錯誤影響跨多個服務的存儲配置超過一個小時。

07.2017年 3月21日，Microsoft Office 365

由于用戶身份驗證問題，一些微軟業務和消費者云服務，包括Office 365存儲和電子郵件服務都無法訪問。

宕機事件還使得客戶無法訪問OneDrive存儲，Skype協作，Outlook電子郵件和Xbox Live等消費產品。

08.2017年 5月22日，在IBM云上的Lululemon

熱門瑜伽網站Lululemon出現服務中斷問題，其CEO將主要責任歸咎于IBM的托管云服務。

Lululemon CEO，Laurent Potdevin在接受CNBC(美國全國廣播公司財經頻道)采訪時直接指責在IBM云環境下電子商務銷售額遭受了損失。并表示他的團隊由于這個問題連續工作了36個小時，并已經向IBM CEO，Ginni Rometty表達了不滿。

Potdevin在談及對IBM云計算時稱，“我們正在考慮我們的選擇”。

09.2017年 6月19日，Microsoft Skype

主要分布在歐洲的微軟Skype用戶由于遭受明顯的分布式阻斷服務，接連出現宕機問題。

6月19日，Skype用戶開始抱怨多個小時的宕機問題。這次宕機持續到次日，用戶在通信平臺上無法連接，交流信息受阻。

雖然微軟沒有立即確認DDoS的報道，但一個名為CyberTeam的黑客組織承認該事件是他們所為。

10.2017年 6月28日, 蘋果iCloud

多個社交媒體反饋蘋果iCloud Backup服務的可用性問題。蘋果在系統狀態頁表示，iCloud Backup出現宕機的用戶數量僅不到1%。

受影響的人無法從之前的備份中恢復iOS設備，問題持續了至少36個小時。而在未完成修復時會掛起恢復進程，開啟設備保護數據的新備份沒是有問題的。

11.谷歌云, 2月15日

2月15日，谷歌應用開發平臺的出現了數據庫故障引發了不少該平臺客戶的煩惱。

該問題于接近于中午12點時發生在Google Cloud Datastore上，這是為規模型用戶設計的一款非關系型數據庫。

在事故中，谷歌PaaS服務Google App Engine的用戶經歷了長達一小時的錯誤與延遲情況。

游戲玩家在這次事件中受波及最為嚴重，因為不少的熱門在線游戲使用了谷歌服務。而像Pokemon Go和Snapchat也備受沖擊。

12.AWS，2018年 3月2日

3月2日，AWS的宕機廣泛影響了大量的Alexa語音助手的用戶，并波及到了很多熱門在線服務商，如Atlassian、Slack和Twilio。

稍后，亞馬遜表示他們位于弗吉尼亞數據中心在早上遇到了強烈東北風暴的沖擊，而使得網絡連接出現了問題。

這場風暴切斷了AWS北弗吉尼亞地區與兩個東海岸運營商Equinix和CoreSite連接。

13.微軟Office 365，2018年 4月6日

4月6日，大量歐洲、亞州和美國的微軟客戶的電子郵件賬戶出現了問題。

其中英國受影響最為巨大，由于Office 365的宕機，許多企業無法發送郵件與登錄Skype。

一些用戶報告說他們只能使用單點登錄來登錄那些辦公生產力套件。

有些諷刺的是，這次事件距離微軟發布全新Office 365安全保護功能后僅一天。

14.AWS，2018年 5月31日

5月31日，因北弗吉尼亞地區的數據中心中的硬件問題，該云巨頭又一次出現了連接問題。

其影響時間大約為30分鐘，在此期間用戶報告說因硬件錯誤，所有的數據不能得以被全部再存儲。

該宕機是“由數據中心和一些網絡設備中的一些物理服務器上的電力事件引起的”，AWS在事后報告中寫到。

AWS的核心EC2服務，Workspaces 虛擬桌面服務以及Redshift數據倉庫服務都受到了影響。

15.微軟Azure，2018年 6月17日

由熱浪而引發的存儲和網絡中斷使得歐洲的許多微軟云客戶在17，18日兩日間與他們的數據分開了超過5小時的時間。

微軟表示，在愛爾蘭特別炎熱的夏季里，一個在愛爾蘭的數據中心恒溫系統出現了問題。

16.谷歌，2018年 7月17日

在7月17日的下午，谷歌云的宕機使得Spotify和Snapchat等熱門服務又不得不中斷。

谷歌方面稱，他們在中午就意識到了其負責均衡器的問題。宕機影響了谷歌的開發平臺App Engine、Cloud Networking和Stackdriver，后者旨在為公有云用戶提供績效與數據診斷服務。

之后，谷歌發布了一項更新，表示由該事件導致的502問題已在下午1:05時得到解決。

17.亞馬遜，2018年 7月16日

如同國內電商們的雙十一一樣，亞馬遜在美國也創造了自己的購物節日Amazon Prime Day(亞馬遜會員日)。

但是，在第四屆亞馬遜會員日當日的開幕儀式后幾分鐘，大規模的故障使得7月16日的銷售陷入了癱瘓。

AWS的發言人表示，這些問題與AWS無關。

但是對于全球電商網站來說，失敗就是失敗了，這個網站是在據說是世界上最領先的云上托管的。許多消費者乘興而來敗興而歸，得到的只有一個宕機通知。

但盡管如此，但該客戶日的銷售業績仍然破了紀錄

18.微軟，2018年 9月5日

微軟發現自己在9月的一周就在兩個方面出現了問題。

其一個，9月5日全世界用戶都遇到了部分時間時無法訪問365 Outlook或Skype for Business的情況。用戶報告說，當他們嘗試登錄微軟時，他們會受到一條錯誤消息，說“受到限制”。

微軟將這次終端歸咎于Azure后端身份驗證系統的更新問題。

與此同時，在4日到5日兩天里，微軟在圣安東尼奧的數據中心遭遇了雷擊，這導致了美國中南部區域中Azure和Office 365服務的中斷。

19.Facebook 2018年 11月12日、11月20日

對于社交網絡巨頭來說，11月是糟糕的一月，兩次宕機事件影響了大量的企業協同產品用戶。

包括Workplace協同工具在內的Facebook服務在11月12日出現宕機，在服務恢復前，其收到了數千起投訴。

短時間內，“FacebookDOWN”成為了Twitter上的熱門話題。

僅僅一個多星期后，11月20日，Facebook又出現了一起宕機事件，這是Facebook自8月以來出現的第三起重大停機事件。

有3/4的用戶報告稱從早上8點到下午早些時候，他們遇到了全面宕機或登錄困難問題。

20.微軟，2018年 11月18日

據微軟披露，11月18日，一些用戶無法登錄Azure和Office 365服務。

這次宕機影響了許多需要身份驗證而登錄云服務的用戶，并橫跨整個歐洲、亞太和美洲地區，從當地時間周日晚上11：39起開始影響Azure和Offic 365服務。

可見，公有云服務每年都會或多或少出現一些故障，人為原因、機器故障、軟件bug……等等

雖然原因不同，但是導致的結果只有一個——相關云平臺上的客戶遭殃。或丟失數據，或停止服務，或影響創新。

業內人士戲言：“世上沒有不宕機的云。”對于用戶來說，選擇多云做好互備和災難應急建設才是一勞永逸的，畢竟沒人知道：

下一次大規模公有云宕機什么時候發生？

IT人關注并加入我們加*防走丟

企業服務IT圈：聚焦全球ToB領域：甲方. 廠商. 集成商. 服務商. 渠道. ISV等生態，分享業內干貨，打造中國第一企業服務技術內容社區和社交平臺。我們根據粉絲真實崗位情況，分別設置：創業高管微信群/運維技術專家群/架構師之家/DevOps技術專家匯/ToB企業銷售互助會/ToB廠商市場人俱樂部，并為大家提供技術咨詢,營銷策劃.招聘及工作推薦等服務。請大家掃碼或者添加微信：tian1tiant,(備注個人真實職業身份信息邀請不同崗位微信群）。公眾號官方網站：qidao123.com，了解更多，ToB企業服務之家,社交平臺,限時注冊體驗更多服務！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.