當(dāng)“云”遇到“火”……
9月10日,阿里云位于新加坡的可用區(qū)C數(shù)據(jù)中心發(fā)生了一場火災(zāi)。
根據(jù)外媒的報(bào)道,這次的火災(zāi)真不小。據(jù)悉,當(dāng)天早上是在約 8 點(diǎn)發(fā)生的機(jī)房火災(zāi),截至 11 日下午 8 點(diǎn),持續(xù) 了36 小時(shí),仍未完全撲滅。
而且,這場火災(zāi)還讓Lazada 和字節(jié)跳動(dòng)等主要科技公司托管的服務(wù)嚴(yán)重中斷,導(dǎo)致還使用云平臺(tái)的內(nèi)部團(tuán)隊(duì)和賣家出現(xiàn)大面積錯(cuò)誤。
![]()
![]()
阿里云創(chuàng)立于2009年,是阿里巴巴集團(tuán)旗下的云計(jì)算及人工智能科技公司。從早前的公開信息來看,阿里云新加坡數(shù)據(jù)中心于2015年9月份開放,按照當(dāng)時(shí)的說法,新加坡數(shù)據(jù)中心啟用后,將輻射規(guī)模百億級(jí)的亞太市場,同時(shí)為“出海”的中國企業(yè)提供優(yōu)質(zhì)的云計(jì)算服務(wù)。
據(jù)悉,此次事故始于當(dāng)?shù)貢r(shí)間周二上午,有群眾在事發(fā)前聽到爆炸聲,隨后數(shù)據(jù)中心冒出滾滾濃煙,現(xiàn)場能聞到一股嗆鼻的燒焦味。事故發(fā)生在數(shù)據(jù)中心一棟建筑的電池室內(nèi),鋰電池爆炸的威力巨大,瞬間引發(fā)了火災(zāi),并使得火勢(shì)迅速蔓延。
新加坡消防局發(fā)表公告稱,火患波及數(shù)據(jù)中心三樓閣樓內(nèi)的兩個(gè)電池房、兩個(gè)電源房和一個(gè)設(shè)備儲(chǔ)藏室。
另有消息稱,新加坡消防局11日仍在現(xiàn)場處理風(fēng)險(xiǎn),阿里云運(yùn)維工程師正等待進(jìn)入機(jī)房,若現(xiàn)場評(píng)估結(jié)果無法就地恢復(fù),將實(shí)施服務(wù)器設(shè)備遷移恢復(fù)方案。
根據(jù)阿里云發(fā)布的官方聲明,因?yàn)榇舜问鹿剩潢P(guān)鍵云產(chǎn)品受到影響,包括云數(shù)據(jù)庫 Redis、MongoDB、RDS MySQL,對(duì)象存儲(chǔ) OSS,表存儲(chǔ) OTS 以及云原生大數(shù)據(jù)計(jì)算服務(wù) MaxCompute。
對(duì)于包括跨境電商、在線教育等在內(nèi)的高度依賴云服務(wù)的行業(yè)而言,服務(wù)中斷意味著用戶體驗(yàn)的下滑乃至直接的經(jīng)濟(jì)損失。阿里云新加坡數(shù)據(jù)中心的這次故障,導(dǎo)致部分用戶服務(wù)中斷,包括網(wǎng)站訪問緩慢、API調(diào)用失敗、云存儲(chǔ)服務(wù)不可達(dá)等一系列問題接踵而至。
不過,今日早些時(shí)候,阿里云更新了新加坡可用區(qū)C機(jī)房火災(zāi)事件進(jìn)展稱,今日凌晨,大部分受到網(wǎng)絡(luò)影響的云產(chǎn)品已恢復(fù)正常服務(wù)。剩余斷電的機(jī)房業(yè)務(wù)仍需等待物理?xiàng)l件的恢復(fù)。昨晚20:23,消防部門仍在處理大樓現(xiàn)場風(fēng)險(xiǎn)中,運(yùn)維工程師正在等待獲準(zhǔn)進(jìn)入機(jī)房大樓。如現(xiàn)場評(píng)估后不具備原地恢復(fù)的物理?xiàng)l件,應(yīng)急小組將執(zhí)行服務(wù)器設(shè)備遷移恢復(fù)預(yù)案。
這也得到了一些客戶的印證,某網(wǎng)購平臺(tái)在社交媒體上對(duì)外表示,由于使用的阿里云服務(wù)器(新加坡機(jī)房)突發(fā)火災(zāi)事故,導(dǎo)致自家的APP、后臺(tái)系統(tǒng)及司機(jī)配送系統(tǒng)自澳洲時(shí)間9月10日20:00起無法正常使用。經(jīng)過與阿里云團(tuán)隊(duì)的緊密溝通和修復(fù),系統(tǒng)已于9月11日12:00恢復(fù)正常,消費(fèi)者可以正常下單。
當(dāng)然,從官方通過媒體播報(bào)出來的這一進(jìn)展來看,火災(zāi)的沖擊波并非完全處理結(jié)束。
有意思的是,同行AWS 的銷售還趁機(jī)打了一波自家產(chǎn)品的廣告。
![]()
結(jié)合不少阿里云的客戶在社交媒體上紛紛感嘆此次事故來看,阿里云的品牌形象似乎也受到了一定影響。“剛剛從AWS轉(zhuǎn)到阿里云就出了這樣的事情……”、“停機(jī)24h了還沒恢復(fù),阿里云你知道這意味著什么嗎?”“別光看賬單上便宜那點(diǎn)事!”
過去,阿里云已經(jīng)因?yàn)轭l頻出現(xiàn)的事故備受矚目。
2022年12月因阿里云香港地區(qū)機(jī)房故障宕機(jī),多家公司和TOG部門網(wǎng)站癱瘓,數(shù)小時(shí)無法提供正常服務(wù),這也是阿里云運(yùn)營十多年來持續(xù)時(shí)間最長的一次大規(guī)模故障。
2023年11月12日,阿里云出現(xiàn)了一次故障,除了淘寶,釘釘,閑魚,還有大量依賴阿里云服務(wù)的應(yīng)用都出現(xiàn)了問題。阿里云官方的服務(wù)狀態(tài)頁顯示,全球范圍內(nèi)所有可用區(qū)x所有服務(wù)全部都出現(xiàn)異常,時(shí)間從17:44到21:11,共計(jì)3小時(shí)16分鐘。
同年11月27日,阿里云再次出現(xiàn)故障,北京、上海、杭州、深圳、青島、香港以及美東、美西地域的數(shù)據(jù)庫產(chǎn)品的控制臺(tái)和Open API訪問出現(xiàn)異常,持續(xù)時(shí)間約2小時(shí)。
今年7月2日,阿里云健康狀態(tài)發(fā)布公告稱,上海可用區(qū)N出現(xiàn)網(wǎng)絡(luò)訪問異常。公告稱,北京時(shí)間2024年07月02日10:04,阿里云監(jiān)控發(fā)現(xiàn)上海地域可用區(qū)N網(wǎng)絡(luò)訪問出現(xiàn)異常,阿里云工程師正在緊急處理中。10:35 阿里云工程師完成網(wǎng)絡(luò)切流調(diào)度,上海可用區(qū)N網(wǎng)絡(luò)訪問開始恢復(fù)。10:42 經(jīng)過處理受影響產(chǎn)品服務(wù)恢復(fù)。
在數(shù)字化浪潮席卷全球的今天,云計(jì)算作為信息技術(shù)的基石,其穩(wěn)定性與安全性直接關(guān)系到萬千企業(yè)的業(yè)務(wù)命脈。
事實(shí)上,包括谷歌、法國OVH、韓國SK公司等在內(nèi)的巨頭也發(fā)生過類似的事件。2022年10月15日,韓國SK公司C&C板橋數(shù)據(jù)中心發(fā)生火災(zāi),大火在大約8小時(shí)后被撲滅。起火后數(shù)據(jù)中心斷電造成韓國國民級(jí)聊天軟件Kakao Talk、主流電商平臺(tái)NAVER等在內(nèi)的眾多網(wǎng)絡(luò)服務(wù)中斷。據(jù)《韓國時(shí)報(bào)》報(bào)道,這次火災(zāi)導(dǎo)致了約3.2萬個(gè)服務(wù)器癱瘓,數(shù)千萬用戶服務(wù)受到影響。
數(shù)據(jù)中心的底座作用毋庸置疑,而包括火災(zāi)在內(nèi)的事故嚴(yán)重威脅數(shù)據(jù)中心安全,將造成巨大的損失。所以,不僅僅是阿里云,這是整個(gè)行業(yè)都需要更為嚴(yán)謹(jǐn)對(duì)待的問題。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.