25分鐘,全球28%的網(wǎng)站集體“躺平”。
??♂? 沒有黑客,沒有攻擊,是Cloudflare自己“手滑”了。
???更扎心的是,這已經(jīng)是Cloudflare兩周內(nèi)第二次“翻車”了 。
12 月 5 日,Cloudflare 節(jié)點(diǎn)開始大量返回 HTTP 500。源頭不是威脅,而是 Cloudflare 為應(yīng)對 React Server Components 暴露的嚴(yán)重漏洞所做的加固操作。可以說,這波是 Cloudflare 為替 React“背鍋”。團(tuán)隊先把 WAF 緩沖區(qū)擴(kuò)至 1MB,又關(guān)閉了一個內(nèi)部測試工具,本想更快保護(hù)開發(fā)者,卻觸發(fā)了舊版 FL1 代理中一段“沉睡多年”的 Lua 缺陷:被跳過的規(guī)則未生成對象,系統(tǒng)繼續(xù)訪問 nil,直接拋出 500。
Lua 雖在 1993 年發(fā)布、2008 年已十分成熟,但 Cloudflare 于 2009 年成立、2010 年上線后,將 Lua 作為早期網(wǎng)絡(luò)堆棧基石。這也意味著部分歷史代碼難以完全替換,bug 能在多年后被意外激活。
受影響的僅是使用舊代理+托管規(guī)則集的客戶,卻占到 28% 流量。更諷刺的是,新版 FL2 已用 Rust 重寫,并無此類問題。
更不安的是,這次事故與 11 月 18 日高度相似:緊急發(fā)版 → 全球同步生效 → 老舊路徑被擊穿 → 大規(guī)模宕機(jī)。Cloudflare 雖承諾改造發(fā)布體系,但改造尚未完成,新的事故已經(jīng)發(fā)生。
事故后,Cloudflare 宣布凍結(jié)全部網(wǎng)絡(luò)變更,并把發(fā)布流程、應(yīng)急能力與 fail-open 容錯機(jī)制列為最高優(yōu)先級。根本問題很清楚:在全球分布式系統(tǒng)中,哪怕一行多年未觸發(fā)的舊Lua代碼,只要搭配一次“全球推送”,就足以拖垮半個互聯(lián)網(wǎng)。
兩次事故密集曝光了同一個事實——在安全要求越來越高、復(fù)雜度不斷增加的互聯(lián)網(wǎng)基礎(chǔ)設(shè)施中,如何避免“被自己的更新打趴下”,已經(jīng)成為比抵御攻擊更緊迫的工程難題。
#互聯(lián)網(wǎng)迷惑行為大賞 #程序員日常 #沒想到這也能崩
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.