公眾號記得加星標??,第一時間看推送不會錯過。
“在汽車、飛機、人工智能工廠的設計領域……你必須做到完美,”英偉達首席執行官黃仁勛上個月在CNBC節目中表示。“原因在于,這其中牽涉到太多利益。”
汽車和飛機必須極其可靠,因為一旦發生故障,就會造成人員傷亡。在人工智能數據中心,系統故障雖然不會造成人員傷亡,但其經濟影響卻極其巨大,因為亞馬遜、谷歌和微軟都是市值萬億美元的公司。它們的客戶依賴它們來驅動龐大的經濟引擎,而一旦系統宕機,這些引擎就無法盈利。
例如,12月初,伊利諾伊州一個數據中心發生10小時的故障,導致全球貨幣和大宗商品市場(從黃金到石油再到利率)的交易暫停。
數據中心可靠性標準與策略
云服務提供商在全球運營著數百個巨型數據中心,這些數據中心通過數千英里的光纖連接在一起。它們是世界上規模最大、最復雜的計算機。
數據中心基礎設施的設計旨在實現極高的可靠性,并提供多種選擇。例如,谷歌提供的正常運行時間從 99.9%(每月最大停機時間為 43 分鐘)到 99.999%(每月最大停機時間僅為 26 秒)不等。我的筆記本電腦崩潰的次數都比這多。如此高的可靠性是通過跨多個區域(數據中心)部署軟件來實現的,該軟件能夠快速地在數據中心之間轉移負載,從而避免單點故障。這需要投入一定的資源來實現冗余的并行計算和存儲。如果您托管的是一個全球交易平臺,那么這些投入是值得的。存儲采用雙副本設計,因此即使一個副本丟失或不可用,系統也能依靠另一個副本繼續運行。
數據中心遠不止是半導體設備那么簡單。為了確保最高的可靠性,數據中心配備了冗余冷卻系統。如果一套系統發生故障,另一套系統會立即接管。電力分配也采用了冗余設計,備用單元會在必要時啟動。此外,如果電網斷電,電池或發電機也會自動啟動供電。
半導體可靠性的高層戰略與其他數據中心部分類似:
設計高可靠性的組件;
設計組件和系統,以便及早發現故障跡象并優先修復;
增加冗余,以便在運行過程中某個組件發生故障時,能夠迅速識別出故障原因,并由備用組件接管。
數據中心可靠性的半導體架構策略
數據中心芯片的設計必須盡可能可靠,但故障仍然難以避免。因此,數據中心芯片和子系統需要采用容錯架構。
數據中心擁有成千上萬臺相同的服務器、交換機等設備。如果一臺服務器或機架出現故障,可以通過其他方式進行替換。
ECC:數據中心CPU使用ECC內存以提高可靠性。自HBM2以來,HBM內存就集成了片上ECC。HBM3則使用更強大的里德-所羅門碼。HBM還具有冗余數據總線通道,因此如果在運行過程中出現通道故障,可以將其重新映射到備用功能通道。
網絡冗余擴展:NVLink 是英偉達的超級競爭優勢,它允許更大的 pod 規模,同時保持 GPU 之間極低的延遲。但為什么英偉達使用的是 NVLink72 而不是 64 呢?英偉達建議使用 64 個 GPU 運行,并保留 8 個作為備用(或處于待機狀態,運行低優先級、可搶占式工作負載)。同樣,雖然 64 個 GPU 只需要 16 個交換機,但 NVLink 卻使用了 18 個交換機。在 NVLink 中,每個交換機都連接到每個 GPU。這不僅允許調節 GPU 之間的帶寬,還意味著即使某個交換機發生故障,也可以在不影響性能的情況下進行映射。在 NVLink72 持續運行的情況下,可以熱插拔故障的交換機或計算托架,從而恢復完整的冗余,實現最高的可靠性。
幾個月前,SemiAnalysis 報道稱,NVL72 背板的信號完整性問題(至少在當時)會導致數據錯誤,而這些錯誤可能需要數小時才能定位和修復。NVL72 的修復時間比上一代產品長一個數量級。隨著電頻率的提高以提升芯片性能,由于信號完整性問題,數據傳輸的可靠性會降低。為了利用光傳輸的更遠傳輸距離來增大芯片尺寸,還需要通過切換到光傳輸來提高可靠性,因為光傳輸不存在串擾或電磁信號完整性問題。
橫向擴展網絡冗余:如今的橫向擴展系統主要基于以太網,以太網采用數據包傳輸方式,并能確保數據包的重試和備用路由(如有需要)。每個數據包都會進行錯誤檢查和數據有效載荷的糾正。快速生成樹協議 (RSTP) 能夠在幾毫秒內將故障的主路徑切換到備用路徑。這種網絡的魯棒性非常高,但代價是延遲。盡管如此,目前所有數據中心仍然采用這種方式連接機架和設備。
光路開關:在去年12月的瑞銀科技大會上,相干公司首席執行官吉姆·安德森表示:“我們非常喜歡OCS。” OCS即光路開關。谷歌率先開發了OCS技術,并將其應用于TPU超級芯片。光路開關能夠在幾毫秒內將數百路光纖輸入重新路由到數百路光纖輸出。這帶來了諸多優勢。其中一項優勢是能夠繞過故障芯片快速重新路由高帶寬數據。
![]()
熱插拔:如果可能的話,系統應該設計成模塊化和熱插拔的,這樣如果需要更換某個部件,就可以快速、輕松地完成,并將中斷降到最低。
半導體元件設計可靠性
與其他大多數半導體應用不同,機械工程對于數據中心的可靠性至關重要。如今,人工智能加速器采用封裝形式,將多個 XPU 和 HBM 芯片集成在有機基板上的 CoWoS 中介層上,并通過焊接方式連接到印刷電路板 (PCB) 上。這種“三明治”結構中各元件之間材料和溫度的差異,以及層間數千個鍵的相互作用,都可能導致物理連接出現翹曲和斷裂的風險。
數據中心運行的某些方面對可靠性的要求較低:
工作溫度:Nvidia Blackwell GPU 的最高工作溫度為 85°C 結溫(晶體管的溫度)。AMD Epyc 處理器的典型最高工作溫度為 95°C 結溫,但可短暫達到 105°C 結溫。這些溫度遠低于汽車級應用(最高可達 125°C 結溫),原因有三:1)功耗隨溫度呈指數級增長;2)隨著溫度升高,可靠性下降——例如金屬遷移;3)在數據中心,昂貴的冷卻系統能夠有效降低功耗并提高可靠性,因此具有經濟可行性。
使用壽命:汽車的使用壽命通常為 10 年、15 年或 20 年。但數據中心的使用壽命要短得多。《華爾街日報》近期討論了主要超大規模數據中心出于會計目的的預計使用壽命,其范圍在 5 到 6 年之間。從這個意義上講,數據中心就像 iPhone 一樣。5 年或更長時間后,就會出現更好的產品,因此升級而不是繼續運行舊技術更經濟,尤其是在世界大部分地區電力供應有限的情況下。即使使用壽命很短,可靠性設計仍然至關重要,以確保在使用壽命期間的故障率盡可能低。
廣泛的可靠性數據:另一方面,5 年的使用壽命意味著,當部署新的加速器/CPU/網絡時,必須迅速將其投入運行。這就像 iPhone 的上線啟動一樣。
超大規模數據中心運營商想要最好的技術,但只有在有大量可靠性數據可用時才會部署。
對于每一種半導體元件,客戶都希望看到廣泛的可靠性和壓力測試,從而實現極低的故障率(每十億器件小時的故障次數)。這可能涉及在高溫、高頻率下對成千上萬個器件進行數月的測試,成本高昂。
故障預測與隔離:但這還不夠。客戶需要片上遙測技術來追蹤故障的先行指標,以便在設備發生故障之前主動更換設備。例如,在通信設備中,誤碼率 (BER) 的增加可能就是一個早期預警指標。
如果設備發生故障,它應該能夠自我診斷并發出警報,以便快速定位并修復錯誤。如今在數據中心,追溯故障根源可能需要數小時。
數據中心供應商需要獲取芯片的遙測數據,以便改進故障預測能力。此外,他們還需要故障分析專家來確定故障原因和具體故障所在,從而為提高可靠性的設計改進提供反饋,并調整固件設置以減少磨損和/或提高故障預測能力。
數據中心是當今半導體最大的市場。要想在這個市場中脫穎而出,你需要兼具高性能、低功耗和低成本。但如果沒有高可靠性的架構、固件和設計,你就無法獲得市場認可。
https://semiengineering.com/data-centers-need-high-reliability-semiconductors/
(來源:編譯自semiengineering)
*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯系半導體行業觀察。
今天是《半導體行業觀察》為您分享的第4286期內容,歡迎關注。
加星標??第一時間看推送
求推薦
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.