(本文編譯自Electronic Design)
隨著晶體管尺寸不斷縮小、系統復雜度持續提升,一個不容忽視的事實愈發清晰:靜默數據損壞的發生頻率和造成的影響,遠超大多數系統架構師的預期。這類錯誤無跡可尋,極難識別,而單個錯誤就可能篡改多個獨立節點的模型權重,悄然破壞一項可能持續數周、動用超過2.5萬個圖形處理器(GPU)、成本超1億美元的訓練任務。
即便在驗證與測試環節投入巨大成本,未被檢測到的故障仍存在于大規模人工智能部署場景中,對芯片可靠性構成嚴峻挑戰。
若單個芯片在同步過程中引入靜默錯誤,錯誤可能會在整個集群中擴散。電氣和電子工程師協會(IEEE)的研究顯示,軟錯誤率已急劇上升——從65納米工藝下的每年一次故障,攀升至16納米工藝下的每1.5小時一次(如下圖所示)。
![]()
圖:靜默數據損壞(SDC)之類的軟錯誤發生率顯著上升。
Meta和阿里巴巴分別報告稱,在其人工智能及云基礎設施中,每3小時就會出現一次硬件錯誤,百萬件缺陷率(DPPM)分別為361。雖然361的百萬件缺陷率甚至數千的數值在小規模場景下可能不會引發警報,但在擁有數百萬臺設備的大規模集群中,情況會發生巨大變化,此時靜默數據損壞事件的發生頻率足以危及整個系統的可靠性。
人工智能規模擴大,靜默數據損壞的威脅亦隨之加劇
對于不斷擴展的生成式人工智能和機器學習(ML)工作負載(包括模型訓練、推理及高性能人工智能應用)而言,靜默數據損壞正成為日益嚴峻的可靠性威脅。這些流程往往將處理器推向性能極限,從而增加了靜默損壞的發生概率。
與通常可通過糾錯碼緩解的內存位翻轉不同,靜默數據損壞源于細微的計算層面故障:時序違規、老化效應或常規半導體測試中遺漏的邊緣缺陷。這些錯誤會悄然扭曲整個計算過程,但往往不會觸發警報,直到呈現為錯誤輸出或潛在有缺陷的決策時才會被發現。人工智能系統規模越大、復雜度越高,此類故障發生的可能性就越大,造成的影響也越嚴重。
傳統冗余方法可保護內存和通信路徑,但對執行層面的故障幾乎無能為力,而執行層面故障正是現代人工智能環境中靜默數據損壞的主要來源。現實中的后果輕則是幾乎難以察覺的計算誤差,重則是影響業務的嚴重故障。行業報告已記錄多起相關案例,包括因有缺陷的CPU的數學運算錯誤導致數據庫文件丟失,以及存儲應用程序因缺陷CPU出現用戶數據校驗和不匹配的情況。
遏制靜默數據損壞問題的嘗試
隨著工藝節點不斷微縮、芯片架構日益先進,掃描自動測試圖形生成(ATPG)、內置自測試(BIST)以及基礎功能測試等傳統測試方法已難以跟上步伐。這些方法雖足以檢測出離散的制造缺陷,卻往往無法識別導致靜默數據損壞的更細微的半導體工藝偏差。
這就形成了一個長期存在的監測盲區,凸顯了現場監測的必要性。據Meta稱,調試靜默數據損壞問題可能需要數月時間。排查這類無跡可尋的故障不僅需要巧思,還通常要投入大量資源。更糟糕的是,盡管耗費了巨額成本,許多靜默數據損壞的調查仍以無果告終,這實際上加劇了不確定性。
在2023年亞洲測試會議(ITC-Asia)的一場會議中,博通(Broadcom)報告稱,其高達50%的靜默數據損壞調查最終未能找到解決方案,被標記為“未發現故障(No Trouble Found)”。這些挑戰凸顯了傳統測試方法的局限性,也迫切需要更先進的解決方案。
現場測試同樣存在漏洞。使用預兆單元(canary circuits)的原位測試方法,往往無法監測到實際的關鍵路徑時序裕量,該裕量可能會因芯片老化和工藝偏差而減小。正如《MRHIEP》中所提及的,隨著單芯片內部差異的不斷增大,這一問題已變得至關重要。
定期維護測試的靈敏度也可能不足,大多只能識別明顯的故障,卻忽略了與單錯糾正(SEC)相關的更細微問題。此外,由于測試設備會從集群中移除,這類測試缺乏原位監測所具備的真實工作環境,導致那些可能引發靜默數據損壞的細微異常仍無法被檢測到。
一些機構嘗試通過冗余計算方法克服這些局限,即在多個內核上重復執行計算,僅當所有內核都產生相同結果時,才認定計算正確。盡管這種方法可以防止靜默數據損壞的擴散,但它對硬件要求極高、成本高昂,且在超大規模場景下不具備可擴展性。
解決SDC的兩階段檢測方案
隨著數據中心規模不斷擴大、能源需求持續攀升,投入大量工程時間追蹤數千臺服務器中難以察覺的故障已不再具備可持續性。一種具備可擴展性的解決方案在于更先進的測試方法,即基于人工智能的兩階段深度數據檢測技術。
在芯片制造和現場運行兩個階段實施多階段檢測,既能幫助芯片制造商重獲產品可靠性,也能讓集群運營商重新建立對硬件的信心。通過深度數據可視性對多個階段進行監測,可大幅提高在易發生靜默數據損壞的組件失效前將其檢測出來的概率。
要實現有效檢測,測試必須突破“合格/不合格”的二元分級模式。采用考慮工藝偏差和預測性能裕量的參數分級進行更高粒度的芯片測試,即便某些設備在技術上通過了標準測試,也能標記出異常設備。這可防止“勉強能用”的問題芯片流入生產集群。
實現這一級別的檢測需要轉變芯片診斷思路:從邊界檢查轉向基于嵌入式人工智能的遙測技術,對每臺設備的健康狀態進行持續評估。通過在芯片中嵌入智能模塊,并將機器學習應用于豐富的遙測數據,能夠在制造階段和整個現場運行周期內實現持續的狀態可視性。
人工智能算法可以檢測到傳統測試方法所忽略的細微參數偏差,并預測故障模式,在潛在漏洞導致靜默故障的很早之前就將其識別出來。這種前瞻性的、數據驅動的方法能夠及早發現漏洞,并為芯片分檔、部署以及集群級可靠性管理提供更明智的決策依據,且無需增加大量成本或導致延誤。
隨著人工智能規模持續擴大,未被檢測到的故障所帶來的成本也將隨之上升。靜默數據損壞已不再是理論上的隱患,而是對性能、可靠性和業務構成的實際風險。傳統測試方法并非為應對這一挑戰而設計,而融合深度數據、全生命周期監測和人工智能驅動分析的新解決方案則提供了一條清晰的前進路徑。借助兩階段檢測方案,行業最終能夠在靜默數據損壞擾亂系統之前,搶占先機,對其進行有效遏制。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.