<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      AI持續擴展的隱憂——靜默數據損壞

      0
      分享至

      (本文編譯自Electronic Design)

      隨著晶體管尺寸不斷縮小、系統復雜度持續提升,一個不容忽視的事實愈發清晰:靜默數據損壞的發生頻率和造成的影響,遠超大多數系統架構師的預期。這類錯誤無跡可尋,極難識別,而單個錯誤就可能篡改多個獨立節點的模型權重,悄然破壞一項可能持續數周、動用超過2.5萬個圖形處理器(GPU)、成本超1億美元的訓練任務。

      即便在驗證與測試環節投入巨大成本,未被檢測到的故障仍存在于大規模人工智能部署場景中,對芯片可靠性構成嚴峻挑戰。

      若單個芯片在同步過程中引入靜默錯誤,錯誤可能會在整個集群中擴散。電氣和電子工程師協會(IEEE)的研究顯示,軟錯誤率已急劇上升——從65納米工藝下的每年一次故障,攀升至16納米工藝下的每1.5小時一次(如下圖所示)。


      圖:靜默數據損壞(SDC)之類的軟錯誤發生率顯著上升。

      Meta和阿里巴巴分別報告稱,在其人工智能及云基礎設施中,每3小時就會出現一次硬件錯誤,百萬件缺陷率(DPPM)分別為361。雖然361的百萬件缺陷率甚至數千的數值在小規模場景下可能不會引發警報,但在擁有數百萬臺設備的大規模集群中,情況會發生巨大變化,此時靜默數據損壞事件的發生頻率足以危及整個系統的可靠性。

      人工智能規模擴大,靜默數據損壞的威脅亦隨之加劇

      對于不斷擴展的生成式人工智能和機器學習(ML)工作負載(包括模型訓練、推理及高性能人工智能應用)而言,靜默數據損壞正成為日益嚴峻的可靠性威脅。這些流程往往將處理器推向性能極限,從而增加了靜默損壞的發生概率。

      與通常可通過糾錯碼緩解的內存位翻轉不同,靜默數據損壞源于細微的計算層面故障:時序違規、老化效應或常規半導體測試中遺漏的邊緣缺陷。這些錯誤會悄然扭曲整個計算過程,但往往不會觸發警報,直到呈現為錯誤輸出或潛在有缺陷的決策時才會被發現。人工智能系統規模越大、復雜度越高,此類故障發生的可能性就越大,造成的影響也越嚴重。

      傳統冗余方法可保護內存和通信路徑,但對執行層面的故障幾乎無能為力,而執行層面故障正是現代人工智能環境中靜默數據損壞的主要來源。現實中的后果輕則是幾乎難以察覺的計算誤差,重則是影響業務的嚴重故障。行業報告已記錄多起相關案例,包括因有缺陷的CPU的數學運算錯誤導致數據庫文件丟失,以及存儲應用程序因缺陷CPU出現用戶數據校驗和不匹配的情況。

      遏制靜默數據損壞問題的嘗試

      隨著工藝節點不斷微縮、芯片架構日益先進,掃描自動測試圖形生成(ATPG)、內置自測試(BIST)以及基礎功能測試等傳統測試方法已難以跟上步伐。這些方法雖足以檢測出離散的制造缺陷,卻往往無法識別導致靜默數據損壞的更細微的半導體工藝偏差。

      這就形成了一個長期存在的監測盲區,凸顯了現場監測的必要性。據Meta稱,調試靜默數據損壞問題可能需要數月時間。排查這類無跡可尋的故障不僅需要巧思,還通常要投入大量資源。更糟糕的是,盡管耗費了巨額成本,許多靜默數據損壞的調查仍以無果告終,這實際上加劇了不確定性。

      在2023年亞洲測試會議(ITC-Asia)的一場會議中,博通(Broadcom)報告稱,其高達50%的靜默數據損壞調查最終未能找到解決方案,被標記為“未發現故障(No Trouble Found)”。這些挑戰凸顯了傳統測試方法的局限性,也迫切需要更先進的解決方案。

      現場測試同樣存在漏洞。使用預兆單元(canary circuits)的原位測試方法,往往無法監測到實際的關鍵路徑時序裕量,該裕量可能會因芯片老化和工藝偏差而減小。正如《MRHIEP》中所提及的,隨著單芯片內部差異的不斷增大,這一問題已變得至關重要。

      定期維護測試的靈敏度也可能不足,大多只能識別明顯的故障,卻忽略了與單錯糾正(SEC)相關的更細微問題。此外,由于測試設備會從集群中移除,這類測試缺乏原位監測所具備的真實工作環境,導致那些可能引發靜默數據損壞的細微異常仍無法被檢測到。

      一些機構嘗試通過冗余計算方法克服這些局限,即在多個內核上重復執行計算,僅當所有內核都產生相同結果時,才認定計算正確。盡管這種方法可以防止靜默數據損壞的擴散,但它對硬件要求極高、成本高昂,且在超大規模場景下不具備可擴展性。

      解決SDC的兩階段檢測方案

      隨著數據中心規模不斷擴大、能源需求持續攀升,投入大量工程時間追蹤數千臺服務器中難以察覺的故障已不再具備可持續性。一種具備可擴展性的解決方案在于更先進的測試方法,即基于人工智能的兩階段深度數據檢測技術。

      在芯片制造和現場運行兩個階段實施多階段檢測,既能幫助芯片制造商重獲產品可靠性,也能讓集群運營商重新建立對硬件的信心。通過深度數據可視性對多個階段進行監測,可大幅提高在易發生靜默數據損壞的組件失效前將其檢測出來的概率。

      要實現有效檢測,測試必須突破“合格/不合格”的二元分級模式。采用考慮工藝偏差和預測性能裕量的參數分級進行更高粒度的芯片測試,即便某些設備在技術上通過了標準測試,也能標記出異常設備。這可防止“勉強能用”的問題芯片流入生產集群。

      實現這一級別的檢測需要轉變芯片診斷思路:從邊界檢查轉向基于嵌入式人工智能的遙測技術,對每臺設備的健康狀態進行持續評估。通過在芯片中嵌入智能模塊,并將機器學習應用于豐富的遙測數據,能夠在制造階段和整個現場運行周期內實現持續的狀態可視性。

      人工智能算法可以檢測到傳統測試方法所忽略的細微參數偏差,并預測故障模式,在潛在漏洞導致靜默故障的很早之前就將其識別出來。這種前瞻性的、數據驅動的方法能夠及早發現漏洞,并為芯片分檔、部署以及集群級可靠性管理提供更明智的決策依據,且無需增加大量成本或導致延誤。

      隨著人工智能規模持續擴大,未被檢測到的故障所帶來的成本也將隨之上升。靜默數據損壞已不再是理論上的隱患,而是對性能、可靠性和業務構成的實際風險。傳統測試方法并非為應對這一挑戰而設計,而融合深度數據、全生命周期監測和人工智能驅動分析的新解決方案則提供了一條清晰的前進路徑。借助兩階段檢測方案,行業最終能夠在靜默數據損壞擾亂系統之前,搶占先機,對其進行有效遏制。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      嘲諷曼聯?霍伊倫社媒曬奪冠照:多么偉大的決定啊

      嘲諷曼聯?霍伊倫社媒曬奪冠照:多么偉大的決定啊

      懂球帝
      2025-12-23 12:03:08
      全臺民眾普發現金后,賴清德狂言要幫大陸,解密臺灣經濟發展真相

      全臺民眾普發現金后,賴清德狂言要幫大陸,解密臺灣經濟發展真相

      海峽導報社
      2025-12-22 16:16:02
      女性“最佳生育年齡”出爐,產科大夫:過了這個年齡就建議別生了

      女性“最佳生育年齡”出爐,產科大夫:過了這個年齡就建議別生了

      岐黃傳人孫大夫
      2025-12-23 07:50:02
      燕郊房子腰斬成“打腿斬”,當年首付120萬如今全打水漂

      燕郊房子腰斬成“打腿斬”,當年首付120萬如今全打水漂

      青眼財經
      2025-12-21 23:38:13
      何穗首談生產感受,懷胎10月不是取舍,不做超人媽媽,也會不開心

      何穗首談生產感受,懷胎10月不是取舍,不做超人媽媽,也會不開心

      瘋說時尚
      2025-12-23 14:15:56
      南博事件梳理清楚了!60年代文物鑒定報告流出,平均一天看1700件

      南博事件梳理清楚了!60年代文物鑒定報告流出,平均一天看1700件

      火山詩話
      2025-12-21 16:04:57
      《血色浪漫》劇組21年后重聚首!劉燁連奕名現身,女主孫儷缺席

      《血色浪漫》劇組21年后重聚首!劉燁連奕名現身,女主孫儷缺席

      小咪侃娛圈
      2025-12-23 14:10:20
      蘇聯曾經有多強大?看看這些圖片

      蘇聯曾經有多強大?看看這些圖片

      航空知識
      2025-12-21 23:10:41
      好消息!泰山俱樂部迎來新主教練,曾執教國家女足,是韓鵬的恩師

      好消息!泰山俱樂部迎來新主教練,曾執教國家女足,是韓鵬的恩師

      體壇鑒春秋
      2025-12-23 13:56:08
      大部分上岸的人,離開原單位,都是后悔的

      大部分上岸的人,離開原單位,都是后悔的

      記憶承載
      2025-12-22 11:33:02
      金正恩攜夫人和女兒現身三池淵旅游區

      金正恩攜夫人和女兒現身三池淵旅游區

      IN朝鮮
      2025-12-23 11:35:28
      高市二次求見特朗普,不到24小時,美明確表態,不在中日間選邊站

      高市二次求見特朗普,不到24小時,美明確表態,不在中日間選邊站

      博覽歷史
      2025-12-22 17:43:12
      對華合約全部撕毀!中國又一伙伴背后捅刀,攬走大單倒向美國

      對華合約全部撕毀!中國又一伙伴背后捅刀,攬走大單倒向美國

      策前論
      2025-12-23 17:13:40
      金價徹底爆了!外地顧客來不及放下行李箱,趕到金店“搶促銷”!周生生金飾報1403元/克,網友:再也回不到3位數了

      金價徹底爆了!外地顧客來不及放下行李箱,趕到金店“搶促銷”!周生生金飾報1403元/克,網友:再也回不到3位數了

      每日經濟新聞
      2025-12-23 17:45:23
      同樣是輸3場,今年雷霆26勝3負,16年勇士多少勝3負?差距真不小

      同樣是輸3場,今年雷霆26勝3負,16年勇士多少勝3負?差距真不小

      大西體育
      2025-12-23 16:04:31
      明年中超好看了!又1五大聯賽國腳外援加盟:曾賣出1000萬歐

      明年中超好看了!又1五大聯賽國腳外援加盟:曾賣出1000萬歐

      邱澤云
      2025-12-23 14:15:10
      搞笑神回復:真中了兄弟們!沒敢告訴家里人,現在打字手都在抖!

      搞笑神回復:真中了兄弟們!沒敢告訴家里人,現在打字手都在抖!

      夜深愛雜談
      2025-12-23 17:44:25
      國家下的百年大棋!海南封關的終極目的:為14億人飯碗筑防火墻?

      國家下的百年大棋!海南封關的終極目的:為14億人飯碗筑防火墻?

      現代小青青慕慕
      2025-12-22 23:59:09
      “媽媽,我好累,讓我睡一分鐘吧”話剛說完,孩子就這樣離開了

      “媽媽,我好累,讓我睡一分鐘吧”話剛說完,孩子就這樣離開了

      大果小果媽媽
      2025-08-01 20:51:22
      再見皇馬!19歲新大羅官宣!不受姆巴佩壓制,遠赴法甲沖金靴打臉

      再見皇馬!19歲新大羅官宣!不受姆巴佩壓制,遠赴法甲沖金靴打臉

      阿泰希特
      2025-12-23 12:35:17
      2025-12-23 18:32:49
      TechSugar incentive-icons
      TechSugar
      做你身邊值得信賴的科技新媒體
      4949文章數 12726關注度
      往期回顧 全部

      科技要聞

      慘烈90分鐘!快手驚魂:遭遇最強黑產攻擊

      頭條要聞

      26歲女生做團播作息顛倒月入26塊:那些大哥就是想睡我

      頭條要聞

      26歲女生做團播作息顛倒月入26塊:那些大哥就是想睡我

      體育要聞

      楊瀚森連續5場DNP!開拓者遭活塞雙殺

      娛樂要聞

      朱孝天回應阿信感謝,自曝沒再收到邀約

      財經要聞

      祥源系百億產品爆雷 浙金中心18人被拘

      汽車要聞

      四款新車集中發布 星途正式走進3.0時代

      態度原創

      房產
      游戲
      時尚
      本地
      手機

      房產要聞

      獨家猛料!16.1億,浙江老板搶下雅居樂清水灣261畝重磅宅地!

      擦邊整活界的牢大!這尺度真的是能免費看的嗎?盤點2025澀澀游戲

      推廣|| 用完立馬復購!百元get大牌膚感

      本地新聞

      云游安徽|宣城何以動人心,百年塔影一城徽韻

      手機要聞

      驍龍8s Gen4新機配置曝光:一加Turbo或搭載9K級大電池與165Hz直屏

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲熟女综合一区二区三区| 一区二区三区无码高清视频| 91网在线| 欧洲一区二区三区| 老色鬼在线精品视频在线观看| 少妇人妻偷人精品视频| 97超碰自拍| 久久夜色撩人精品国产av| 巨人精品福利官方导航| 亚洲精品一区二区三区在线观看| 67194欧洲| 亚洲乱码精品中文字幕| 久久国产精品久久久久久| 久操不卡| 黄色www| 99久无码中文字幕一本久道| 亚洲不卡中文字幕| 日本youjizz| 自拍偷拍亚洲| 日韩美a一级毛片| 欧美乱大交xxxxx疯狂俱乐部| 国模精品无码| 久久国产东京热加勒比| 亚洲人成网站在线观看播放不卡| 色伊人亚洲综合网站| 尤物yw193无码点击进入| 遵义县| 国内视频自拍| 国产女人18毛片水真多1| 欧美成人秋霞久久aa片| 久久九九兔免费精品6| 克拉玛依市| 日韩A视频| 激情综合网激情综合| 国产美女久久久亚洲综合| av天堂午夜精品一区| 一卡二卡成人| 91亚洲视频| 亚洲国产精品久久久久婷婷图片| 无码少妇a片一区二区三区| 国产成人精品午夜福利在线观看|