把內存想象成一個超級大的居民樓
一棟樓 = 一顆DRAM芯片(或者一個Rank)
每一層 = 一個Row(行)
每層有64個房間 = 64個Column(一行的64個bit)
每個房間里住一個人(存1 bit數據:0或者1)
正常情況下,這棟樓住了幾億人,干干凈凈。
![]()
但工廠造樓的時候難免有質量問題:
有的房間墻裂了
有的地板漏水
有的門鎖壞了
這些人(bit)住進去就容易翻車,隨時可能數據錯(軟錯誤)或者徹底死翹翹(硬錯誤)。
PPR 就是“樓管阿姨的維修大法”
DRAM廠家很聰明,他們在蓋樓的時候,每一層(每個Row)都偷偷多準備了幾個“備用房間”(spare row cells),平時鎖著門不讓人住。
一旦發現某一行(某個Row)壞了太多,樓管阿姨(內存控制器)就可以啟動 PPR 維修模式,把壞的那一層整層搬家到備用房間去!
搬完家以后,原來的壞房間門牌號永久作廢,所有人以后想找這行數據,都自動重定向到新的備用房間。
這就叫 Post Package Repair —— 芯片已經封裝好出廠了(Post Package),還能自己修自己!
兩種維修方式:硬修 vs 軟修(hPPR vs sPPR)
硬 PPR(hard Post Package Repair)
類比:找裝修隊把壞房間徹底砸了重建,貼瓷磚、刷油漆,永久性大修。
特點:
修完一輩子都不壞
修好后寫進芯片內部的“防熔絲”(eFuse/antifuse)里
斷電也不丟,相當于永久換房產證
缺點:修一次要幾秒到幾十秒,期間這顆芯片完全不能用,得停機
軟 PPR(soft Post Package Repair)
類比:樓管阿姨拿膠帶把壞房間門貼上,貼個箭頭指到備用房:“以后都去新房拿東西”。
特點:
超級快!通常只要幾百毫秒甚至更快
不用停機,可以在線修(live repair)
缺點:一斷電膠帶就掉了,下次開機又得重貼(修的信息存在寄存器里,掉電丟失)
所以:
數據中心、服務器、AI集群最愛用 sPPR,因為不能停機
消費級電腦、手機基本沒這功能,或者只支持 hPPR 出廠修一次
現代 DDR5、LPDDR5、HBM3 幾乎都支持 PPR。
一臺服務器跑一年,內存累計校正錯誤(CE)幾萬次是常態。
一旦發現某個Row的CE次數超過閾值(比如 JEDEC 標準建議 1000 次),RAS daemon(內存監控妖怪)就會跳出來喊:
“喂!第3根內存條,第7個Rank,第23456行快死了!快修!”
然后通過 sysfs 或者 CXL 協議,發一個 sPPR 命令,幾百毫秒搞定,這行永久替換成備用行,CE計數清零,服務器繼續跑,完全不影響你打游戲、訓練大模型。
一句話
PPR 就是內存芯片的“自愈神技”:
發現哪一行快壞了,就把整行搬到廠家預留的備用行去。
軟修(sPPR)快但斷電失效,硬修(hPPR)慢但永久有效。
沒有它,今天所有AI集群、云服務器早就因為內存壞行全軍覆沒!
現在看到新聞說“某CXL內存模塊支持sPPR在線修復”,你就能秒懂:這玩意兒牛逼,能邊跑邊給自己動手術!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.