把內(nèi)存想象成一個超級大的居民樓
一棟樓 = 一顆DRAM芯片(或者一個Rank)
每一層 = 一個Row(行)
每層有64個房間 = 64個Column(一行的64個bit)
每個房間里住一個人(存1 bit數(shù)據(jù):0或者1)
正常情況下,這棟樓住了幾億人,干干凈凈。
![]()
但工廠造樓的時候難免有質(zhì)量問題:
有的房間墻裂了
有的地板漏水
有的門鎖壞了
這些人(bit)住進去就容易翻車,隨時可能數(shù)據(jù)錯(軟錯誤)或者徹底死翹翹(硬錯誤)。
PPR 就是“樓管阿姨的維修大法”
DRAM廠家很聰明,他們在蓋樓的時候,每一層(每個Row)都偷偷多準備了幾個“備用房間”(spare row cells),平時鎖著門不讓人住。
一旦發(fā)現(xiàn)某一行(某個Row)壞了太多,樓管阿姨(內(nèi)存控制器)就可以啟動 PPR 維修模式,把壞的那一層整層搬家到備用房間去!
搬完家以后,原來的壞房間門牌號永久作廢,所有人以后想找這行數(shù)據(jù),都自動重定向到新的備用房間。
這就叫 Post Package Repair —— 芯片已經(jīng)封裝好出廠了(Post Package),還能自己修自己!
兩種維修方式:硬修 vs 軟修(hPPR vs sPPR)
硬 PPR(hard Post Package Repair)
類比:找裝修隊把壞房間徹底砸了重建,貼瓷磚、刷油漆,永久性大修。
特點:
修完一輩子都不壞
修好后寫進芯片內(nèi)部的“防熔絲”(eFuse/antifuse)里
斷電也不丟,相當于永久換房產(chǎn)證
缺點:修一次要幾秒到幾十秒,期間這顆芯片完全不能用,得停機
軟 PPR(soft Post Package Repair)
類比:樓管阿姨拿膠帶把壞房間門貼上,貼個箭頭指到備用房:“以后都去新房拿東西”。
特點:
超級快!通常只要幾百毫秒甚至更快
不用停機,可以在線修(live repair)
缺點:一斷電膠帶就掉了,下次開機又得重貼(修的信息存在寄存器里,掉電丟失)
所以:
數(shù)據(jù)中心、服務(wù)器、AI集群最愛用 sPPR,因為不能停機
消費級電腦、手機基本沒這功能,或者只支持 hPPR 出廠修一次
現(xiàn)代 DDR5、LPDDR5、HBM3 幾乎都支持 PPR。
一臺服務(wù)器跑一年,內(nèi)存累計校正錯誤(CE)幾萬次是常態(tài)。
一旦發(fā)現(xiàn)某個Row的CE次數(shù)超過閾值(比如 JEDEC 標準建議 1000 次),RAS daemon(內(nèi)存監(jiān)控妖怪)就會跳出來喊:
“喂!第3根內(nèi)存條,第7個Rank,第23456行快死了!快修!”
然后通過 sysfs 或者 CXL 協(xié)議,發(fā)一個 sPPR 命令,幾百毫秒搞定,這行永久替換成備用行,CE計數(shù)清零,服務(wù)器繼續(xù)跑,完全不影響你打游戲、訓練大模型。
一句話
PPR 就是內(nèi)存芯片的“自愈神技”:
發(fā)現(xiàn)哪一行快壞了,就把整行搬到廠家預(yù)留的備用行去。
軟修(sPPR)快但斷電失效,硬修(hPPR)慢但永久有效。
沒有它,今天所有AI集群、云服務(wù)器早就因為內(nèi)存壞行全軍覆沒!
現(xiàn)在看到新聞?wù)f“某CXL內(nèi)存模塊支持sPPR在線修復(fù)”,你就能秒懂:這玩意兒牛逼,能邊跑邊給自己動手術(shù)!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.