在1月5日的2026年國際消費電子展(CES)上,英偉達首席執行官黃仁勛發布了名為“推理上下文內存平臺”(ICMS)的全新硬件,旨在解決人工智能推理階段爆炸式增長的數據存儲需求。此舉標志著AI硬件架構的重心正從單純的算力堆疊向高效的上下文存儲轉移,NAND閃存和SSD有望接棒HBM,成為下一個關鍵的增長引擎。
《韓國經濟日報》在1月24日的文章中介紹,黃仁勛在演講中展示了一個被稱為“推理上下文內存平臺”(Inference Context Memory Platform,簡稱ICMS)的神秘黑色機架。這并非普通的硬件更新,而是一個旨在解決人工智能推理階段數據瓶頸的關鍵創新。記者敏銳地捕捉到,這可能是繼HBM(高帶寬內存)之后,存儲行業的下一個爆發點。
這一平臺的核心邏輯在于解決AI推理中的“KV緩存”(鍵值緩存)問題。隨著AI從單純的學習階段轉向大規模推理應用,數據量呈爆炸式增長,現有的GPU顯存和服務器內存架構已難以滿足需求。英偉達通過引入全新的數據處理單元(DPU)和海量SSD(固態硬盤),構建了一個龐大的緩存池,試圖打破這一物理限制。
這一技術變革對于韓國存儲巨頭三星電子和SK海力士來說,無疑是一個巨大的利好消息。報道認為,隨著ICMS的推廣,NAND閃存將迎來類似HBM的“黃金時代”。這不僅意味著存儲容量需求的激增,更預示著存儲架構的根本性變革——GPU將可能繞過CPU,直接與存儲設備進行高速通信。
KV緩存爆炸式增長引發存儲焦慮
韓媒文章指出,黃仁勛引入ICMS技術的核心動因在于“KV緩存”的激增在AI推理時代,KV緩存是AI理解對話上下文、進行邏輯推理的關鍵。例如,當用戶向AI詢問關于G-Dragon的復雜主觀問題時,AI需要調用模型內部數據和歷史對話上下文(即KV緩存)進行權重分配和推理,以避免重復計算和幻覺。
隨著AI從單純的學習轉向推理,以及應用場景向多模態擴展,所需處理的數據量呈現不規則且爆炸式的增長。英偉達發現,僅靠昂貴的HBM或常規DRAM已無法容納海量的KV緩存,而現有的服務器內部存儲架構在應對未來推理時代時顯得捉襟見肘。因此,一種能承載海量數據且保持高效訪問的專用存儲平臺成為剛需。
DPU驅動的9600TB巨量空間
據韓媒文章,ICMS平臺的核心在于將DPU與超大容量SSD相結合。文章轉述英偉達介紹,該平臺采用了新的“BlueField-4”DPU,充當數據傳輸的“行政后勤官”,以減輕CPU負擔。一個標準的ICMS機架包含16個SSD托架,每個托架配備4個DPU并管理600TB的SSD,使得單個機架的總容量達到驚人的9600TB。
這一容量遠超傳統GPU機架。相比之下,一套包含8個機架的VeraRubin GPU平臺,其SSD總容量約為4423.68TB。黃仁勛表示,通過ICMS平臺,虛擬層面上將GPU的可用內存容量從以前的1TB提升到了16TB。同時,借助BlueField-4的性能提升,該平臺實現了每秒200GB的KV緩存傳輸速度,有效解決了大容量SSD在網絡傳輸中的瓶頸問題。
開啟NAND閃存黃金時代
文章指出,ICMS平臺主要利用的是SSD,這直接利好NAND閃存制造商。過去幾年,雖然AI火熱,但鎂光燈主要集中在HBM上,NAND閃存和SSD并沒有受到同等程度的關注。
英偉達將該平臺定位為介于服務器內部本地SSD和外部存儲之間的“第3.5層”存儲。與昂貴且耗電的DRAM相比,由高性能DPU管理的SSD具備大容量、速度快且斷電不丟失數據的優勢,成為存儲KV緩存的理想選擇。
這一架構變革直接利好三星電子和SK海力士。由于ICMS對存儲密度的極高要求,市場對企業級SSD和NAND閃存的需求將大幅攀升。此外,英偉達正在推進“Storage Next”(SCADA)計劃,旨在讓GPU繞過CPU直接訪問NAND閃存,進一步消除數據傳輸瓶頸。
SK海力士已迅速響應這一趨勢。據報道,SK海力士副總裁金天成透露,公司正與英偉達合作開發名為“AI-N P”的原型產品,計劃利用PCIe Gen 6接口,在今年年底推出支持2500萬IOPS(每秒讀寫次數)的存儲產品,并預計到2027年底將性能提升至1億IOPS。隨著各大廠商加速布局,NAND閃存和SSD有望在AI推理時代迎來量價齊升的新周期。
以下是韓媒文章全文,由AI翻譯:
英偉達首席執行官黃仁勛在2026年國際消費電子展(CES)上發布了一個神秘的內存平臺:“推理上下文內存平臺”。今天,《科技與城市》欄目將深入探討它究竟是什么。
關鍵詞:KV緩存在5日(當地時間)于拉斯維加斯舉行的NVIDIA Live大會上,NVIDIA首席執行官黃仁勛在演講結尾談到了內存平臺。我不禁豎起了耳朵。這會是下一個HBM嗎?
今日之星:黑色機架式 NVIDIA ICMS(推理上下文內存存儲)。圖片來源:NVIDIA
首席執行官黃仁勛指著的是VeraRubin人工智能計算平臺一角的一個黑色機架。這個機架,也就是我們今天故事的主角,里面存放著海量的存儲空間。
首先,讓我解釋一下黃仁勛引入這項技術的原因。我們應該從“KV緩存”說起,黃仁勛CEO在官方場合經常提到它。讀者朋友們,你們可能在最近關于GPU和AI硬件的文章中已經多次聽到過KV緩存這個名字。
這個關鍵詞在AI推理時代至關重要。它關乎AI理解對話上下文和高效計算的能力。我們舉個簡單的例子。假設你打開OpenAI的ChatGPT或Google Gemini,問一個關于韓國流行歌手G-Dragon的問題。
如果用戶問的是G-Dragon的音樂、時尚或事業等客觀信息,AI可以根據它學習到的信息回答。但是,聊了一會兒之后,用戶突然問:“那他為什么會成為他那個時代的‘偶像’呢?”這就好比問了一個沒有明確答案的論述題。這時,AI就開始推理了。
這就是KV緩存的關鍵所在:鍵和值。首先是鍵。我們很容易理解,但人工智能使用鍵向量來清晰地識別對話上下文中問題中的“那個人”是誰,以及答案的主題和目標(鍵)。然后,它會利用模型內部關于G-Dragon以及在與用戶對話過程中收集到的各種數據(值)的中間計算結果,進行權重分配、推理,最終得出答案。
如果沒有KV緩存,如果每個問題都像第一次一樣重新計算,GPU將重復兩到三次工作,從而降低效率。這可能導致人工智能出現幻覺和錯誤答案。然而,KV緩存可以提高效率。基于“注意力計算”的推理,會重用從與用戶的長時間對話中獲得的各種數據并應用權重,速度更快,對話也更加自然。
圖片由 NVIDIA 提供
隨著人工智能行業從學習向推理轉型,這種鍵值緩存不再僅僅是輔助存儲器。此外,所需的容量也在不斷增加。
首先,隨著越來越多的人將生成式人工智能融入日常生活,數據量的不規則激增不可避免。隨著圖像和視頻服務的加入,對人工智能高級推理和想象力的需求將進一步增長,數據量還將呈爆炸式增長。
隨著人工智能發現新信息的能力不斷提升,它會在與用戶的互動過程中,在各種場景下創建大量有用的鍵值緩存(KV緩存)。
面對鍵值緩存的爆炸式增長,NVIDIA 也對 GPU 流量進行了管理。他們將 GPU 分為兩類:一類是大量生成鍵值緩存的 GPU,另一類是使用鍵值緩存的 GPU。然而,存儲空間不足以存儲所有這些緩存。
當然,服務器內部的內存容量很大。GPU旁邊是HBM內存→如果不夠用,就用DRAM模塊→如果實在不行,甚至會在服務器內部使用SSD固態硬盤。然而,CEO黃仁勛似乎已經意識到,這種架構在未來的推理時代將難以駕馭。因此,他在CES上發布了這款黑盒子。
NVIDIA CEO 黃仁勛在 CES 2026 上推出 ICMS。圖片由 NVIDIA YouTube 提供。
DPU + 超大容量 SSD = KV 緩存存儲專用團隊
這臺黑色服務器是“推理上下文內存平臺”,簡稱ICMS。讓我們仔細看看它的規格。
首先,驅動ICMS的設備是DPU,即數據處理單元。讀者可能對GPU和CPU比較熟悉,但服務器的隱藏動力源——DPU也值得一看。
NVIDIA首席執行官黃仁勛發布了BlueField-4 DPU。圖片由NVIDIA提供。
DPU(數據處理單元)就像軍隊中的行政后勤官。如果說CPU是連長,那么GPU就是計算突擊隊員。DPU負責彈藥和食物的運送,甚至處理通信和移動,使CPU能夠做出適當的決策,而GPU則專注于攻擊。NVIDIA的新型DPU“Bluefield-4”被賦予了一項新任務:ICMS(集成內容管理系統)。現在,讓我們仔細看看ICMS平臺。這個機架總共包含16個SSD托架。
圖片來源:NVIDIA
每個托架配備四個 DPU,每個 DPU 管理 150TB 的 SSD。這意味著一個托架總共有 600TB 的緩存 SSD。
這是一個相當大的存儲容量。我們來比較一下。假設在 Blackwell GPU 服務器中,為了最大化 KV 緩存,我們在 SSD 放置區域安裝了八個 3.84TB 的通用緩存 SSD。這樣每臺服務器就有 30.72TB 的 SSD,這意味著一個包含 18 臺服務器的 GPU 機架的總 SSD 容量為 552.96TB。
也就是說,單個 ICMS 托架的緩存 SSD 容量可以超過一個 GPU“機架”所能容納的容量。一個機架中的 SSD 總數為 600TB x 16,即 9600TB。這比一套完整的 VeraRubin 8 個 GPU 機架(4423.68TB,552.96 x 8)的 SSD 容量高出一倍多。
圖片由 NVIDIA 提供
黃仁勛在CES演講中表示:“以前GPU的內存容量為1TB,但通過這個平臺,我們獲得了16TB的存儲容量。”
仔細想想,他的話似乎相當準確。一個完整的VeraRubin平臺由八個GPU機架組成。每個機架有72個GPU,共計576張存儲卡。將ICMS的總容量9600TB除以576張存儲卡,得出約16.7TB。
雖然人們仍然擔心服務器的物理距離和SSD的傳輸速度,但BlueField 4性能的提升緩解了這些問題。黃仁勛解釋說:“我們實現了與之前相同的每秒200GB的KV緩存傳輸速度。”
此外,現有的GPU服務器存在網絡瓶頸,限制了7.68TB和15.36TB等大容量SSD的充分利用。這項基于DPU的網絡改進似乎正是為了解決這些問題。
被視為“零”的NAND閃存的黃金時代即將到來嗎?
圖片由 NVIDIA 提供
NVIDIA 將此平臺劃分為 3.5 個內存組。第一組是 HBM,第二組是 DRAM 模塊,第三組是服務器內部的本地 SSD,第四組是服務器外部的存儲。ICMS深入研究了介于第三組和第四組之間的神秘領域。與昂貴或耗電的 DRAM 不同,SSD 比硬盤速度更快、容量更大,即使斷電也不會丟失數據(這得益于高性能 DPU),使其成為理想之選。
該平臺顯然為三星電子和 SK 海力士提供了巨大的商機。僅一個機架就能增加 9,600 TB 的容量,這意味著他們可以銷售比現有 NVIDIA 機架多數倍的 NAND 閃存,而且這僅僅是按位計算。此外,這款產品的開發商是 NVIDIA,一家全球所有人工智能公司都夢寐以求的公司,因此商機更加巨大。
三星電子的服務器固態硬盤。即使人工智能時代已經到來,NAND閃存和固態硬盤的價格一直滯后,預計今年第一季度將出現大幅上漲。圖片由三星電子提供。
過去三年,盡管人工智能市場發展迅猛,但NAND閃存和固態硬盤(SSD)并未受到太多關注。這主要是因為與在NAND閃存發展中發揮關鍵作用的HBM相比,它們的利用率較低。NVIDIA正從ICMS項目入手,籌備一個旨在進一步提升SSD利用率的項目。該項目是“Storage Next”(也稱為SCADA,即Scaled Accelerated Data Access,規模化加速數據訪問)計劃的一部分。目前,執行AI計算的GPU將直接訪問NAND閃存(SSD)來獲取各種數據,而無需經過CPU等控制單元。這是一個旨在消除GPU和SSD之間瓶頸的大膽設想。SK海力士也已正式宣布正在開發AI-N P,以順應這一趨勢。 SK海力士副總裁金天成表示:“SK海力士正與NVIDIA積極開展名為‘AI-N P’的初步實驗(PoC)。”
他解釋說:“基于PCIe Gen 6、支持2500萬IOPS(每秒輸入/輸出操作數)的存儲原型產品有望在今年年底發布。”他還表示:“到2027年底,我們將能夠生產出支持高達1億IOPS的產品。”2500萬IOPS是目前固態硬盤速度的10倍以上。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.