興建于公元前295年,藏書量高達70萬卷,并存有歐幾里得《幾何原本》、荷馬史詩全集等典籍的亞歷山大圖書館,被稱為人類歷史上最偉大的圖書館。
然而,這座人類知識的殿堂,卻對文明的進程沒有產生任何推動價值,就湮滅為歷史的塵埃。因為,知識如果不能被檢索、被流轉、被利用就無法產生智慧。
就像是海量的數據存在于系統之中,但如果不能被及時讀取和運用,算力就會“空轉”,數據就發揮不出應有的價值。如今,大模型參數正突破萬億級別,訓練數據從PB邁向EB級,傳統存儲架構,就如無法發揮價值的古代圖書館,無法滿足AI應用對海量數據的渴求。
![]()
在智算崛起的時代,存儲系統正逐漸成為AI走向規模化部署的“瓶頸”,一場關于存儲系統的重構勢在必行。
01
智算時代
存儲系統面臨復雜化挑戰
中國信通院的報告顯示:95%企業將基于私域數據構建專屬模型,需要至少十年的歷史數據。
這意味著,當企業AI需求從通用大模型全面邁向專屬大模型的同時,存儲系統不僅要承載當前的訓練數據,更要能夠面向AI時代的需求變遷,保持長期演進的能力。
首先,模型復雜度正大幅增長,參數規模從千億向萬億級別躍進,相應的算力基礎設施從千卡集群擴展到萬卡規模,對存儲系統的讀寫帶寬提出了更高要求。
比如,TB級Checkpoint(模型檢查點)的下刷與加載,會影響訓練中斷后的恢復速度,也是推理階段加載模型的“高速入口”,這對讀寫帶寬提出TB/s級的要求;再有海量小文件的隨機讀操作,如訓練素材的快速加載、推理階段的KVCache卸載等,都直接影響GPU的利用率,若響應延遲過高,千億參數的算力洪流便會因數據供給不足而斷流。
其次,數據類型變得空前復雜,訓練數據涵蓋文本、圖像、視頻、結構化數據等多種格式,且分散在不同的存儲系統中,有約30%的企業在數據兼容性和統一訪問方面遇到了明顯障礙。
第三,業務連續性要求極致可靠,超過60%的企業用戶反饋,訓練任務常因底層存儲系統不穩定而中斷,而每次中斷意味著大量的計算資源浪費。
不難發現,AI工作負載對存儲系統的需求呈現出多重挑戰,既需要極高的順序讀寫帶寬來處理檢查點文件,又需要卓越的隨機讀寫性能來應對海量訓練素材的訪問。雙重壓力使傳統為單一場景設計的存儲架構不堪重負。
![]()
因此,我們需要一種新型存儲系統:它必須具備極致的擴展能力以容納EB級數據,能夠支持混合工作負載,并通過智能架構避免頻繁的數據遷移。而新華三Polaris X20000智算存儲的推出,正是為了迎接AI時代的挑戰。
02
存儲架構重構
打通數據供給“生命線”
當前 AI 算力競賽已進入“萬卡集群”的新階段,存儲架構的痛點已從單純的容量需求,升級為對低延遲、高并行、智能調度的系統性訴求,誰能率先突破傳統存儲的性能與協議桎梏,誰就能掌握 AI 集群高效運轉的核心話語權,并推動存儲技術向全棧創新方向演進。
首先,在萬卡級AI集群中,計算與存儲的比例已經發生本質變化,傳統存儲的單節點性能瓶頸會導致整個系統無法充分發揮GPU集群的算力,這就是為什么單節點性能突破如此關鍵。
Polaris X20000通過全閃存配置實現單節點150GB/s的帶寬突破,在最新的MLPerf Storage v2.0基準測試中,在保持GPU利用率90%以上的條件下,實現了單節點158.92GB/s和集群476.75GB/s的卓越表現。
![]()
其次,在傳統NFS協議下,客戶端只能連接到單一存儲節點,跨節點數據訪問需要二次轉發,如同快遞必須經過中轉站,增加了延遲和網絡開銷。
而Polaris X20000通過EPC(Enhanced Parallel Client)高性能并行客戶端,徹底改變了客戶端與存儲節點的交互模式,它允許單個客戶端直接并行訪問多個存儲節點,實現IO級別的負載均衡和高效數據分布,將“單車道小路”升級為“多車道高速公路”。在真實的AI檢查點場景中,這種架構使TB級文件能夠并行寫入多個節點,顯著縮短了保存時間,避免了GPU因等待存儲而空閑。
第三,如今的圖像幀和文本片段等訓練素材通常以千萬級小文件形式存在,推理階段的KVCache(鍵值緩存)更是由數十億個小IO組成。傳統方案中,小IO與大IO混雜處理會導致緩存浪費、網絡擁塞。
智能IO分流技術則可以根據IO大小智能分配數據路徑:小IO直接寫入緩存層后立即返回,顯著提升響應速度;大IO繞過緩存,通過RDMA直接從協議層拉取數據,既縮短了IO路徑,又避免了緩存資源的浪費,真正意義上實現“以存提效”。
最后,傳統數據傳輸需要經過多次內存拷貝和上下文切換,CPU大量時間耗費在數據搬運而非業務處理上。而新華三通過全RDMA互聯和內存零拷貝技術,實現了內核繞行和零拷貝,數據直接從發送端內存傳輸到接收端內存,無需CPU參與,使系統帶寬利用率大幅提升,同時顯著降低了延遲。
可貴的是,Polaris X20000這一系列技術創新形成了完整的系統優化,并且在多個實際部署案例中,成功支撐了從千卡到萬卡規模的AI訓練集群,證明了其在真實生產環境中的成熟度。
03
三點突破
為智算存儲進化帶來啟示
總結而言,AI時代的存儲革命,核心要解決的就是三個根本要求:
第一是,極致性能以充分釋放GPU算力潛力;第二是,架構融合以支持從數據預處理、模型訓練到推理部署的全流程;第三是,智能運維以確保系統穩定并降低運營成本。
![]()
Polaris X20000之所以代表智算存儲的最佳實踐,正是因為它在這三個維度上都實現了突破性創新。
比如在性能上,Polaris X20000通過全閃存架構和軟件優化,實現了單節點150GB/s的帶寬突破,同時保持優異的隨機讀寫性能,將GPU訓練等待時間明顯縮短,顯著加速AI研發進程;在架構上,實現了“一套存儲支撐全流程”的目標,遷移時間從數天縮短到零小時,不僅簡化了數據流水線,還確保了數據一致性和完整性;在智能運維上,引入“AI in ALL”理念,通過機器學習算法實現故障預測、智能調優和自動化運維,顯著降低運維復雜度和管理成本。
事實上,隨著大模型持續進化邁向萬億參數,多模態學習成為主流,存儲系統的價值將愈發凸顯。Polaris X20000給我們的啟示在于,只有當存儲系統能夠無縫支撐數據流動、智能處理和價值挖掘時,人工智能才能真正從技術實驗轉變為產業動力。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.