![]()
XSKY 星辰天合案例
該AI Infra案例由XSKY 星辰天合投遞并參與金猿組委會×數據猿×上海大數據聯盟共同推出的《2025中國大數據產業年度AI Infra領先企業》榜單/獎項評選。
隨著大語言模型(LLM)、多模態模型參數量與訓練數據量呈指數級增長,AI 技術對數據存儲的“性能-成本-效率”提出三重極致要求:一方面,AI全工作流(數據采集→清洗預處理→GPU高并發訓練→模型推理)需TB/s級帶寬與低延遲I/O,任何存儲瓶頸都會導致昂貴GPU算力閑置;另一方面,海量原始數據、中間數據、歸檔數據需長期保存,單一存儲介質難以平衡“高性能需求”與“成本控制”,“全閃存+混閃”的分層存儲已成為業界共識。
但傳統分層方案存在三大核心痛點,嚴重制約AI效率:
?盲目流動
基于數據創建時間(mtime)分層,高頻訪問的訓練集可能因“到期”被降級至慢速混閃池,導致訓練性能驟降;
?割裂命名空間
數據在不同存儲層間流動需手動切換路徑/掛載點,易因操作失誤導致訓練失敗;
?高昂隱性成本
為避免性能問題,企業被迫將更多數據保留在全閃存層,或反復“搬運”降級數據回熱層,推高總擁有成本(TCO)。
某大型智算中心曾因開源方案缺乏智能分層能力,數據預處理效率低下,GPU 等待時間過長,無法實現“熱數據高性能訓練、冷數據自動歸檔”的順暢流轉。為破解上述困境,北京星辰天合科技股份有限公司基于XEOS對象存儲,推出“XEOS AI數據湖方案”,通過智能數據流動機制,重塑AI分層存儲邏輯,為頭部AGI廠商、國家級AI實驗室、大型智算中心提供高效數據底座。
時間周期:
開始時間:2024年10月12日
中間重要時間節點:
?項目第一批交付時間為2024年10月至12月,共交付不同地域機房的4個集群,總計約9PB容量;
?項目第二批交付時間為2025年2月至6月,新增2個地域機房的2個集群,同時擴容原有的3個集群,共計約46PB。
完結時間:2025年6月
AI Infra應用需求
隨著大語言模型(LLM)、多模態模型參數量與訓練數據量呈指數級增長,AI 技術對數據存儲的“性能-成本-效率”提出三重極致要求。
一方面,AI全工作流(數據采集→清洗預處理→GPU高并發訓練→模型推理)需TB/s級帶寬與低延遲I/O,任何存儲瓶頸都會導致昂貴GPU算力閑置。在數據采集階段,大量的原始數據需要快速地傳輸到存儲系統中,這就要求存儲系統具備高帶寬的寫入能力。例如,在一些大規模的圖像識別項目中,每天需要采集數百萬張圖片,這些圖片的數據量可能達到數百GB甚至數TB,如果存儲系統的寫入帶寬不足,就會導致數據采集的速度變慢,影響整個項目的進度。
在清洗預處理階段,數據需要進行各種處理和轉換,這就要求存儲系統具備高帶寬的讀取能力。例如,在一些自然語言處理項目中,需要對大量的文本數據進行分詞、詞性標注等處理,這些處理需要頻繁地讀取存儲系統中的數據,如果存儲系統的讀取帶寬不足,就會導致處理速度變慢,影響整個項目的效率。
在GPU高并發訓練階段,大量的GPU需要同時訪問存儲系統中的數據,這就要求存儲系統具備低延遲的I/O能力。例如,在一些深度學習項目中,需要使用數千個GPU進行并行訓練,如果存儲系統的I/O延遲過高,就會導致GPU等待數據的時間過長,影響整個訓練的速度和效率。
另一方面,海量原始數據、中間數據、歸檔數據需長期保存,單一存儲介質難以平衡“高性能需求”與“成本控制”,“全閃存+混閃”的分層存儲已成為業界共識。全閃存存儲介質具備高性能、低延遲的特點,適合存儲熱點數據和頻繁訪問的數據;而混閃存儲介質則具備大容量、低成本的特點,適合存儲冷數據和長期保存的數據。通過將不同類型的數據存儲在不同的存儲介質中,可以實現性能與成本的平衡,提高整個存儲系統的效率和性價比。
綜上所述,AI技術對數據存儲的“性能-成本-效率”提出了極高的要求,需要采用分層存儲等技術來滿足這些要求。
面臨挑戰
在當今人工智能技術如日中天、飛速發展的時代,數據存儲對于AI效率的影響日益凸顯,已經成為制約其進一步發展的關鍵因素。然而,傳統分層方案卻存在著三大核心痛點,如同三道難以逾越的關卡,嚴重制約著AI效率的提升。
首先是令人頭疼的“盲目流動”問題。傳統方案在進行數據分層時,往往機械地基于數據創建時間(mtime)來操作。這種簡單粗暴的分層方式,會使得那些在AI訓練過程中被高頻訪問的訓練集,僅僅因為時間限制“到期”,就被無情地降級至慢速混閃池。想象一下,一個正處于關鍵訓練階段、被頻繁調用的數據集,就像一位在戰場上沖鋒陷陣的勇士,突然被剝奪了精良的裝備,被扔到了后方。這直接導致訓練性能急劇下降,使得原本昂貴的GPU算力大量閑置,就如同將珍貴的資源白白浪費,嚴重阻礙了AI訓練的正常進程。
其次,“割裂命名空間”帶來的麻煩也不容小覷。當數據需要在不同存儲層間流動時,數據科學家不得不手動切換路徑或掛載點。這一過程就像是在一個錯綜復雜的迷宮中摸索前行,不僅操作復雜繁瑣,而且極易因為人為的疏忽或失誤導致訓練失敗。在大型AI項目中,數據量龐大且流動頻繁,哪怕是一個細微的路徑輸入錯誤,就如同在精密的機器中放入了一顆錯誤的螺絲釘,都可能使得整個訓練任務前功盡棄,讓之前投入的大量時間和資源付諸東流。
最后,“高昂隱性成本”成為了企業沉重的負擔。為了避免因數據存儲問題導致的性能下降,企業無奈之下只能采取一些“無奈之舉”。要么將更多的數據保留在全閃存層,這無疑增加了存儲設備的采購成本;要么反復將降級的數據“搬運”回熱層,這不僅消耗了大量的人力,還浪費了寶貴的時間。這些額外的成本不斷累積,極大地推高了總擁有成本(TCO)。長此以往,企業在 AI投入上的經濟壓力愈發沉重,就像背著沉重的包袱在前行,舉步維艱。
戰略目標
構建AI Infra所期望達成的頂層戰略目標,旨在為從數據預處理到模型訓練、推理的全流程業務提供堅實且高效的方案支撐。
在頭部AGI廠商場景中,該戰略目標聚焦于應對高負荷的數據讀寫需求。要能夠穩定承載周期性近2Tbps的寫入,以及承受峰值5Tbps的突發讀取。更為關鍵的是,將數據處理的時延嚴格控制在8ms以內。如此一來,便能確保在數據高速流轉的過程中,頭部AGI廠商的業務可以高效、穩定地運行,避免因數據處理不及時而導致的業務停滯或效率下降。
在大型智算中心場景方面,戰略目標體現為在短時間內實現數據的快速增長與高效處理。要在4個月內支撐超20PB的數據增長,并且達到149.34GB/s的讀取峰值。通過這樣的能力提升,能夠顯著提高數據預處理的效率,相較于原開源方案可提升300%。這種效率的大幅提升意義重大,它可以徹底解決GPU算力閑置的問題,讓GPU資源得到充分利用,從而提高整個智算中心的運算效率,降低運營成本,推動大型智算中心在人工智能領域發揮更大的作用,為AI技術的發展提供強大的基礎支撐。
實施與部署過程
在人工智能(AI)領域蓬勃發展的當下,數據量呈現出“爆發式增長”的態勢,大模型訓練對數據存儲的性能、可靠性和管理效率提出了前所未有的挑戰。傳統的數據存儲架構在應對這些挑戰時逐漸顯得力不從心,如多存儲層割裂導致的數據搬運成本高、性能損耗大,按創建時間分層無法精準適配數據實際訪問模式等問題。為了滿足AI數據存儲的“高并發、高帶寬”需求,提升數據管理的智能化水平,一套創新型的AI數據存儲解決方案應運而生。
1.技術創新:重構AI數據分層邏輯
·基于訪問時間(atime)的智能生命周期管理
傳統的數據分層方式往往是“按創建時間分層”,這種方式存在明顯的局限性,無法準確反映數據的實際使用頻率。而本方案打破了這一局限,引入了基于訪問時間(atime)的智能生命周期管理機制。系統具備實時感知數據訪問行為的能力,能夠精準捕獲如GetObject/HeadObject等操作。每一次數據訪問都會自動刷新atime,這意味著數據的分層計劃會根據其實際訪問情況動態調整。
對于高頻訓練數據集,由于其訪問頻繁,atime會不斷更新,從而可以長期駐留在全閃熱層。全閃熱層具有高速讀寫的特性,能夠為模型訓練和推理提供穩定的高性能支持,保障訓練性能的穩定性。而那些“長期無訪問”的冷數據,則會自動流向低成本混閃池。混閃池采用“SSD+HDD”的架構,在保證一定性能的同時,有效降低了存儲成本。這種智能的生命周期管理機制,使得數據存儲資源得到了更加合理的分配,提高了整體存儲系統的性價比。
2.分層數據訪問增強:透明化+自動緩存
為了提升數據訪問的效率和用戶體驗,本方案實現了“一次慢、次次快”的訪問模式,主要通過透明化和自動緩存機制來實現。
·透明訪問
上層應用無需關心數據具體存儲在哪一層,在統一命名空間下,數據的訪問路徑保持不變。這避免了用戶手動切換存儲層時可能出現的失誤,降低了使用門檻,提高了操作的便捷性。
·自動緩存回熱
當首次訪問冷層數據時,系統會異步將數據緩存至熱層。后續對該數據的訪問將直接從熱層讀取,大大提高了訪問速度。這種機制使得冷層數據在被訪問后能夠快速“回熱”,充分利用了熱層的高性能優勢。
·訪問續期
每一次對緩存數據的訪問都會刷新其過期時間,確保熱點數據能夠長期駐留在高速層。這樣可以持續為高頻訪問的數據提供快速響應,避免了因數據過期被清理而導致的性能下降。
·主動預熱
系統支持通過批量HeadObject操作提前預熱數據集。這意味著用戶可以在需要使用某些數據之前,主動將其加載到熱層,從而實現首次訪問即達極致性能,進一步提升了數據訪問的效率。
2.架構創新:統一命名空間下的高效分層架構
傳統的存儲架構存在“多存儲層割裂”的問題,不同存儲層之間的數據搬運操作成本高,且會導致性能損耗。本方案摒棄了這種傳統設計,在統一命名空間內整合了“高性能全閃熱層”與“大容量混閃溫冷層”。
·分層功能與職責
熱層采用全閃存介質,針對模型訓練、推理等高頻訪問場景進行了優化。它能夠提供低至毫秒級的時延和TB/s級的帶寬,滿足GPU集群高并發數據加載的需求,為AI模型的訓練和推理提供了強大的性能支持。溫冷層則采用“SSD+HDD”的混閃架構,以較低的成本承載原始數據、中間結果、訓練日志等低頻訪問數據。同時,溫冷層支持自動歸檔與生命周期清理功能,能夠有效管理長期存儲的數據。
·數據流動優勢
在數據在層間流動時,訪問路徑和權限控制保持一致。這意味著用戶無需擔心數據遷移過程中出現的權限問題和路徑變更問題,徹底消除了“數據搬運”的操作成本與性能損耗。數據可以在熱層和溫冷層之間智能流動,根據其實際使用情況動態調整存儲位置,實現了數據的高效管理和利用。
3.性能創新:TB/s級帶寬與金融級可靠性
·分布式架構與線性擴展
本方案基于分布式架構設計,具有良好的擴展性。單集群可承載EB級容量,能夠輕松應對AI數據的“爆發式增長”。隨著數據量的增加,系統可以通過線性擴展的方式,添加更多的存儲節點來提升整體存儲容量和性能。這種擴展性使得系統能夠適應不斷變化的業務需求,為企業的長期發展提供了有力保障。
·優化I/O調度算法
為了在極限壓力下仍能保持低時延,方案對I/O調度算法進行了優化。在頭部AGI廠商場景中,系統的峰值讀取帶寬可達5Tbps,讀取時延≤8ms;在智算中心場景中,讀取峰值達149.34GB/s。這些數據表明,系統能夠滿足大模型“高并發、高帶寬”的訓練需求,為AI模型的高效訓練提供了堅實的性能基礎。
·金融級可靠性
系統繼承了星辰天合企業級存儲的金融級可靠性,數據可用性達 99.9999%。這意味著在實際應用中,數據能夠得到高度的保障,減少了因數據丟失或損壞而導致的業務中斷風險。對于金融、醫療等對數據可靠性要求極高的行業,這種高可靠性的存儲系統具有重要的意義。
4.技術方案
架構設計:“一層兩面”智能數據湖架構
·統一命名空間層
統一命名空間層是整個架構的核心,它實現了“數據位置透明化”。無論數據存于全閃熱層還是混閃溫冷層,應用均可以通過統一路徑訪問,無需修改代碼或切換掛載點。這大大簡化了應用開發和運維的難度,提高了系統的兼容性和可維護性。同時,該層集成了權限管理和元數據索引功能,能夠有效保障數據安全,提高數據檢索效率。通過權限管理,企業可以對不同用戶或用戶組設置不同的訪問權限,確保數據的安全性;元數據索引則可以快速定位數據,提高數據查詢的速度。
作為架構核心,實現“數據位置透明化”——無論數據存于全閃熱層還是混閃溫冷層,應用均通過統一路徑訪問,無需修改代碼或切換掛載點;同時集成權限管理、元數據索引功能,保障數據安全與檢索效率。
·熱層(高性能全閃)
熱層采用全閃存介質,針對模型訓練、推理等高頻訪問場景進行了深度優化。它能夠提供低至毫秒級的時延和TB/s級的帶寬,滿足GPU集群高并發數據加載需求。在實際應用中,熱層可以為AI模型的訓練和推理提供快速的數據支持,提高訓練效率和模型性能。
·溫冷層(大容量混閃)
溫冷層采用“SSD+HDD”的混閃架構,以低成本承載原始數據、中間結果、訓練日志等低頻訪問數據。該層支持自動歸檔與生命周期清理功能,能夠有效管理長期存儲的數據。通過自動歸檔,企業可以將不再頻繁使用的數據進行長期保存;生命周期清理則可以定期清理過期數據,釋放存儲資源。
·智能流動引擎
智能流動引擎是實現數據智能管理的關鍵組件,它基于atime生命周期策略與自動緩存機制,實現了“冷數據智能沉降”和“熱數據自動回熱”。長期無訪問的數據會從熱層自動遷移至溫冷層,實現冷數據的智能沉降;而當冷層數據被訪問時,會自動緩存至熱層,實現熱數據的自動回熱。整個過程無需人工干預,大大提高了數據管理的效率和智能化水平。
![]()
關鍵技術實現
·atime精準感知
通過內核級優化,系統能夠實時捕獲每一次數據訪問行為,確保atime更新延遲≤100ms。這避免了因“誤判熱點數據”而導致的性能降級。在實際應用中,準確的atime感知能夠保證數據生命周期管理的準確性,使得數據能夠根據其實際使用情況進行合理的分層和遷移。
·異步緩存調度
首次訪問冷層數據時,系統采用“同步返回數據+異步緩存”的機制。這種機制既保障了業務的連續性,避免了額外的延遲,又實現了后續訪問的加速。在實際操作中,用戶在首次訪問冷層數據時,能夠快速獲取數據,同時系統會在后臺將數據緩存至熱層,為后續的快速訪問做好準備。
·彈性擴容機制
系統支持在線擴容,新增節點可以自動加入集群并參與數據重平衡。在擴容期間,業務不會中斷,保證了系統的穩定性和可靠性。以某智算中心為例,在擴容時,訓練任務仍能保持149.34GB/s的讀取峰值,無性能波動。這種彈性擴容機制使得系統能夠根據業務需求靈活調整存儲容量,適應不斷變化的市場環境。
綜上所述,這套創新型的AI數據存儲解決方案通過技術創新、架構創新和性能創新,為AI數據存儲提供了一套全面、高效、智能的解決方案。它解決了傳統存儲架構存在的諸多問題,能夠滿足AI領域對數據存儲的高性能、高可靠性和智能化管理的需求。隨著AI技術的不斷發展,相信這種創新型的存儲解決方案將在更多的領域得到廣泛應用,為推動AI產業的發展提供有力支持。
合作服務效果
1.經濟效益
·降本
通過“智能分層+混閃架構”,客戶存儲TCO平均降低30%-60%——某智算中心避免了全閃存過度配置,年節省存儲采購成本超千萬元;頭部AGI廠商通過冷數據自動歸檔,減少30%全閃容量占用。
·增效
消除數據流動的人工干預與性能損耗,數據預處理效率提升300%,GPU利用率提升25%-75%——某智算中心GPU等待時間從日均4小時縮短至1小時,年增加模型訓練迭代次數超50次。
·彈性擴展
支持在線擴容,無需停機,滿足AI數據“爆發式增長”需求——某客戶4個月內完成20PB數據擴容,未影響任何訓練任務,避免因擴容中斷導致的研發延誤(日均損失超百萬元)。
2.社會效益
·推動AI技術創新
通過高效數據底座,釋放GPU算力,幫助頭部AGI廠商、國家級實驗室突破模型訓練效率瓶頸,加速SOTA模型研發,助力我國AI技術在全球競爭中保持領先。
·降低AI落地門檻
通過“高性能+低成本”的平衡方案,讓中小型AI企業無需承擔高昂全閃存成本即可獲得TB/s級存儲能力,推動AI技術在制造、醫療、金融等行業的普及。
·綠色低碳
混閃架構與智能分層減少了高能耗全閃存的使用量,某智算中心采用方案后,存儲系統年耗電量降低28%,符合“雙碳”目標,助力AI產業綠色發展。
關于企業
·XSKY 星辰天合
XSKY 星辰天合是面向AI時代的統一數據平臺提供商。十年專注分布式存儲,長期位列IDC市場報告“TOP 5”,且是唯一獨立存儲廠商,同時在對象存儲市場保持長期領導者地位,公司產品已在3000+客戶的企業級生產環境經受驗證,為企業AI創新與數據基礎設施現代化提供可靠的數據底座。
·某通用人工智能科技公司
該企業是全球領先的通用人工智能(AGI)科技公司,以前沿研究持續推動AI技術進步,致力于實現通用人工智能的未來。公司自主研發了具有業界競爭力的多模態通用大模型,在代碼生成、智能體(Agent)能力及超長上下文處理等方面表現卓越,能夠深度融合并理解文本、音頻、視頻等多種信息模態。依托于核心自研模型,企業已推出一系列AI原生產品與開放平臺,服務范圍覆蓋全球超200個國家及地區,累計觸達個人用戶突破一億,并為來自90余個國家及地區的超過5萬家企業客戶與開發者提供技術支持與解決方案。
★以上由XSKY 星辰天合投遞申報的AI Infra案例,最終將會角逐由金猿組委會×數據猿×上海大數據聯盟聯合推出的《2025中國大數據產業年度AI Infra領先企業》榜單/獎項。
該榜單最終將于1月上旬上海舉辦的“2025第八屆金猿大數據產業發展論壇——暨AI Infra & Data Agent趨勢論壇”現場首次揭曉榜單,并舉行頒獎儀式,歡迎報名蒞臨現場。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.