如果以1946年全球第一臺通用計算機的發明為起點,電子計算機的存儲史綿延至今已經有近80年時間。
由于早期的計算機非常的昂貴,主要供大型機構使用,所以計算機存儲的發展史也可以說是先有企業級存儲,而后才有個人存儲。
在這近80年的歷程中,中國企業級存儲的發展可謂相當之晚,至今也不過區區二十年而已。
然而,僅僅20年,中國存儲企業就創造了巨大的成績。
其中,曙光存儲更扮演了十分重要的角色。其不僅是中國第一家自研成功全棧分布式存儲技術的企業,也在去年發布了全球首個億級IOPS的全閃存儲設備,更在今年登上了有“存儲界的奧斯卡獎”之稱的SPC-1榜單的全球榜首,創下了一個接一個的奇跡。
這種成績的創造究竟是技術上的大力出奇跡,還是時代的風口所賦予?本文將為讀者解開其中之謎。
——導語
01
刷新世界
2月28日,當我走進曙光存儲公司的會議室時,就能夠感覺到已經聚在這里的曙光存儲全閃產品總監衛然、測試架構師晁中元、存儲架構師季旻等曙光存儲人的臉上,都自然洋溢著一種快樂、自豪的氣息。
這或許是因為,在剛剛發布的國際存儲性能委員會(SPC)SPC-1V3基準測試中,中科曙光的全閃存解決方案FlashNexus以32控、驚人的3000萬IOPS的超高性能,一舉登頂全球榜單。
![]()
這次參與評測的32控解決方案,是去年曙光發布的全球首個億級IOPS性能的集中式全閃存儲FlashNexus系列中的一款,該系列具有百控級擴展能力。而選擇打榜32控級榜單,原因是目前參與評測的方案中,32控級屬于當下的高端主流產品。
讓時光倒流到1999年,這是存儲行業大發展的一年,老牌巨頭和新銳力量正在進行激烈的絞殺。在這個特殊的歷史背景下,一批主流存儲企業為了確保供應商之間的競爭是公平且有序的,成立了世界上第一個以嚴格的行業標準性能基準作為評測標準的非盈利性組織,這就是SPC(國際存儲性能委員會)。
它開創性的把存儲子系統的能力評估基準與聯網條件相結合,從而成為現代存儲行業進入互聯網時代后的最重要評估基準之一。
SPC組織本身的規模并不大,但擁有存儲行業的非營利性組織中最長的會員名單,無論是國內的曙光存儲、華為、浪潮、宏杉科技、中國電子云等,還是國際巨頭Hitachi Vantara、Dell EMC、NetApp、IBM等均位列其中。
時至今日,SPC仍是業界最活躍、最有影響力,且評測標準極為苛刻的國際存儲性能評測機構,它針對不同的業務場景發布了多種類型的評測基準,而其中最負盛名的莫過于SPC-1評測。
這一測試的挑戰性,主要是由它獨特的規則造就的——SPC-1更多的考慮是基于聯網狀態下,企業在處理各種企業事務如數據庫、電子郵件系統等8個方面所體現的綜合存儲系統性能和性價比。更具體的說,打榜的存儲系統,需要接受矩陣(metrics)的重復性(repeat)和耐久性(persistence)兩大評測流程中復雜多變的混合負載壓力模型的層層考驗,其中最長的單次持續性測試長達12小時。
![]()
本次測試中,曙光的FlashNexus32控產品,實現了超 3000 萬的 IOPS 性能和 0.202ms 的時延表現,在這里我們需要約略的進行一下解釋。
?IOPS指的是每秒輸入輸出操作次數,它是衡量存儲設備性能的重要指標?,用來表示存儲系統在一秒鐘內可以處理的讀寫操作數量。IOPS越高,設備檢索或存儲數據的速度越快,從而提升了整體性能和用戶體驗?。
從另一個方面來看,任何復雜的存儲系統都會因為網絡設計、軟件機制等問題面臨時延的問題。只考慮IOPS而不談及真實時延的性能是沒有意義的,特別是在OLTP(聯機事務處理)、高頻交易、實時數據庫等場景中,毫秒級的時延就會直接影響業務連續性,是一個至為關鍵的指標。
而曙光這次展現的低時延性能,如果放在真實業務環境中如金融交易中,其0.202ms的時延意味著單筆交易處理時間比目前縮短80%以上,這對金融等對實時性能有極致需求的行業堪稱“致命的誘惑”。
打個比方就是,在一家超市的收款處有兩位收銀員,其中一位工作迅速敏捷,另一位則遲鈍延宕。最后必然的結果是,前者會服務更多的用戶而且也帶來更好的體驗,而后者的收銀臺前則會排起長隊,甚至影響到整個超市的運轉效率。
但曙光Flash Nexus除了保證了高IOPS和低時延外,還實現了另一個突出的指標,即高質價比。
事實上,高性能和高質價比,是一個尖銳問題的AB兩面。通常來講,性能越高的存儲系統的時延就越低,但伴生的問題是成本相對就會較高。這里的成本不單指硬件,而是包含了從存儲介質的性能、性質的選擇到整個體系的優化水平等一系列復雜的問題造成的成本之和。
通常而言,集中式存儲堪稱存儲領域的商務艙,而全閃存儲則相當于頭等艙。客戶只要選擇最尖端的全閃集中式存儲,就意味著在一定程度上放棄對性價比的追求,而追求極致性能,這也是行業里默認的事實,也是為什么集中式存儲的主要應用場景大多在金融、證券、保險、銀行等‘財大氣粗’的機構的選擇中。
而曙光存儲此次的突破在于,在高性能、低時延的同時,還做到了質價比位列第一,實現了每千 IOPS 成本 155.01 美元。
由于基于不同標準和規格的測試結果差異性很大,所以我只能約略的尋找一些對比數據,來進行粗糙的對比。
例如,在大約五年前,富士通ETERNUS DX8900 S4(24控級)曾經獲得過一次SPC-1的榜首成績,性能達到了1000萬IOPS,但其千IOPS成本高達600美金以上。由于控制器數量不同(曙光此次打榜的是32控產品),兩者很難直接對比。
但如果我們站在用戶而非工程師的視角,從中就不難發現——對真實用戶來說,曙光Flash Nexus32控產品在提供3000萬IOPS性能的同時,千IOPS成本降到了5年前行業領先水平的四分之一;或者再換個角度來說,提供約1000萬IOPS性能的成本,只是5年前行業頂尖水準的1/12,這不僅僅生動的詮釋了曙光存儲的巨大進步,也反映了如今存儲市場的競爭仍在不斷的加劇和加速中。
02
最復雜的工程
在筆者長期跟蹤存儲行業的過程中,逐漸積累了一個認知,那就是存儲子系統雖然往往不像CPU、操作系統那樣,是公眾關注的焦點,甚至某種程度上是一個“配角”。但其技術復雜性卻不低于、甚至超過前者。我拜訪過的清華大學高性能計算中心高級工程師張武生甚至指出,存儲系統是整個計算機系統里技術難度最高的子系統之一。
另外,一般人容易產生的誤解是存儲性能主要由介質決定,如機械硬盤、固態硬盤、高速緩存等之間的IO性能相差就很大。這種誤解的產生,主要是普通人使用存儲往往從自身體驗的角度出發,例如裝配有SSD硬盤的電腦,在速度上必然大大超過裝配了同配置但安裝了機械硬盤的電腦。
但事實上在企業級存儲市場里,某種介質成為主流后,產業壽命往往長達數十年甚至更久。但越到其產業生命周期的后期,硬件性能提升就越緩慢乃至停滯。在這種前提下,各種軟件架構的創新和優化,以及軟硬件之間的配合,就成為更加行之有效的性能提升路徑。
但存儲文件系統軟件的算法和機制的設計,又必須建立在對于硬件運行的底層邏輯的深刻洞察之上。所以,FlashNexus這樣的現代高端存儲系統的設計和創新,是典型的軟硬件結合的端到端工程,其復雜精微之處,除了業內人士之外很難理解。
因此,從某種程度來講,要介紹FlashNexus全部的技術亮點,是區區一篇小文很難承載的,我只能擇其要點來略加闡釋。
首先,也是非常突出的優點是在性能方面,曙光的FlashNexus堪稱極致,可謂“迅若閃電”。而事實上,這次參與打榜的產品還不是整個產品序列里規格、性能最高的,選擇32控的理由前面已經講過,是為了便于和大部分打榜的產品規格保持一致,以利于橫向對比。而其百控級設備的IOPS突破1億大關,領先全球。
而這種“迅若閃電”的性能,建立在一系列極為精細的設計上,其中涉及到非常復雜的系統平衡和微創新。
衛然向我講解了現代高端存儲的優化機理——在一般的理解中,計算機的存儲運作是由CPU去發出指令,然后由存儲介質的控制芯片去執行指令,進行各種如復制、刪除、備份等數據操作。
但事實上,對于高度并行性的大型計算集群或算力中心而言,由于數據的海量性以及復雜的備份機制,已經吃掉了大量的計算機資源,從而使得“計算機”在某種程度上變成了“數據搬運機”(李國杰院士語),所以當代高性能存儲的總體設計方向,就是盡可能讓數據操作不去“驚動”CPU和操作系統;反之也需要限制系統訪問存儲器的次數,實現某種程度的“兩不打擾”。
這兩個方向看似相斥,其實是從不同的角度解決同一個問題,就是盡可能減少存儲操作對系統資源的開銷,從而提升系統資源的利用效率以及存儲子系統的性能。
例如,NUMA(非一致性內存訪問架構)就是一種常見的技術,對于SMP(對稱多處理)架構優化,解決多CPU內存訪問的非一致性問題。
“但傳統的NUMA就對服務器的CPU的性能要求很高,而高性能CPU的成本是很高的,如英特爾的服務器級處理器就很昂貴”,衛然說:“這種情況下,廠商往往會采用多個NUMA或者多個CPU的方式,去提升存儲的性能。然而,這又帶來了新的問題,就是多個NUMA和多個CPU之間互相訪問的資源消耗非常大,所以,對NUMA這一技術棧進行持續優化,就是我們的一個持續的創新方向。”
因此,在FlashNexus的設計中,開創性的提出了“微控模型”的概念,這種概念的整體理念,就是把每個軟硬件操作對整體環境的影響范圍控制到最小。
例如,在硬件設計上,就通過虛擬化的技術,讓每個單元在邏輯上都有自己獨立的、最近的硬件資源,從而提升訪問的速度;而在軟件邏輯層面,也讓每個操作流程都有自己獨立的“通道”,隔絕對其它資源的干擾。
如果打個比方的話,這就好比交通管制。傳統做法可能是讓某條道路在某個時間段內不能通行,但這樣只要持續稍久,就會造成交通的擁堵。而更精細的做法則是劃定不同的車道,讓需要優先通行和需要正常通行的車在各自的通道里行進,再進行精細的管控。這樣雖然也會在一定程度上降低流量,但已經把對通行能力的影響限制在一個較小的范圍內。
而事實上“微控模型”的實踐遠比我的這個比喻要精細,比如在劃分通道的時候,曙光存儲在FlashNexus上就采取了多路徑技術。
“也就是說,在一開始我們就決定好選擇哪一個通道,也就是說你的數據、你的邏輯請求歸屬于哪一個微控制器,是事先劃定好的。數據進入后,就會按這種劃定快速、持續的落盤”,晁中元說:“這就讓整個系統在一開始就預留好了通道,從而整個系統就具備了更好的可擴展性。比如我們需要增加新的CPU時,因為‘通道’已經規劃好,多個CPU之間的耦合性、交互性相對來說會少很多,這樣就避免了增加了CPU性能的同時,又帶來了存儲資源損耗的增加”。
除此之外,另一個大方向是“把協議做薄”。
數據的交互之間,需要通過各種技術和協議。比如RDMA技術(遠程直接內存訪問),就是為了解決網絡傳輸中服務器端數據處理的延遲而產生的。它將數據直接從一臺計算機的內存傳輸到另一臺計算機,無需雙方操作系統的介入。另一個重要的技術動態,則是當前支持NVMe(非易失性內存主機控制器接口規范)的設備越來越多。
“現代的協議已經比傳統的TCP/IP協議、iSCSI協議等傳統協議要薄很多”,晁中元說:“我們的努力就是把協議做的更薄,讓性能損失更小”。
言而總之,FlashNexus的驚人性能,就是通過各種智能化的機制,減少CPU開銷或者降低CPU負載,通過協議等方式直接處理數據的讀取和傳輸。
當然,速度并不是一個高端存儲系統的唯一性能指標,除了“迅如閃電”以外,能夠“智若洞見”的“通過AI來感受業務的脈搏”也很重要。
何為智能存儲?我們還是可以繼續展開前面的關于交通管控的例子,“車道專用”顯然比“道路限行”要先進,但這會帶來另一個方面資源的浪費——大家可能會有印象,那就是大城市里的公交專用車道是有高峰時限的,但即使在高峰期,公交專用車道也經常跑不滿,而普通車又不能在這一時段內使用這條通道,這就是一種浪費。
所以,真正意義上的“智能交通”,應該是可以動態調整的“潮汐車道”,它不是按規定的時間,而是根據實際的道路流量情況來調整通道的分配,甚至可以把3:3的車道動態分配調整成4:2乃至5:1。
而對于FlashNexus來說,在智能存儲方面,實現了內置AI驅動的性能調度引擎。簡言之,它可以實時的感知整個存儲系統的負載繁忙程度,并根據用戶預設的業務優先級,來動態的分配資源并進行實時調度,特別是對于一些關鍵的業務,可以設置為近乎獨享資源的方式,而對一些非關鍵業務進行智能限流,從而做到讓整個系統的資源物盡其用的被分配。
和最近大紅大紫的DeepSeek一樣,某種意義上來說,單純堆硬件帶來的效益提升是邊際遞減的,特別是這種性能伴隨著成本的巨幅提升時就更如是。但類似于繞過CPU和操作系統、把協議優化做薄以及智能調度這種軟件邏輯上、智能化上的升級,其天花板之高不能說無窮無盡,但總有潛力可挖。
當然,對于主打大型機構的核心業務場景的存儲系統來說,和性能同樣重要的就是穩定性和數據安全,而FlashNexus在這方面可以說“安如磐石”。
某種意義上,通過SPC-1測試就是穩定性和安全性的最好背書,因為在這個復雜的測試中,既包括以100%的壓力(相當于按汽車的最高設計速度)跑滿至少8個小時,以檢測最高性能的可持續性;也包括以10%到100%的壓力,按不同梯度反復上升下降,以檢測系統的穩定性和低時延性能的保持性。
![]()
更為重要的是,測試還會對所有的控制器和主機全部斷電,進而檢驗斷電恢復后數據的一致性,可以說一切測試都貼近于真實應用場景,以全面的考驗存儲系統的綜合性能。
“事實上,我們對安全性的冗余設計遠超于測試要求,因為我們的安全設計是從微觀到宏觀遞進的,近乎完美”,衛然說:“在微觀部件層面,我們搭載了業界獨創的RAIDQC技術,可以在一個存儲池內可以做到四塊盤同時故障而數據不丟、應用不斷;在宏觀的解決方案層面,我們可以支持從2個城市的對稱式備份到多地、多中心的多重容災備份,可靠性達到7個9,也是行業最高標準”。
在接近2個小時的庖丁解牛式的技術分享中,我深深的感覺到,曙光存儲在FlashNexus的設計上并非是針對系統測試而進行的“做題式設計”,而是遠比測試所模擬的幾個、幾十個小時中所體現的性能,要更接近于實際的用戶需求,也更貼近行業發展進步的方向。這才是這套系統能夠輕松登上榜首的原因,也從某種程度上更深層次的反映了中國存儲行業的進步。
03
從存儲到存力,中國式創新大有可為
翻閱SPC官網上的榜單,一個最深刻的印象就是——差不多以2020年為界限,越接近當前,中國企業的上榜數量就越多,成績也越好。其中,不僅有華為和曙光存儲這兩家國內唯二的掌握了從分布式到集中式的全棧自研技術的兩個標志性企業,還有浪潮這樣的老牌服務器巨頭和一些新創企業,從總體上來講,它反映了中國存儲產業的繁榮。
事實上,中國存儲行業正在迎來一個最好的時代。
首先,很多行業都有正周期和逆周期,正周期一般反應為需求上升、性能提升和行業盈利水平提升,逆周期則與前者相反。
從整個社會環境看來,存儲行業正在迎來一個強大的正周期。事實上,無論是“新質生產力”這種宏觀層面的牽引,還是AI大發展、數據大爆炸這樣具體的產業風口,都前所未有的對存儲的質和量提出了更高的需求。
從量的方面而言,隨著AI、數字孿生、數字金融等逐步走入深水區,目前全球已經開始了新一次數據大爆炸——根據IDC的數據,當下全球每年會產生150ZB的數據(ZB即澤字節,表示10的21次方),而中國獨占其中的四分之一,是全球每年創造、采集、復制數據量最大的國家之一,且這一趨勢在未來的CAGR將保持在25%左右并持續相當長時間,這對存儲行業是一個強大的利好。
![]()
而從質的方面來講,需求的多元化,正倒逼企業進行多元化的創新和實質性的進步。
例如,從技術棧擴展的角度,FlashNexus的全球領先,意味著從分布式存儲起家的曙光存儲開始進入殿堂級的頂尖集中式存儲市場;從綠色節能的角度,曙光的存儲系統已經做到了“按核控頻”的極細顆粒度;從全閃式大普及和合理化存算比的角度,中國的存儲市場還有非常大的存量設備需要代際升級,也有很高的需求天花板有待更強、更好的存儲系統去加以滿足。
其次,由于數據已經成為當前經濟發展中的一級要素,存儲系統的市場發展也體現了某種地緣性。這體現在,我們既要通過自主技術創新來滿足國內市場的復雜需求,又要與世界主流技術同步前進甚至差異化領先和換道超車。
曙光這次的打榜就很有典型性,從標準與評測機構而言,參與國際組織的評比,與全球存儲企業一較高低,從軟硬件技術的創新和實現而言,做到了全面的自主、可控、自研,走出了一條屬于自己的前進路徑。
最后,從宏觀而言,隨著數據要素的重要性日益凸顯,存儲這個概念正在迭代為“存力”,曙光存儲也是這個概念的引領者和實踐者。一直在實踐和落地打造具備‘一平臺多協議、應用親和、全域數據流動、安全可靠與綠色節能’五大優勢的先進存力中心,以全面滿足市場對數據存儲的容量、性能、安全與產業化多重需求。
04
結語
曙光存儲成功登上SPC-1榜首,證明了國產集中式存儲的核心性能已經達到世界水平。
但就像汽車市場一樣,存儲市場追求的從來都不是單一指標,高端存儲市場則更加偏好水桶式的產品。除了性能之外,功能性、易用性、經濟性等方方面面的考量都存在,而從實際中來看,大型跨國企業由于創立時間長、服務客戶多,在體系性、產品豐富度上還有明顯優勢,中國企業也還有很大的成長空間。
同時,在服務能力、服務水平、ISV生態上,IOE為代表的國際企業在過去20多年甚至更長的時間里,一直是大型機構用戶的首選,服務體系、培訓體系、存量人才十分健全發達。這也是國內存儲企業需要發力追趕的地方。
最后,存儲系統大升級是必然,但用“曙光存儲”則不一定是必然,即便是國內存力市場,也有越來越多的創新參與者。
值得樂觀的是,時代對數字化、智能化能力的需求,是一條單行道。目前,在金融領域、政務領域等大門類中,對數據的存儲、處理、挖掘都有更強的需求,而這一賽道的門檻相當之高,市場亟需更多符合中國特色、滿足中國用戶特色需求的信創產品。曙光存儲應該抓住全閃產品代際領先的寶貴時間窗口期,對用戶的心智發起飽和攻擊,建立起國產全閃集中式存儲和先進存力中心的美譽度和品牌勢能,讓用戶從“敢選”變成“想選”,到最后的”指名要選“。
在當下,歷史機遇是站在國產企業級存儲企業這一邊的,我們要因“勢”取利,與歷史性的需求相向而行。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.