![]()
DeepSeek、通義千問、Kimi-K2等深度思考的大模型,大家應該都用過。用戶對AI越來越上頭,企業IT對算力保障的焦慮也在加劇。過去跑個小模型,8張GPU的服務器還能應付,可帶不動DeepSeek這種上百個專家、毫秒級響應的MoE架構推理模型。
超節點,就是在這一背景下,火起來的。
傳統單臺8卡服務器,無法滿足當下大模型訓推的算力需求。由英偉達率先提出的超節點技術,通過內部高速互聯,把數十甚至上百個AI計算芯片,集中整合到一個架構內,打造出基于Scale-up的新型架構,以此實現算力的量級躍升。核心優勢可以用一個字概括:省。
![]()
省錢,超節點通過內部高速互聯,每張卡都能滿負荷運行,避免傳統多機柜間的算力閑置空轉,GPU卡和電費就不會浪費了;
省地,以前跑大模型得把多個機柜拼起來,占滿半個機房,現在一臺超節點就能扛起AI訓推任務,物理空間占用更小了;
省事,超節點把硬件、互聯、管理系統全集成好了,企業接入就能跑大模型,AI部署更快,而傳統多臺服務器要單獨調試、搭建網絡、解決散熱,一套流程下來,沒半年搞不定……
有不少CIO或IT從業者十分困惑,超節點能幫我們用AI更省,可怎么還是買不著、用不起呢?有一種“出發點很好,但就是出發不了”的無力感。
![]()
的確,目前真正用得上、用得起超節點的行業和企業,并不是很多。
原因比較復雜,比如高端N卡斷供,國產GPU規模出貨量受限等。其中,有一個因素容易被忽視,那就是超節點讓AI更省的核心邏輯,似乎正在跑偏。
在超節點的新聞里,常能看到千卡、單柜X百卡等參數互相碾壓,媒體追捧超節點的新紀錄,圍觀群眾也默認,規模越大卡越多的超節點就越先進。
但對大多數企業來說,真的需要這么大的算力巨獸嗎?斥巨資買回數百卡的超節點,能靠AI賺回本嗎?這些問題,已經到了必須回答的時刻。
![]()
不可否認,數百卡,甚至上千卡的超節點,是國產智算技術進步的證明。但大家有沒有想過,我們給手機充電,會關心發電廠的規模有多大,是核電廠還是水電廠嗎?只會在乎插上有沒有電,電壓是否適配,電流是否穩定,會不會把手機燒壞,這些實用層面的問題。
同樣的道理,企業部署超節點,除了集成多少卡,也要考慮到實際應用中的隱性成本:
一是故障率升高帶來的中斷損失。
超節點規模越大,內部光模塊、交換機、電源節點就越多,比如某300多卡的超節點架構,就涉及近6900個光模塊和100臺左右交換機。而在高密度部署場景中,任一環節故障,都可能導致整個訓練任務中斷。對AI大模型訓練來說,故障意味著要從checkpoint檢查點重新加載模型、重啟訓練,浪費數天時間和高額電費。
對企業來說,不中斷、不重訓,比多幾張卡更加重要。
![]()
二是GPU閑置導致的每Token成本過高。
業內已有共識,超節點規模存在“甜點”,超過甜點后,繼續增加超節點規模,性能提升有限但成本顯著上升。有模擬數據顯示,十萬億參數模型,甜點大概在32-64卡。也就是說,盲目追求上百張卡的超大規模,算力利用率也許并不高,GPU大部分時間是在閑置。比如說,DeepSeek官方論文給的參考方案,Decode階段需用144張H800,如果超節點使用的國產卡算力是H800的1/3,那么在PD分離場景下,48卡甚至32卡才是更優選擇。
三是運維復雜度提升導致的總體TCO成本增加。
高集成度的超節點產品,對運維團隊的專業能力要求極高,一旦規模增大,內部故障點也會隨之增多,小團隊很難靠自己處理。比如英偉達早期就曾嘗試過二層架構超節點,將交換機集成到單機內以擴大規模,但企業客戶更傾向于選擇單層架構,核心就是為了降低故障點、減少運維難度。英偉達256卡超節點也由于TCO總擁有成本太高,而互聯網企業客戶對TCO很重視,未能成功商業化。
所以,超節點并不是規模越大卡越多就越好。企業需要的是能解決算力問題,且ROI投資回報率最優的IT基礎設施。超節點技術的發展,要回歸讓企業用AI更省的出發點,與企業AI業務相適配的方案才是最優解。
![]()
既然堆卡不是出路,那么如何才能讓超節點真正成為企業的省錢利器?產業界已經給出了答案:回歸理性,追求規模與需求的適配,并通過開放生態降低綜合成本。
一方面,越來越多的廠商將目光投向32卡、64卡這樣的更合身的規模。
如前所說,超過性能-成本甜點區之后,超節點的邊際效益就會遞減。因此,大量國產廠商聚焦在32-64卡的實用化設計,推出貼合企業需求的產品。比如新華三UniPoD S80000,實現了單機柜32/64卡高密部署等,讓多數企業能夠負擔得起大模型訓推開銷。而且,新華三UniPoD S80000采用單層全互聯架構,大幅降低了通信延遲和故障點,在MoE等主流模型場景下,更有助于保障業務連續性。剛好的規模與更高的可靠性,成為AI算力降本增效的關鍵。
![]()
(新華三超節點H3C UniPoD S80000)
另一方面,開放的硬件生態正在成為降低成本的新引擎。
隨著國產芯片生態成熟,開放式架構支持多品牌國產加速卡,打破海外高端卡壟斷,為用戶提供了更多選擇,從而降低企業的算力成本。這類開放式超節點,也成為算力普惠的關鍵。比如新華三超節點支持多品牌國產加速卡,兼容CUDA等主流軟件生態,降低企業的供應鏈成本。
上述實踐,有望助力超節點的普及,從頭部企業的專屬品,成為千行百業的普惠基礎設施。
![]()
需要說明的是,數百卡、千卡超節點的研發,有其戰略意義。這一技術路線,推動了光互聯、液冷、高密度布線等底層技術的極限突破,是中國算力產業仰望星空的沖頂之路。
AI發展的速度總是超出預期,可能今天覺得32卡就夠了,但明天DeepSeek的新模型,也許內含更多專家,超大規模的超節點或許可以帶來更低的每token成本。所以,適當超前,把超節點規模進一步做大,可以給后續技術迭代留下一定的冗余。
但對于更廣大的99%普通企業而言,需要的是腳踏實地的普惠之路。他們更迫切地希望,使用成本可控、穩定可靠的超節點產品,解決當下大模型落地的算力焦渴,支撐AI在生產力場景中落地。
![]()
所以堆卡炫技之外,這條更合身的普惠之路,同樣勢在必行,不可偏廢。
未來行業發展的理想狀態,是這兩條路并行不悖。既有震撼世界的算力巨無霸,也有服務千行百業的普惠產品。企業無需關心超節點內部有多少卡,只要插上電,AI就能跑起來,也不用擔心基礎設施的賬單出現天文數字。
實現這一目標,只能靠智算廠商急企業之所急,將可靠性、每token成本、TCO等指標,同步納入超節點的研發技術路線圖。別忘了,讓企業用AI更省,才是超節點技術的核心價值,也是商業成功的前提。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.