網易首頁 > 網易號 > 正文申請入駐

別再盲目堆卡了！企業AI算力，這種超節點才是剛需

2026-03-26 17:34:44　來源: EEWorld電子工程世界

云南舉報

分享至

隨著國內掀起“全民養蝦”熱潮，人們逐漸發現，算力才是數字化轉型的“硬通貨”。然而，隨著LLM、Agent應用爆發式增長，企業卻紛紛陷入了焦慮。

當前，8卡服務器是主流，在模型研發初期，它能從容承接小模型訓練、輕量推理及原型驗證等需求，是入門利器。可當AI產業邁入商業化深水區，8卡服務器的局限性便徹底暴露，淪為發展瓶頸。有人試圖通過堆卡解決問題，可動輒數百卡、上千卡的大規模超節點集群，對絕大多數企業而言都堪稱天文數字。

算力瓶頸已成為企業數字化轉型的“攔路虎”。在此背景下，中科曙光3月26日在中關村論壇發布的世界首個無線纜箱式超節點scaleX40，就尤其值得關注。對此，行業人士分析，在8卡的性能瓶頸與大集群的高成本之間，定位在普及型超節點的sacleX40有望快速填補市場空白，成為破局關鍵。

算力選型的誤區

首先，傳統8卡服務器因部署簡便、成本可控，一度成為企業的主流優選。不過，隨著大模型參數量向千億、萬億發展，MoE架構成為主流，8卡服務器開始顯存容量吃緊、多驟機協同效率降、并發推理能力不足，很明顯不夠用了。此外，傳統8卡服務器還有高TCO、升級改造復雜、適配難度大等多重問題，已難以滿足日益增長的AI訓練與推理需求。就像用手機處理簡單日常工作沒啥問題，但想做點復雜工作，哪怕多買幾部手機拼一起也解決不了問題，除非換PC。

其次，很多企業認為只要不斷堆料，粗暴疊加卡的數量就能解決問題了。且不說上百卡乃至數百卡的集群采購成本足夠燒光公司幾年的預算，后續的機房、運維、電力成本也非常巨大，對絕大多數都過于昂貴，根本難以負擔。實際上，對這些公司來說，幾十卡已經足夠，就算手持上百卡，大多時候系統也會閑置。就像每天拉幾十噸貨跑，一輛貨車裝不下，但也犯不上買火車。

最后，不少人轉而選擇云算力，看似靈活省心，可長期高頻使用下來，按次計費的成本居高不下，綜合算下來并不劃算，也難以支撐穩定、規模化的業務運行。更重要的是，最近短短三個月內，AWS、谷歌云等廠商集體重塑定價策略，半年前AI創業者還能跟云廠商談折扣，現在能拿到配額就不錯了。

所以，綜合來看，在8卡入門配置與超大規模集群之間，還需要一個過渡。

中小規模的“算力甜點區”

如果你時刻關注行業，可以看到迄今至少有8家廠商推出了自己的“超節點技術”。產品規格也不斷沖高，規模從64到上百，價格門檻層層抬升，但在這背后，真的能讓中小企業買得起、能落地的產品反而成為稀缺品。

行業普遍認為，超節點規模存在性能收益邊際遞減，32卡~256卡為高性價比投資“甜點區”，越往大規模靠攏，性能冗余越多，資源浪費也越嚴重。

32卡是千億級模型商業化落地的基本門檻，能覆蓋更廣泛的行業級應用，顯存池可完整承載模型、梯度與訓練數據，既能支撐千億模型訓練，也能滿足中等并發推理，是兼顧性能與成本的實用配置。

不過，企業業務始終動態變化，模型規模與并發量隨時可能大幅提升，需要在32卡的基礎上進一步拓展能力邊界。此時就存在一個兼顧性能與成本的“算力甜點區”，不僅能夠將采購門檻從“億元級”拉低至“千萬級”，同時適配90%企業場景。

買得起、用得上、用得好的超節點

“算力甜點區”的存在并非秘密，但市場上真正落地又好用的產品卻寥寥無幾。中科曙光便推出了全球首個箱式無線纜超節點scaleX40，讓超節點成為中國算力標配。

在此之前，曙光發布了面向大規模算力需求的超節點scaleX640，證明了自身在“大算力”領域的實力。然而，要讓更多企業真正享受到超節點的技術紅利，就必須向下兼容，這正是scaleX40的使命。從scaleX640的極致性能到scaleX40的普及落地，曙光實現了從“頂配”到“標配”的全場景覆蓋。

scaleX40采用標準19英寸箱式設計，打破傳統柜式超節點的高門檻，以無線纜、即插即用為特色，讓企業無需改造機房、無需專業運維即可擁有超節點級算力。為了能夠一站式搞定超節點運維管理、大模型和智能體開發，曙光還推出了SothisAI平臺。

scaleX40的目標場景包括互聯網、金融、科教、電網、醫療、運營商六大領域，典型應用比如，智能客服、智能投研、風險控制、網絡故障預測、醫學影像輔助、虛擬實驗、智能教學等。

scaleX40超節點共有五個亮點：一是內置40張AI加速卡，總算力超過28 PFLOPS（FP8精度），總顯存超過5TB，訪存帶寬突破80TB/s；二是40張加速卡實現一級Scale-Up全互連，持內存語義與統一顯存編址，聚合帶寬超過17TB/s；三是采用正交架構，相比傳統銅纜方案可用性提升10倍，對比光纖連接功耗降低40%~70%；四是設備尺寸采用標準19英寸規格，兼容主流機柜，支持單柜單Pod或單柜雙Pod的靈活部署方式；五是開箱即用，兼容主流軟件生態，擁有配套的開發工具、基礎軟件、AI大模型與應用，用戶可輕松完成大模型遷移，開箱即用。

與傳統8卡機方案相比，scaleX40在成本幾乎持平的前提下，訓練性能提升20%，推理性能更是大幅提升40%。與組合柜式超節點相比，采購門檻數量級下降。

值得一提的是，通過“scaleX40（計算）+ ScaleFabric（網絡）+ ParaStor F9000（存儲）”的存算傳三級強協同技術架構，訓推帶寬提升2倍以上，大模型推理TTFT降低97%，GPU利用率提升，KV cache offload卸載顯存壓力。

經過測試，在vLLM+ParaStor+XDS+KV cache offload框架、scaleX40+scaleFabric（400G IB互連+ParaStor F9000的環境下，DeepSeek-R1-0528-671B的TTFT時場降低了97.3%，破局了當下推理性能瓶頸。

此外，scaleX40也支持OpenClaw私有化部署，為每位用戶提供專屬AI智能助手，聯動平臺skill、API及Agent，實現超節點高效管理與應用。

回歸理性，敏捷超節點是AI富場景落地的最優解

最佳算力不是最貴的，而是最匹配業務的，理性選型的核心是“剛剛好”。40卡之所以成為行業共識，正是因為它既足夠敏捷，又在“夠用”與“不浪費”之間找到了黃金平衡點。

scaleX40的發布，一方面定義了性能上限，展現了頂尖的互連拓撲與集成能力，為多種AGI技術路線提供了極致算力支撐，另一方面提升了全系標準，其核心架構（統一互連、全局內存、異構支持）將惠及整個產品矩陣，確保客戶無論從小規模起步驗證技術路線，還是擴展至大規模部署，都能獲得一致的體驗。

這意味著，無論客戶的集群規模大小、技術路線如何選擇，都能依托源自同一技術藍圖的先進架構優勢，獲得適配自身需求的最優方案。

更重要的是，scaleX40在性能與成本間取得平衡，向下可兼容32卡配置，向上則可通過擴展構建更大規模的集群，這種靈活性，使企業能夠根據自身業務節奏分步投入，而非一次性押注。

技術的價值一定要回歸千行百業，喧囂退去，務實才是長久之道，曙光的scaleX40無疑做到了這一點。

來源：電子工程世界（EEWorld）作者：付斌

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.