網易首頁 > 網易號 > 正文申請入駐

不再卷算力的2026，英偉達開始重做數據中心

2026-01-21 09:24:44　來源: 半導體行業觀察

上海舉報

分享至

2026 年，AI 數據中心發展進入了一個新的瓶頸階段。

單純的算力堆砌似乎已經走到了盡頭，隨著代理式 AI 的興起、混合專家模型（MoE）的普及，以及百萬 token 級長上下文逐漸成為常態，大型云廠商開始意識到，競爭的關鍵不再是誰擁有更多 GPU，而是誰能更高效地使用，誰能把系統整體效率真正拉起來。

但傳統數據中心的短板已經暴露無遺：當代理式 AI 需要處理多輪復雜對話時，它必須頻繁調用不同的專家模型，同時保持對歷史上下文的準確記憶。在這個過程中，GPU 可能大部分時間處于等待狀態——等待數據從內存傳輸過來，等待網絡將其他節點的計算結果送達，等待存儲系統調出歷史記憶。

正是在這樣的背景下，英偉達在 CES 2026 上正式發布了 Rubin 平臺和 BlueField-4。它們并非是一次硬件的常規升級，而是對傳統數據中心低效這一癥結開出的新處方，從某種意義上說，英偉達“重做了一次數據中心”，構建起了真正面向 AI 原生時代的硬件底座。

算力底座革命：

Rubin 平臺的六芯協同突破

我們先從一切計算工作的核心——Rubin 平臺說起。

與以往圍繞單一核心器件不斷迭代的路徑不同，Rubin 最顯著的變化在于，它從一開始就放棄了“單點升級”的思路，而是以系統為基本設計單元，將 Vera CPU、Rubin GPU、NVLink 6 交換機、Spectrum-6 以太網交換機、ConnectX-9 SuperNIC 以及 BlueField-4 DPU 六款芯片整合為一個高度耦合的計算整體。

英偉達將這種設計方式稱為“極致協同設計”（extreme co-design），其核心目標并不是某一組件的性能最大化，而是讓整個系統在真實 AI 負載下更高效地運轉。

從計算核心來看，Rubin GPU 依然延續了英偉達在算力上的快速推進。該 GPU 采用雙芯粒設計，集成約 3360 億個晶體管，并引入第三代 Transformer 引擎，支持硬件級自適應壓縮。這一機制通過在不犧牲精度的前提下降低數據規模，使 Rubin GPU 為 AI 推理提供高達 50 PFLOPS 的 NVFP4 運算能力，更貼合當下以推理為主、上下文不斷拉長的模型使用場景。

與之配合的 Vera CPU，同樣是圍繞系統效率進行設計。相比上一代 Grace，Vera 在性能和架構層面均有明顯提升。其采用 88 個定制的 Olympus 核心，兼容 Armv9.2 架構，并通過 NVLink-C2C 與 GPU 建立高速直連。

值得一提的是，每個 Olympus 核心都支持 NVIDIA Spatial Multithreading（空間多線程），通過在物理層面對核心資源進行劃分，實現最多 176 個并發線程，使系統能夠在運行時在性能優先或密度優先之間靈活取舍。這種設計，直接服務于多模型并行和復雜調度場景。

連接這些芯片的則是第六代 NVLink 交換機。NVLink 6 將單 GPU 的互連帶寬提升至 3.6 TB/s，使 Vera Rubin NVL72 機架內部的總互連帶寬達到 260 TB/s。在這一帶寬規模下，72 個 GPU 能夠以接近單一計算體的方式協同工作，大幅減少模型切分、跨節點通信以及同步等待所帶來的額外開銷。這一點對 MoE 等高度依賴專家調度的模型尤為關鍵。

根據英偉達公布的數據，在全新的 Rubin 平臺上，AI 推理的 token 成本可降至 Blackwell 平臺的約十分之一，而 MoE 模型訓練所需的 GPU 數量也僅為前代平臺的四分之一左右。

顯然，英偉達如今已不再執著于提升單卡算力，而是通過多組件的同步升級，實現更低成本、更低功耗的算力輸出，從而把數據中心的運行效率帶入了新的層級。

基建協同升級：

BlueField-4 引領的存儲與網絡重構

如果說 Rubin 平臺解決了算力輸出問題，那么 BlueField-4 及其驅動的基礎設施升級想要解決的，就是算力如何高效發揮的問題。

在代理式 AI、長上下文推理和多智能體協同成為主流之后，數據中心的瓶頸轉移到了存儲、網絡和控制面，實際應用中的大模型需要持續訪問大量歷史信息，但對應的鍵值（KV）緩存既無法長期占用 GPU 顯存，也無法交給傳統存儲體系處理——后者在延遲、并發訪問和跨節點共享上的表現，都會讓實時推理陷入等待。

圍繞這一痛點，英偉達引入了推理上下文記憶存儲平臺，而 BlueField-4 DPU 正是這一平臺的核心執行單元。BlueField-4 通過專用處理器和硬件加速引擎，將 KV 緩存的部署、管理和共享從 CPU 與 GPU 上徹底卸載出來，并借助 DOCA 框架實現跨節點的智能調度。當計算節點需要歷史上下文時，數據可以以極低延遲被送達，GPU 不再為等待存儲而空轉。

這種重構帶來了顯而易見的性能提升。英偉達提供的官方數據顯示，與傳統存儲方案相比，該平臺在每秒 token 處理量、單位 TCO 性能以及能效上均可實現最高 5 倍提升。這并非某個單點優化的結果，而是因為原本分散在軟件棧各處、消耗大量通用算力的雜務，被集中交由專用硬件完成。

但僅靠存儲并不足以釋放這部分潛力。KV 緩存需要在節點、機柜乃至集群之間高速流動，這要求網絡具備穩定、可預測的低延遲特性。英偉達在這一層面將 BlueField-4 與 Spectrum-X 以太網、Spectrum-6 交換機綁定為一個整體，這也是 Rubin 平臺的六芯協同的進一步擴展。

其中，Spectrum-X 針對 AI 工作負載優化了 RDMA 數據路徑，減少橫向擴展中的抖動與擁塞，讓跨節點訪問不再成為不確定因素。Spectrum-6 進一步引入硅光技術，使高帶寬、長距離傳輸在功耗和穩定性上具備更好的可擴展性，標志著數據中心網絡從“電”向“光”的實質性遷移。

在 Rubin 平臺內部，高速計算通過 NVLink 6 完成；當數據需要跨機柜或跨集群流動時，則由 Spectrum-X 和 Spectrum-6 接管；而需要長期保存、反復訪問的推理上下文，則由 BlueField-4 管理的存儲體系承載。計算、存儲與網絡不再是各自獨立優化的模塊，而是被串聯為一條連續、可控的數據通路，這正是 AI 原生數據中心與傳統架構的本質差異。

在多租戶云環境中，這樣的協同還建立在清晰的安全邊界之上。BlueField-4 通過零信任架構和硬件級隔離，將網絡、存儲和安全控制收斂到 DPU 管理之下。不同工作負載在物理層面被強制隔離，即便上層系統出現問題，也難以跨越這一硬件邊界獲取其他租戶的數據。同時，借助 DOCA Argus 提供的基礎設施級遙測能力，系統可以在推理運行過程中實時感知異常行為，為 AI 負載提供與其運行速度相匹配的安全保障。

更重要的是，這種設計讓大量基礎設施任務——包括網絡協議處理、存儲 I/O 管理、虛擬化與安全策略執行——不再消耗 CPU 或 GPU 的算力預算。BlueField-4 將這些工作全部接管，使主計算單元能夠更專注于推理和訓練本身，從而在不增加硬件規模的情況下提升有效算力占比。

算力與基建的協同效應：

完整價值閉環的形成

從 Rubin 到 BlueField-4，英偉達給出的并不是兩條并行的產品線，而是打造出 AI 原生數據中心的完整價值閉環。

以數據中心中的代理式 AI 的長上下文推理為例，大模型往往需要在當前推理計算與大量歷史信息之間頻繁切換，在英偉達所打造的閉環中，Rubin GPU 負責密集的推理計算，長上下文由 BlueField-4 管理的存儲體系承載，機柜內通過 NVLink 6 實現高速共享，跨機柜則交由 Spectrum-X 網絡完成傳輸。計算、記憶與通信各自承擔最適合的角色，GPU 不再因等待上下文而空轉，整體響應時間隨之下降。

到了大規模 MoE 模型訓練，二者協同帶來的收益更加明顯。MoE 的動態專家選擇會導致計算與通信負載高度不均衡，傳統架構下容易出現部分 GPU 忙碌、部分 GPU 等待的情況。Rubin 平臺通過高速互連和調度能力減少這種不均衡，而 BlueField-4 將基礎設施相關的工作從主計算路徑中剝離，使更多 GPU 周期用于有效計算，最終實現系統效率的提升。

這種全新的協同設計還具備極強的可擴展性，以 DGX SuperPOD 為代表的機柜級設計，將算力與基建整合為了標準化單元，可直接橫向擴展至數萬 GPU 規模的集群，讓多個數據中心在邏輯上形成連續的 AI 計算平臺，真正滿足未來更大規模 AI 應用的算力與基建需求。

不止如此，場景化價值驗證也進一步印證了協同設計的高度可用性。在物理 AI 領域，英偉達與西門子達成了深度合作，西門子的埃爾朗根電子工廠將成為全球首批完全由 AI 驅動、具備自適應能力的制造基地，其“AI 大腦”能夠持續分析數字孿生、在虛擬環境中測試改進方案、將經驗證的洞察轉化為車間操作變更。

這一 AI 工廠的構建過程，又對實時性、可靠性、數據一致性有了新的要求，只有算力、存儲、網絡緊密協同的系統才能勝任，而 Rubin 與 BlueField-4 正是支撐這一能力的核心基石。

對于英偉達而言，Rubin 與 BlueField-4 的價值閉環，不僅解決了當下的 AI 數據中心的問題，也構建了一套面向未來、可持續演進的技術體系，指明了未來 AI 原生計算的發展方向。

真正的創新

過去十年，數據中心一直遵循著相同的邏輯，先有更快的 CPU，然后加上 GPU 加速，再加上更快的網絡，然后是更大的存儲…… 每次升級都聚焦于某個單點，期待通過局部優化來提升整體性能。這種思路在 AI 負載相對簡單時尚能奏效，但面對代理式 AI、物理 AI 等新一代應用，已經力不從心。

而在 CES 2026 上，英偉達用 Rubin 和 BlueField-4 告訴大家：AI 原生數據中心需要摒棄過往的陳舊發展思路，用算力+基建的全新協同架構“從頭來過”。

這一思路并不局限在英偉達自己的基礎設施之中，未來可能會有愈來愈多的基礎設施廠商效仿，推出各自的協同架構方案，芯片設計、服務器制造、數據中心建設的邊界會變得模糊，系統集成能力會成為新的競爭焦點。可以說，Rubin 與 BlueField-4 的真正價值不在于某個具體的性能指標，而在于它展示了一種新的構建 AI 基礎設施的方法論。

這或許是英偉達在 CES 2026 上留給我們的最重要啟示。技術的進步不只是參數的提升，更是思維方式的轉變。當 AI 開始重塑計算的底層邏輯時，我們需要用新的視角來理解什么是真正的性能，什么是真正的效率，以及什么是真正的創新。

*免責聲明：本文由作者原創。文章內容系作者個人觀點，半導體行業觀察轉載僅為了傳達一種不同的觀點，不代表半導體行業觀察對該觀點贊同或支持，如果有任何異議，歡迎聯系半導體行業觀察。

今天是《半導體行業觀察》為您分享的第4294期內容，歡迎關注。

加星標??第一時間看推送

求推薦

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.