2026 年,AI 數據中心發展進入了一個新的瓶頸階段。
單純的算力堆砌似乎已經走到了盡頭,隨著代理式 AI 的興起、混合專家模型(MoE)的普及,以及百萬 token 級長上下文逐漸成為常態,大型云廠商開始意識到,競爭的關鍵不再是誰擁有更多 GPU,而是誰能更高效地使用,誰能把系統整體效率真正拉起來。
但傳統數據中心的短板已經暴露無遺:當代理式 AI 需要處理多輪復雜對話時,它必須頻繁調用不同的專家模型,同時保持對歷史上下文的準確記憶。在這個過程中,GPU 可能大部分時間處于等待狀態——等待數據從內存傳輸過來,等待網絡將其他節點的計算結果送達,等待存儲系統調出歷史記憶。
正是在這樣的背景下,英偉達在 CES 2026 上正式發布了 Rubin 平臺和 BlueField-4。它們并非是一次硬件的常規升級,而是對傳統數據中心低效這一癥結開出的新處方,從某種意義上說,英偉達“重做了一次數據中心”,構建起了真正面向 AI 原生時代的硬件底座。
![]()
算力底座革命:
Rubin 平臺的六芯協同突破
我們先從一切計算工作的核心——Rubin 平臺說起。
與以往圍繞單一核心器件不斷迭代的路徑不同,Rubin 最顯著的變化在于,它從一開始就放棄了“單點升級”的思路,而是以系統為基本設計單元,將 Vera CPU、Rubin GPU、NVLink 6 交換機、Spectrum-6 以太網交換機、ConnectX-9 SuperNIC 以及 BlueField-4 DPU 六款芯片整合為一個高度耦合的計算整體。
英偉達將這種設計方式稱為“極致協同設計”(extreme co-design),其核心目標并不是某一組件的性能最大化,而是讓整個系統在真實 AI 負載下更高效地運轉。
從計算核心來看,Rubin GPU 依然延續了英偉達在算力上的快速推進。該 GPU 采用雙芯粒設計,集成約 3360 億個晶體管,并引入第三代 Transformer 引擎,支持硬件級自適應壓縮。這一機制通過在不犧牲精度的前提下降低數據規模,使 Rubin GPU 為 AI 推理提供高達 50 PFLOPS 的 NVFP4 運算能力,更貼合當下以推理為主、上下文不斷拉長的模型使用場景。
與之配合的 Vera CPU,同樣是圍繞系統效率進行設計。相比上一代 Grace,Vera 在性能和架構層面均有明顯提升。其采用 88 個定制的 Olympus 核心,兼容 Armv9.2 架構,并通過 NVLink-C2C 與 GPU 建立高速直連。
值得一提的是,每個 Olympus 核心都支持 NVIDIA Spatial Multithreading(空間多線程),通過在物理層面對核心資源進行劃分,實現最多 176 個并發線程,使系統能夠在運行時在性能優先或密度優先之間靈活取舍。這種設計,直接服務于多模型并行和復雜調度場景。
連接這些芯片的則是第六代 NVLink 交換機。NVLink 6 將單 GPU 的互連帶寬提升至 3.6 TB/s,使 Vera Rubin NVL72 機架內部的總互連帶寬達到 260 TB/s。在這一帶寬規模下,72 個 GPU 能夠以接近單一計算體的方式協同工作,大幅減少模型切分、跨節點通信以及同步等待所帶來的額外開銷。這一點對 MoE 等高度依賴專家調度的模型尤為關鍵。
根據英偉達公布的數據,在全新的 Rubin 平臺上,AI 推理的 token 成本可降至 Blackwell 平臺的約十分之一,而 MoE 模型訓練所需的 GPU 數量也僅為前代平臺的四分之一左右。
顯然,英偉達如今已不再執著于提升單卡算力,而是通過多組件的同步升級,實現更低成本、更低功耗的算力輸出,從而把數據中心的運行效率帶入了新的層級。
基建協同升級:
BlueField-4 引領的存儲與網絡重構
如果說 Rubin 平臺解決了算力輸出問題,那么 BlueField-4 及其驅動的基礎設施升級想要解決的,就是算力如何高效發揮的問題。
在代理式 AI、長上下文推理和多智能體協同成為主流之后,數據中心的瓶頸轉移到了存儲、網絡和控制面,實際應用中的大模型需要持續訪問大量歷史信息,但對應的鍵值(KV)緩存既無法長期占用 GPU 顯存,也無法交給傳統存儲體系處理——后者在延遲、并發訪問和跨節點共享上的表現,都會讓實時推理陷入等待。
圍繞這一痛點,英偉達引入了推理上下文記憶存儲平臺,而 BlueField-4 DPU 正是這一平臺的核心執行單元。BlueField-4 通過專用處理器和硬件加速引擎,將 KV 緩存的部署、管理和共享從 CPU 與 GPU 上徹底卸載出來,并借助 DOCA 框架實現跨節點的智能調度。當計算節點需要歷史上下文時,數據可以以極低延遲被送達,GPU 不再為等待存儲而空轉。
![]()
這種重構帶來了顯而易見的性能提升。英偉達提供的官方數據顯示,與傳統存儲方案相比,該平臺在每秒 token 處理量、單位 TCO 性能以及能效上均可實現最高 5 倍提升。這并非某個單點優化的結果,而是因為原本分散在軟件棧各處、消耗大量通用算力的雜務,被集中交由專用硬件完成。
但僅靠存儲并不足以釋放這部分潛力。KV 緩存需要在節點、機柜乃至集群之間高速流動,這要求網絡具備穩定、可預測的低延遲特性。英偉達在這一層面將 BlueField-4 與 Spectrum-X 以太網、Spectrum-6 交換機綁定為一個整體,這也是 Rubin 平臺的六芯協同的進一步擴展。
其中,Spectrum-X 針對 AI 工作負載優化了 RDMA 數據路徑,減少橫向擴展中的抖動與擁塞,讓跨節點訪問不再成為不確定因素。Spectrum-6 進一步引入硅光技術,使高帶寬、長距離傳輸在功耗和穩定性上具備更好的可擴展性,標志著數據中心網絡從“電”向“光”的實質性遷移。
在 Rubin 平臺內部,高速計算通過 NVLink 6 完成;當數據需要跨機柜或跨集群流動時,則由 Spectrum-X 和 Spectrum-6 接管;而需要長期保存、反復訪問的推理上下文,則由 BlueField-4 管理的存儲體系承載。計算、存儲與網絡不再是各自獨立優化的模塊,而是被串聯為一條連續、可控的數據通路,這正是 AI 原生數據中心與傳統架構的本質差異。
在多租戶云環境中,這樣的協同還建立在清晰的安全邊界之上。BlueField-4 通過零信任架構和硬件級隔離,將網絡、存儲和安全控制收斂到 DPU 管理之下。不同工作負載在物理層面被強制隔離,即便上層系統出現問題,也難以跨越這一硬件邊界獲取其他租戶的數據。同時,借助 DOCA Argus 提供的基礎設施級遙測能力,系統可以在推理運行過程中實時感知異常行為,為 AI 負載提供與其運行速度相匹配的安全保障。
更重要的是,這種設計讓大量基礎設施任務——包括網絡協議處理、存儲 I/O 管理、虛擬化與安全策略執行——不再消耗 CPU 或 GPU 的算力預算。BlueField-4 將這些工作全部接管,使主計算單元能夠更專注于推理和訓練本身,從而在不增加硬件規模的情況下提升有效算力占比。
算力與基建的協同效應:
完整價值閉環的形成
從 Rubin 到 BlueField-4,英偉達給出的并不是兩條并行的產品線,而是打造出 AI 原生數據中心的完整價值閉環。
以數據中心中的代理式 AI 的長上下文推理為例,大模型往往需要在當前推理計算與大量歷史信息之間頻繁切換,在英偉達所打造的閉環中,Rubin GPU 負責密集的推理計算,長上下文由 BlueField-4 管理的存儲體系承載,機柜內通過 NVLink 6 實現高速共享,跨機柜則交由 Spectrum-X 網絡完成傳輸。計算、記憶與通信各自承擔最適合的角色,GPU 不再因等待上下文而空轉,整體響應時間隨之下降。
到了大規模 MoE 模型訓練,二者協同帶來的收益更加明顯。MoE 的動態專家選擇會導致計算與通信負載高度不均衡,傳統架構下容易出現部分 GPU 忙碌、部分 GPU 等待的情況。Rubin 平臺通過高速互連和調度能力減少這種不均衡,而 BlueField-4 將基礎設施相關的工作從主計算路徑中剝離,使更多 GPU 周期用于有效計算,最終實現系統效率的提升。
![]()
這種全新的協同設計還具備極強的可擴展性,以 DGX SuperPOD 為代表的機柜級設計,將算力與基建整合為了標準化單元,可直接橫向擴展至數萬 GPU 規模的集群,讓多個數據中心在邏輯上形成連續的 AI 計算平臺,真正滿足未來更大規模 AI 應用的算力與基建需求。
不止如此,場景化價值驗證也進一步印證了協同設計的高度可用性。在物理 AI 領域,英偉達與西門子達成了深度合作,西門子的埃爾朗根電子工廠將成為全球首批完全由 AI 驅動、具備自適應能力的制造基地,其“AI 大腦”能夠持續分析數字孿生、在虛擬環境中測試改進方案、將經驗證的洞察轉化為車間操作變更。
這一 AI 工廠的構建過程,又對實時性、可靠性、數據一致性有了新的要求,只有算力、存儲、網絡緊密協同的系統才能勝任,而 Rubin 與 BlueField-4 正是支撐這一能力的核心基石。
對于英偉達而言,Rubin 與 BlueField-4 的價值閉環,不僅解決了當下的 AI 數據中心的問題,也構建了一套面向未來、可持續演進的技術體系,指明了未來 AI 原生計算的發展方向。
真正的創新
過去十年,數據中心一直遵循著相同的邏輯,先有更快的 CPU,然后加上 GPU 加速,再加上更快的網絡,然后是更大的存儲…… 每次升級都聚焦于某個單點,期待通過局部優化來提升整體性能。這種思路在 AI 負載相對簡單時尚能奏效,但面對代理式 AI、物理 AI 等新一代應用,已經力不從心。
而在 CES 2026 上,英偉達用 Rubin 和 BlueField-4 告訴大家:AI 原生數據中心需要摒棄過往的陳舊發展思路,用算力+基建的全新協同架構“從頭來過”。
這一思路并不局限在英偉達自己的基礎設施之中,未來可能會有愈來愈多的基礎設施廠商效仿,推出各自的協同架構方案,芯片設計、服務器制造、數據中心建設的邊界會變得模糊,系統集成能力會成為新的競爭焦點。可以說,Rubin 與 BlueField-4 的真正價值不在于某個具體的性能指標,而在于它展示了一種新的構建 AI 基礎設施的方法論。
這或許是英偉達在 CES 2026 上留給我們的最重要啟示。技術的進步不只是參數的提升,更是思維方式的轉變。當 AI 開始重塑計算的底層邏輯時,我們需要用新的視角來理解什么是真正的性能,什么是真正的效率,以及什么是真正的創新。
*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯系半導體行業觀察。
今天是《半導體行業觀察》為您分享的第4294期內容,歡迎關注。
加星標??第一時間看推送
求推薦
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.