網易首頁 > 網易號 > 正文申請入駐

一文看懂DeepSeek與清北最新論文：劇透V4底層架構，或改寫大模型推理格局

2026-02-27 19:01:44　來源: 搜狐科技

北京舉報

分享至

出品｜搜狐科技

作者｜鄭松毅

編輯| 楊錦

就在全世界都盯著V4發布時，DeepSeek先給了波劇透。

數小時前，DeepSeek攜手北京大學、清華大學，共同發布了一篇足以改寫大模型推理格局的技術論文，推出了面向大模型智能體的全新推理系統DualPath，瞬間引爆AI圈。

作為中國大模型產學研協同創新的標桿之作，這篇論文跳出“拼參數、堆算力”的老路子，直擊當下大模型核心痛點，敘述著中國大模型從“拼能力”到“拼效率”轉型的新方向。

雙路徑架構攻I/O瓶頸，解“巧婦難為無米之炊”

眼下，大模型已邁入智能體時代，它要像人一樣思考、規劃，但一個長期被忽視的難題，正在制約著它的發展——GPU算力始終沒能充分發揮出來，核心問題就是I/O瓶頸在“拖后腿”。

換言之，今天大模型的痛點，已不是模型不夠聰明，而是跑得不夠快、成本下不來。DualPath的出現，就是為了解決這個癥結。

很多人會問，什么是“I/O瓶頸”，又怎么拖后腿了？

這里可以簡單比喻下：如果把大模型推理過程看作是廚子炒菜，GPU的角色就是手藝頂尖、手腳飛快的廚師；顯存/內存/網絡可以看成廚房的通道、傳送帶；模型每生成一句話，要用到的歷史對話緩存（KV-Cache），就是大廚要用到的配菜、調料、半成品。而I/O，則是把食材從倉庫運到灶臺的全過程——搬運、傳遞、輸送。

大廚再厲害，配菜送不上來，大廚就只能在灶臺前干等。換言之，GPU再強，如果數據傳不過來，它就只能空轉、浪費等數據，這就是行業內最致命的“I/O瓶頸”。

過去幾年，大模型越做越大，用戶越來越多，對話數據越來越長，需要搬運的食材——歷史對話緩存（KV-Cache）也就越多。結果就是傳輸通道越來越擁擠，GPU利用率越來越低，成本越來越高。

而DeepSeek這次和清北合作提出的 DualPath雙路徑架構，本質就是修了兩條各具功能的專用傳輸通道，解決堵塞問題。

具體來看，DualPath改變了傳統的存儲至預填充引擎（Storage-to-Prefill）單路徑加載模式，引入了存儲至解碼引擎（Storage-to-Decode）的第二條路徑。

傳統路徑下，緩存直接讀入預填充（PE）。而新路徑下，緩存先讀入解碼（DE）的緩沖池，再通過RDMA傳輸給預填充（PE）。通過兩條路徑間的動態選擇，DualPath重新分配了網絡負載，緩解了預填充引擎側的帶寬壓力。

我們可以把預填充引擎看作是主路徑，把解碼引擎看作是輔助路徑。主路徑負責準備當下大廚立刻要用的食材，保證伸手抓的時候就有，不耽誤火候。而輔助路徑負責趁不忙時，提前把食材運來備好，不耽誤主通道工作，打好配合。

性能翻倍，與清北多次聯手破題

值得一提的是，這套理論并不只是實驗室故事，而是真的在GPU集群上驗證過了：DualPath將離線推理吞吐量最高提升1.87倍，在線服務吞吐量平均提升1.96倍，請求承載能力最高提升2.25倍。

業內觀點認為，這些亮眼數據的背后，是大模型服務成本的大幅降低，更是規模化落地能力的顯著提升。對企業來說，同樣的算力投入能獲得兩倍的服務產出，無疑會進一步降低AI應用門檻。對開發者來說，此前難以實現的長上下文、多輪交互等功能，如今能穩定落地，給智能體的創新應用打開了新空間。

事實上，這已不是三方的首次合作。

近半年來，DeepSeek已與北大、清華聯手推出了多項重磅成果：比如ACL 2025最佳論文中提出的原生稀疏注意力（NSA）技術，把長文本處理速度提升了11倍；還有2026年1月發布的條件記憶（Engram）架構，通過把“記憶”與“計算”拆分開來，大幅降低了推理成本和內存占用。

V4箭在弦上

巧合的是，就在這篇論文發布的同時，業內對DeepSeek V4版本的發布猜測也達到了頂峰。

大家普遍認為，這篇DualPath論文絕不是簡單的技術發布，而是DeepSeek V4的底層架構官宣。

從目前行業流傳的消息來看，DeepSeek V4的發布窗口已經鎖定在未來一周，代號為“Sealion-lite”的V4輕量版，已經在部分推理服務商處開展閉門測試，華為等國內芯片廠商也提前拿到了模型訪問權限，完成了國產算力平臺的適配優化。

種種信號表明，V4版本已經進入了發布前的最后倒計時。

關于DeepSeek V4的核心能力，業內的猜測高度一致，并充滿期待。其中最受關注的是百萬級上下文窗口——預計將從V3.2版本的128K tokens躍升至100萬tokens，提升近8倍。相當于模型能一次性讀完多部專業書籍、大型代碼庫，徹底解決了長文本處理的痛點。

其次是原生多模態能力，V4預計將支持文本、圖像等多種格式，從流出的SVG生成示例來看，它在貼合提示詞、形狀準確性和細節豐富度上，都比前代V3.2版本強了不少。

除此之外，智能體能力也是V4的核心亮點，讓模型能更高效地完成復雜任務。更值得一提的是，V4還打破行業慣例，把訪問權限優先給了國內芯片廠商，助力國產化AI生態的構建。

前兩日，美國AI巨頭Anthropic還在指控包括DeepSeek在內的中國AI企業蒸餾抄襲，呼吁嚴控高端芯片出口。如今DeepSeek就向外展示了“靠人不如靠自己”的態度，連外媒都開始擔憂，英偉達股價也應聲下跌。

接下來，就期待著新模型登場了。

運營編輯 |曹倩審核｜孟莎莎

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.