![]()
編輯|張倩、陳陳
2026 年 1 月過半,我們依然沒有等來 DeepSeek V4,但它的模樣已經愈發清晰。
最近,DeepSeek 連發了兩篇論文,一篇解決信息如何穩定流動,另一篇聚焦知識如何高效檢索。
第一篇論文(mHC)出來的時候,打開論文的人都表示很懵,直呼看不懂,讓 AI 助手用各種方式講給自己聽。我們也翻了翻網友的討論,發現理解起來比較透徹的辦法其實還是要回到研究脈絡,看看這些年研究者們是怎么接力的。要理解第二篇論文(Conditional Memory)也是如此。
于是,我們就去翻各路研究者的分析。這個時候,我們發現了一個有意思的現象:DeepSeek 和字節 Seed 團隊的很多工作其實是存在「接力」的 ——mHC 在字節 Seed 團隊 HC(Hyper-Connections)的基礎上進行了重大改進;Conditional Memory 則引用了字節 Seed 的 OverEncoding、UltraMem 等多項工作。
如果把這些工作之間的關系搞清楚,相信我們不僅可以加深對 DeepSeek 論文的理解,還能看清大模型架構創新正在往哪些方向突破。
在這篇文章中,我們結合自己的觀察和學界專家的點評,嘗試為大家梳理了一下。
殘差連接的十年接力
要理解 mHC,得先回到 2015 年。
那一年,AI 大牛何愷明等人提出了 ResNet,用殘差連接解決了深度神經網絡訓練中的老大難問題:網絡層數一多,信息從前往后傳遞時會逐漸失真,到最后幾層幾乎學不到東西。殘差連接的思路很簡單,每一層不光接收上一層處理過的結果,還同時保留一份原始輸入,兩者加在一起再往下傳。
這個設計堪稱深度學習的基石,十年來幾乎所有主流深度網絡架構都以殘差連接為默認配置。從視覺領域的各類 CNN,到自然語言處理領域的 Transformer,再到如今的大語言模型,無一例外。
期間,研究者們大多在注意力機制、歸一化方法、激活函數等方面做了大量改進,但殘差連接的基本形式幾乎沒有根本性變化。
直到 2024 年 9 月,字節 Seed 提出了 HC,論文后來被 ICLR 2025 接收。
HC 的核心創新在于顯著提升了網絡的拓撲復雜度,同時不改變單個計算單元的 FLOPs 開銷。這意味著在相同的計算預算下,模型可以探索更豐富的特征組合方式。
中國人民大學長聘副教授、博士生導師劉勇認為:HC 打破了由 ResNet 統治的恒等映射殘差連接傳統,提出了多路并發連接的新范式。它通過引入寬度動態性和跨層特征聚合,證明了通過增加殘差路徑的特征維(Expansion)和引入可學習的 Dynamic Hyper Connections 可以有效緩解 Representation Collapse 的問題并提升大語言模型的預訓練效率,提供了一個超越傳統殘差網絡的全新架構底座,即不再局限于單路徑的特征疊加,而是通過超連接構建一個更高維、更靈活的特征流動空間。
DeepSeek 在 mHC 論文中表示:近年來,以 Hyper-Connections(HC)(Zhu et al., 2024) 為代表的研究,為殘差連接引入了一個新的維度,并在實驗上驗證了其顯著的性能潛力。HC 的單層結構如圖 1 (b) 所示。通過擴展殘差流的寬度并提升連接結構的復雜性,HC 在不改變單個計算單元 FLOPs 開銷的前提下,顯著提升了網絡的拓撲復雜度。
![]()
可以看出:字節 Seed 提出的「擴展殘差流寬度 + 可學習連接矩陣」這一新的架構范式,構成了其后續方法設計的重要基礎,相關工作正是在這一范式框架內進一步展開的。
但 HC 在走向大規模訓練的過程中遇到了瓶頸,導致訓練不穩定和受限的可擴展性。盡管如此,但其為后續研究指明了方向。劉勇認為,HC 論文為 mHC 研究提供了三個核心思路:
- 首先是寬度擴展(Stream Expansion),即通過將殘差流維度擴大(如擴大至 4 倍或更多),能夠顯著增強模型的容量和學習能力;
- 其次是多尺度連接的權重化,通過引入可學習矩陣來分配不同層級特征的貢獻,啟示了連接權重管理(mHC 中的 Sinkhorn-Knopp 算法)的重要性;
- 最后是動態拓撲的潛力,論文展示了模型可以根據深度動態調整特征流向,這種軟拓撲結構為解決深層網絡訓練難點提供了新視角。這些探索讓 mHC 意識到,雖然拓撲結構的復雜化能帶來增益,但也必須解決隨之而來的訓練穩定性與工程效率問題。
正是基于這些探索,DeepSeek 團隊得以明確 mHC 的研究方向:在繼承 HC 架構優勢的同時,針對性地解決其規模化瓶頸。
劉勇指出:mHC 針對 HC 在大規模部署時暴露的穩定性風險和內存訪問開銷進行了針對性改進。在研究思路上,mHC 延續了 HC 的寬度擴展與多路徑聚合,并進一步通過 Sinkhorn-Knopp 等技術手段,施加流形約束,將 HC 的廣義空間投影回特定流形,從而在保留 HC 性能優勢的同時,重新找回了殘差網絡至關重要的恒等映射特性,解決了 HC 在超大規模訓練時的不穩定性。在工程層面,mHC 中提出了更高效的內核優化(Infrastructure Optimization),使該范式從理論實驗走向了萬億級參數規模的工業級應用。
基于這些改進,mHC 不僅解決了穩定性問題,且在大規模訓練中(如 27B 模型)表現出卓越的可擴展性。
我們不難發現,mHC 解決了 HC 在大規模訓練中的工程瓶頸。通過引入流形約束,mHC 在保留 HC 架構優勢的同時恢復了訓練穩定性,使得這一新范式真正具備了在主流大模型訓練中應用的條件。
有網友認為:DeepSeek 提出的 mHC 是對字節 Seed HC 訓練架構技巧的一次頗具說服力的推進。
![]()
從 2015 年殘差連接問世,到 2024 年字節 Seed 提出 HC,再到 2026 年 DeepSeek 提出 mHC,我們清楚地看到殘差連接在算法上的演進,是不同機構、研究者持續接力和優化的結果。
而在 DeepSeek 發布的另一篇論文中,我們看到了幾乎相同的模式再次上演。
都用 N-gram,字節 Seed、DeepSeek 接連導出新結論
和 mHC 論文的「抽象」感不同,「Conditional Memory」論文解決的問題比較好理解:大模型被問到的很多問題是可以直接查表解決的,比如「法國的首都是哪里」,但由于標準 Transformer 缺乏原生的知識查找原語,即使這樣簡單的問題,模型也得去計算,就像你上了考場還要自己推導公式,這無疑是一種浪費。
對此,「Conditional Memory」論文提出的解決方案是給模型裝一個「小抄本」(Engram),常見的詞組直接查表,省下來的算力用來做更復雜的推理。
具體來說,Engram 的做法是:給模型配一個巨大的「詞組詞典」,當模型讀到某個詞(比如「Great」時,就把它前面幾個詞拼成 N-gram(比如「the Great」或「Alexander the Great」),然后用哈希函數把這個 N-gram 變成一個數字,直接去詞典里查對應的向量。
這個「N-gram 哈希查表」的做法,字節 Seed 之前也用過。在提出OverEncoding 方法的論文(題為「Over-Tokenized Transformer: Vocabulary is Generally Worth Scaling」)中,他們發現:給模型配一個巨大的 N-gram 詞典,幾乎是「白撿」的性能提升。為什么說白撿?劉勇分析說,因為這些海量的嵌入參數是稀疏激活的,每次推理只查其中極少數,所以既不怎么吃顯存,也不怎么費算力。更重要的是,論文發現詞典越大、性能越好,而且提升幅度是可預測的。
![]()
論文地址:https://arxiv.org/pdf/2501.16975
如果說字節 Seed 論文用實驗告訴我們「把輸入詞表加大就能漲分」,DeepSeek 論文則另開一條賽道:把 N-gram 做成外掛存儲 Engram,與 MoE 分工,正式提出「條件存儲」這條新軸線,并告訴我們該怎么分參數才最劃算。
還是回到考場的比喻:字節 Seed 發現給學生發公式手冊成績會提高,于是得出結論 ——「大詞表是更好的輸入表示」。DeepSeek 則進一步追問:這種做法還能以什么方式提高成績?他們通過 LogitLens 等工具進行機制分析,發現這種 lookup 機制能將模型從繁重的局部靜態模式重建中解放出來,使早期層直接獲得高階語義,從而增加了模型的有效推理深度。
基于這個洞察,DeepSeek 不再僅僅將 N-gram 視為簡單的詞表擴展,而是將這一實驗性結論升華為「條件存儲」(Conditional Memory),這是一條與條件計算(MoE)并列的 scaling law 新軸線。在此基礎上,他們提出了「稀疏分配」(Sparsity Allocation)問題:在固定參數預算下,如何在 MoE 專家與靜態存儲模塊之間分配參數?實驗揭示了一條 U 型縮放規律 —— 全押 MoE 并非最優解,將約 20%-25% 的參數分配給 Engram 反而效果更好。
劉勇表示,在工程實現上,DeepSeek 也進行了系統性的技術改良。架構層面,它改進了前作僅在輸入層(Layer 0)注入信息的局限,將 Engram 模塊注入到模型的中間層,使存儲訪問與深度計算實現并行與融合。交互機制上,它放棄了簡單的嵌入加和,引入了「上下文感知門控」,利用隱狀態動態調節檢索結果。系統優化上,它通過分詞器壓縮提高存儲效率,并利用硬件層面的預取技術(Prefetching)解決海量參數導致的延遲問題,使該技術真正具備了大規模工業落地的能力。
在論文的 3.2 章節,我們發現,DeepSeek 把自己的 Engram 與字節 Seed 的 OverEncoding 方法進行了對比,指出雖然兩者都能從更大的嵌入表中獲益,但在相同的參數預算下,Engram 的縮放效率明顯更高。
![]()
一起上分、互相啟發
研究發表的意義具象化了
每次 DeepSeek 一發論文,推特上都能引發不小的轟動,有位博主甚至提到他搭乘的飛機上有 30% 的人都在看 DeepSeek 剛發的論文。
![]()
歸根結底,這反映出一個問題 —— 目前還愿意公開自己研究成果、帶著大家一起「上分」的頭部大模型廠商已經越來越少了。DeepSeek 和字節 Seed 在研究上的接力讓我們看到了公開研究成果的價值。
同時,DeepSeek 對于社區內優秀成果的挖掘也給了我們一些啟發,類似字節 Seed 這樣的國內頭部大模型團隊其實有很多想法值得繼續探索。
比如,在架構層面,除了前面提到的 OverEncoding,DeepSeek 論文中還提到了幾篇字節 Seed 的相關研究,包括稀疏模型架構 UltraMem 和它的新版本 Ultramemv2。這個全新的模型架構通過分布式多層級聯內存結構、Tucker 分解檢索與隱式參數擴展優化,有效解決了傳統 MoE 架構在推理階段的高額訪存問題,同時驗證了其優于傳統架構的 Scaling Law 擴展特性。
![]()
此外,字節 Seed 在基礎研究上還發表過很多大膽探索全新范式的嘗試,比如Seed Diffusion Preview,系統性地驗證離散擴散技術路線作為下一代語言模型基礎框架的可行性;SuperClass,首次舍棄了文本編碼器,直接用原始文本的分詞作為多分類標簽,在視覺任務上效果優于傳統的 CLIP 方法;甚至提出了新型神經網絡架構FAN,通過引入傅里葉原理思想,彌補了 Transformer 等主流模型在周期性建模方面的缺陷。
這些底層技術的研究,雖然在短期內無法用于商業模型的訓練,但是科技行業的進步,正是在無數研究者對未知領域的探索中發生的。
畢竟,真正推動技術進步的,從來不是單一的突破,而是持續的積累與相互啟發。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.