DeepSeek 在 2026 年第一篇論文,梁文峰署名
讓「多流殘差」這個好想法,能真正在大模型上跑起來
私底下,某巨佬評價道:“牛逼”
![]()
https://arxiv.org/abs/2512.24880
要理解這篇論文,得先知道 Transformer 里的信息是怎么傳的
Transformer 里的信息流
你問 ChatGPT 一個問題:今天天氣怎么樣,它怎么回答你的?
問題拆成一個個小單元,比如「今天」「天氣」「怎么樣」這樣的片段
,可以點擊下面的 svg,模擬交互
然后,每個片段會被轉成一組向量,進入 Transformer,開始進行處理
數字從第一層進去,經過處理,傳到第二層,再處理,再傳到第三層...一直傳到最后一層
最后一層輸出的數字,決定了模型接下來要生成哪個詞
![]()
大概就是這樣
這個過程會循環往復,直到所有文字都生成完畢
你看到 ChatGPT 一個字一個字往外蹦,就是這個過程
所以中間這幾十層的傳遞很關鍵。傳到最后的數字如果不對,生成的內容就會跑偏
問題來了:層數一多,數字在傳遞過程中會越來越小,甚至趨近于零
傳到后面,前面的信息就丟了
2015 年,ResNet 提出了一個辦法:殘差連接
做法很簡單。每一層在輸出的時候,把「這一層算出來的新數字」和「上一層傳過來的原始數字」加在一起,再傳給下一層
![]()
一個簡單的示意圖
這樣,不管網絡有多深,最開始的信息都能一路傳到底
過去十年,幾乎所有大模型都在用
字節的想法:一條路不夠,搞四條
2024 年,字節發了一篇論文叫 Hyper-Connections(HC),入選了 ICLR 2025
他們說,一條殘差通道不夠用,要把這條路拓寬成四條,還得并行
同時的,這四條通道之間,可以互相交換信息,通過一個可學習的矩陣來混合
![]()
三種連接方式對比:左邊是傳統殘差,中間是 HC,右邊是 DeepSeek 的 mHC
聽起來很合理,小模型上的實驗效果也確實好
但...
![]()
boom 問題:信號爆炸
那個用來混合信息的矩陣,完全可學習,沒有任何約束
一層沒事,兩層也還行
但層數一多,矩陣一乘,信號就飛了
信息每過一層,都要被這個矩陣處理一次。矩陣乘矩陣,再乘矩陣...
DeepSeek 在 27B 模型上復現了這個問題
訓練到 12000 步左右,loss 突然飆升,梯度劇烈震蕩,訓練崩了
![]()
27B 模型訓練曲線,HC 在 12k 步附近崩了
論文里給了一個指標,衡量信號在傳遞過程中被放大了多少倍
HC 在 27B 模型上,這個數能到多少?3000 倍(理想情況下,不應該放大)
![]()
HC 的信號增益能飆到 3000 mHC:加一個約束
DeepSeek 的思路很直接
問題出在矩陣沒有約束,那就加約束
加什么約束?
雙隨機矩陣
這個矩陣有個特點:所有元素加起來,每一行的和等于 1,每一列的和也等于 1
換句話說,信息經過這個矩陣,可以在四條通道之間重新分配,但總量不變
信息可以流動,但總量守恒
不管模型有多少層,信號都不會爆炸,也不會消失
用了這個約束之后,27B 模型上的信號放大倍數從 3000 降到了 1.6
![]()
mHC 的信號增益穩定在 1 附近性
這就是 mHC
m 代表 Manifold,流形約束
工程優化
四條通道,意味著四倍的數據讀寫量
DeepSeek 做了一系列工程優化:內核融合、重計算策略、流水線調度...
細節不展開了
最終結果:
額外的訓練時間開銷只有 6.7%
實驗效果
27B 模型,mHC 對比傳統殘差連接,loss 下降 0.021
下游任務上,推理能力(BBH)提升 2.1%,閱讀理解(DROP)提升 2.3%
訓練全程穩定
![]()
mHC 穩定下降,沒崩 說回這篇論文
字節的 HC 提出了一個好想法:把殘差通道變寬
但沒解決大規模訓練的穩定性問題
DeepSeek 給出了數學上干凈的解法,然后在工程上把開銷壓到了可接受的范圍
這篇論文透露的信息:DeepSeek 在認真搞架構層的優化
下一代模型,DeepSeek 會不會用 mHC?不知道
但顯然,他們在這個方向有投入
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.