25年最后一天, deepseek 奉上了新年禮物 mHC,又是新的網絡結構
如果不負責任地猜一下,這種對底層架構的深度魔改,加上他們之前MoE的積累,沒準DeepSeek V4真的要搞個大新聞。
DeepSeek是真的厲害,要搞就搞底層創新,搞完MoE,現在盯上Transformer最基礎的下水道:殘差連接(Residual Connection)。
![]()
1、為什么要搞mHC
自從ResNet出來以后,殘差連接就是深度學習的標配。Identity Mapping(恒等映射)保證了信號能無損傳到深層,模型才能堆得深。
24年字節搞了個Hyper-Connections,覺得原來的殘差流太細,信息不夠跑。于是把殘差流寬度擴大n倍(比如4倍),還加了各種可學習的線性映射矩陣(HH)來混合不同流的信息。這就好比把原來的單車道擴建成了四車道高速公路,不僅寬,車還能變道。
問題來了: 路是寬了,但車速控制不住了。原來那套完美的Identity Mapping屬性被破壞了。當你層數一深,這些不受約束的矩陣乘起來,信號要么消失要么爆炸。圖里HC跑到12k步loss直接起飛,梯度亂跳。顯存訪問開銷也因為通道變寬暴增,撞上了Memory Wall。
![]()
2、核心思路:把矩陣關進“流形”里(Manifold Constraint)
這部分是論文的理論高光。DeepSeek這次的做法,給混合矩陣加約束,強制它必須是雙隨機矩陣(Doubly Stochastic Matrix)。
妙在哪里?1??從幾何角度,這相當于把信號的傳遞變成了一種“凸組合”。你可以把它想象成一種能量守恒系統,信號在層與層之間傳遞時,總量被嚴格控制住了,既不會憑空放大也不會莫名衰減。2?? 雙隨機矩陣的譜范數≤1,意味著不會放大信號,梯度爆炸的風險大大降低。3??多個雙隨機矩陣連乘,結果還是雙隨機矩陣,所以深層網絡也能保持穩定
實現上用經典的Sinkhorn-Knopp算法,反復做行列歸一化,迭代20次就夠了。
![]()
3、工程優化
mHC顯然需要大量對應的工程優化才能 work, 而且DeepSeek顯然是要在實際生產環境里用這東西的,所以花了不少篇幅講工程實現。
幾個關鍵優化:Kernel Fusion(算子融合)、Recomputing(重計算)、DualPipe通信重疊(dualpipe 是 v3提的) 等等。
最終效果:在n=4時,mHC只增加6.7%的訓練時間開銷。這個數字對于大規模訓練來說是可以接受的。
主要看27B模型的結果:
loss比baseline降0.021,比HC穩
梯度范數平穩,HC則劇烈波動
BBH、DROP、GSM8K等benchmark全面超baseline,多數超HC
信號增益幅度從HC的約3000降到約1.6,三個數量級
在 scaling實驗中還做了3B、9B的模型,說明這套方法在大模型上是通用的,且隨著算力增加優勢依然存在,期待在百 b 甚至 T 以上的模型效果
感覺又要搞一波大的(是不是今年春節,DeepSeek V4要來了?)
作者:AI Dance
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.