2025 年 12 月 31 日,DeepSeek 發布了論文《mHC:流形約束的超連接》(Manifold-Constrained Hyper-Connections),提出了一種新的殘差連接設計,用于解決超連接(HC)在大模型擴展下的不穩定性和難以擴展的問題。
這是一篇跨年論文,引發AI圈子內外不少人在元旦節去啃這篇“每個字都看得懂,但就是不知道啥意思”的研究。
![]()
(來源,DeepSeek)
先說下超連接這個提法,并非DeepSeek首創。這一思路最早來自字節跳動Seed團隊,在2024年底提出,擴展了傳統的殘差連接,隨后被ICLR 2025接收。
殘差連接,是一個個經典的深度學習問題:隨著網絡深度增加,信號和梯度可能會消失或爆炸,使得深層網絡難以訓練。2015 年,在微軟的研究員何愷明提出了 ResNet(殘差網絡),通過在每一層引入恒等路徑:
![]()
這樣可以保證信息“恒等映射”,始終可以向前傳播,但也付出了代價。
Pre-Norm 殘差能穩定訓練,但往往過于強化恒等映射,導致不同層的表示變得過于相似;
Post-Norm 殘差能提升表示多樣性,卻在大規模訓練時更難優化。
字節Seed團隊提出了一個有趣的問題:如果一條殘差通路不夠用呢?那就用超級連接。
于是,超級連接將殘差路徑從單一路徑擴展為多條并行通路,并通過可學習的連接矩陣來決定這些通路在不同深度上混合方式。
在實踐中,這帶來了非常快的收斂速度——論文中某些設置下訓練速度提升接近 80%。然而,它很難擴展到大模型規模(這或許也是它沒有被廣泛討論的原因之一)。當模型規模增大時,超級連接的訓練變得極其不穩定。
不穩定性的根源,在于這些可學習的殘差混合矩陣會在層與層之間相乘,它們的連乘結果可能迅速放大。這與何愷明的殘差設計完全不同,最初它是非擴張(non-expansive)的。
DeepSeek在論文中顯示:在一個270億參數(27B)模型中,超級連接會導致跨深度方向約3000倍的信號放大,從而引發嚴重的不穩定性。
![]()
于是,DeepSeek提出了mHC的改進。這里面的m是指流形(manifold)。
流形是一個數學幾何概念,大意就是在多維發散熵增的空間,存在著有限壓縮、有跡可循的模式。
DeepSeek提出了流形約束超連接 (mHC)。將超級連接(HC)的殘差連接空間投影到一個特定的流形上, 以恢復恒等映射屬性, 同時結合了嚴格的基礎設施優化來保證效率。
將殘差混合矩陣約束在“雙隨機矩陣流形”上——即矩陣的每一行和每一列之和都等于1,這樣做帶來幾個關鍵效果:
不會放大或衰減信號(保持非擴張性);
即使在數百層深的網絡中也能保持穩定;
恢復了殘差連接中“恒等路徑”的性質;
同時仍然允許模型學習不同殘差通路之間的混合方式。
實證結果,是在相同設置下:
原本約 3000× 的信號放大降至約1.6×;
訓練過程如理論預期一樣變得平穩;
通過進一步的工程優化(DeepSeek 一貫的風格),在僅增加約 6.7% 計算量 的情況下,性能顯著提升:BBH(抽象、多步、跨層推理的)得分,從43.8提升到51;DROP(長文本中的精確離散推理),從47提升到53.9,等等。
DeepSeek在用這篇論文預告DeepSeek-V4嗎?可能。它最起碼可以說明,DeepSeek在追求真正的下一代大模型,在基礎架構上實現明顯的創新。
這篇論文在殘差連接這一“老問題”上做了一個非常扎實的結構性修正,使超級連接在大模型時代真正可用、可擴展、可穩定,成為基礎架構的一部分。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.