梁文鋒署名，DeepSeek元旦新論文要開啟架構(gòu)新篇章

2026-01-03 08:34:07　來源: 機器之心Pro

北京舉報

分享至

機器之心編輯部

新年第一天，DeepSeek 發(fā)布了一篇新論文，提出了一種名為mHC（流形約束超連接）的新架構(gòu)。

該研究旨在解決傳統(tǒng)超連接在大規(guī)模模型訓(xùn)練中的不穩(wěn)定性問題，同時保持其顯著的性能增益。

簡單來說，DeepSeek 提出的 mHC 通過將傳統(tǒng) Transformer 的單一殘差流擴展為多流并行架構(gòu)，并利用 Sinkhorn-Knopp 算法將連接矩陣約束在雙擬隨機矩陣流形上，成功解決了超連接（HC）在大規(guī)模訓(xùn)練中因破壞恒等映射屬性而導(dǎo)致的數(shù)值不穩(wěn)定和信號爆炸問題。

論文標題：mHC: Manifold-Constrained Hyper-Connections
論文地址：https://arxiv.org/pdf/2512.24880

這篇論文的第一作者有三位：Zhenda Xie（解振達）、Yixuan Wei（韋毅軒）、Huanqi Cao。值得注意的是，DeepSeek 創(chuàng)始人 & CEO 梁文鋒也在作者名單中。

傳統(tǒng)的殘差連接（即 Transformer 中的 x + F (x) 結(jié)構(gòu)）憑借「恒等映射」保證了信號無損傳輸和訓(xùn)練穩(wěn)定性。但它的瓶頸在于信息通道的寬度受限于隱藏層維度 C。

近期，以字節(jié)跳動Seed團隊提出的 Hyper-Connections (HC) 為代表的研究，通過擴展殘差流寬度和多樣化連接模式，拓展了過去十年中廣泛應(yīng)用的殘差連接范式。

雖然這些方法帶來了顯著的性能提升，但但也帶來了兩個嚴重問題：

數(shù)值不穩(wěn)定性：原始的 HC 中，連接矩陣是自由學(xué)習(xí)的，沒有約束。這導(dǎo)致信號在經(jīng)過多層傳播后，數(shù)值會「爆炸」或「消失」，破壞了恒等映射的特性，模型越深越難訓(xùn)練。
系統(tǒng)開銷大：通道變寬意味著顯存讀寫 (I/O) 和通信成本成倍增加，也就是所謂的「顯存墻」問題。

從根本上破壞了殘差連接固有的恒等映射屬性，導(dǎo)致了嚴重的訓(xùn)練不穩(wěn)定性和受限的可擴展性，并額外增加了顯著的內(nèi)存訪問開銷。

為了解決這些挑戰(zhàn)，DeepSeek 的研究團隊提出了Manifold-Constrained Hyper-Connections (mHC，流形約束超連接)。

這是一個通用框架，它將 HC 的殘差連接空間投影到一個特定的流形上，以恢復(fù)恒等映射屬性，同時結(jié)合嚴格的基礎(chǔ)設(shè)施優(yōu)化以確保效率。

它的核心目的是：在保留「加寬殘差流」帶來的性能提升的同時，解決其導(dǎo)致的訓(xùn)練不穩(wěn)定和顯存消耗過大的問題。

團隊利用Sinkhorn-Knopp 算法將殘差連接矩陣投影到 Birkhoff 多胞形（雙隨機矩陣）上。這使得信號傳播變?yōu)樘卣鞯摹竿菇M合」，從數(shù)學(xué)上嚴格保證了信號范數(shù)的穩(wěn)定性（能量守恒）。為了抵消加寬通道帶來的開銷，團隊實施了內(nèi)核融合、選擇性重計算以及擴展的 DualPipe 通信計算重疊策略。

實證表明，mHC 不僅解決了穩(wěn)定性問題，且在大規(guī)模訓(xùn)練中（如 27B 模型）表現(xiàn)出卓越的可擴展性。在 n=4 的擴展倍率下，僅增加了 6.7% 的訓(xùn)練時間開銷，卻換來了顯著的性能提升。mHC 為基礎(chǔ)模型的拓撲架構(gòu)演進指明了方向。

圖 1：殘差連接范式示意圖。本圖對比了以下三種結(jié)構(gòu)設(shè)計： (a) 標準殘差連接（Residual Connection）； (b) Hyper-Connections (HC)； (c) 我們提出的 Manifold-Constrained Hyper-Connections (mHC)。與無約束的 HC 不同，mHC 專注于優(yōu)化殘差連接空間，通過將矩陣投影到受約束的流形上，以確保穩(wěn)定性。

具體方法介紹

流形約束超連接 (mHC)

借鑒恒等映射（Identity Mapping）原則，mHC 的核心前提是將殘差映射

雖然原始的恒等映射是通過強制執(zhí)行

因此，該 DeepSeek 團隊提出將殘差映射投影到一個流形上，既能保持跨層信號傳播的穩(wěn)定性，又能促進殘差流之間的相互作用，以保持模型的表達能力（expressivity）。

為此，他們的做法是將

形式上，令

其中 1_n 表示全 1 的 n 維向量。

為什么選擇雙擬隨機性？因為其具有多項有利于大規(guī)模訓(xùn)練的理論屬性：

），這意味著學(xué)習(xí)到的映射是非擴張的，可有效緩解梯度爆炸問題。
范數(shù)保持：其譜范數(shù)有界且不超過 1（即

復(fù)合封閉性：雙擬隨機矩陣集對矩陣乘法具有封閉性，確保了跨多層的復(fù)合殘差映射仍保持雙擬隨機，從而可在整個模型深度上維持穩(wěn)定性。
幾何解釋：該集合構(gòu)成了 Birkhoff 多胞形，是排列矩陣集的凸包。這意味著殘差映射充當(dāng)了排列的凸組合，其重復(fù)應(yīng)用會單調(diào)地增加跨流的信息混合，起到魯棒的特征融合作用。

此外，該團隊還對輸入映射

參數(shù)化與流形投影

本節(jié)將詳述 mHC 中各映射的計算過程。

給定第 l 層的輸入隱藏矩陣 x_l，先將其展平為向量

最終的約束映射通過以下方式獲得：

其中

DeepSeek 在實驗中采用 t_max=20 次迭代。

高效基礎(chǔ)設(shè)施設(shè)計

DeepSeek 還為 mHC 量身定制了基礎(chǔ)設(shè)施設(shè)計，使其在 n=4 時在大模型中的訓(xùn)練開銷僅增加 6.7%：

算子融合 (Kernel Fusion)：

重新調(diào)整 RMSNorm 的順序以提高效率，并采用混合精度策略。

開發(fā)了統(tǒng)一的算子，將多次掃描和矩陣乘法融合，減少內(nèi)存帶寬瓶頸和算子啟動開銷。

在單個算子中實現(xiàn) Sinkhorn-Knopp 迭代及其自定義反向傳播。

重計算 (Recomputing)：

為了減輕 n 流設(shè)計帶來的內(nèi)存壓力，DeepSeek 在前向傳播后丟棄 mHC 算子的中間激活，并在反向傳播時即時重新計算。

通過推導(dǎo)得出最優(yōu)重計算塊大小 L_r^*，以最小化總內(nèi)存占用。

DualPipe 中的通信重疊：

擴展了 DualPipe 調(diào)度算法，以改善流水線并行階段邊界處的通信與計算重疊在專用高優(yōu)先級計算流上執(zhí)行 MLP 層的內(nèi)核，并避免在注意力層使用持久算子，以防止阻塞通信流并提高設(shè)備利用率。

實驗

實驗設(shè)置

研究團隊通過語言模型預(yù)訓(xùn)練來驗證所提方法的有效性，并對基線模型、超連接（HC）以及提出的流形約束超連接（mHC）進行了對比分析。

他們采用了受 DeepSeek-V3 啟發(fā)的 MoE 架構(gòu)，訓(xùn)練了四種不同的模型變體，以覆蓋不同的評估體系。

具體而言，HC 和 mHC 的擴展率 n 均設(shè)置為 4，主要關(guān)注點是一個 27B 參數(shù)規(guī)模的模型。其訓(xùn)練數(shù)據(jù)集的大小與其參數(shù)量成正比，該模型用于展示系統(tǒng)層面的主要結(jié)果。在此基礎(chǔ)上，他們通過引入使用成比例數(shù)據(jù)訓(xùn)練的較小的 3B 和 9B 模型來分析計算擴展性，從而觀察不同計算規(guī)模下的性能趨勢。此外，為了專門研究 Token 規(guī)模的影響，他們另外訓(xùn)練了一個獨立的 3B 模型，該模型在一個固定的 1T Token 的語料庫上進行訓(xùn)練。

主要結(jié)果

圖 5：流形約束超連接 (mHC) 的訓(xùn)練穩(wěn)定性。該圖展示了：(a) mHC 和 HC 相對于基線模型的訓(xùn)練損失絕對差值；(b) 三種方法在訓(xùn)練過程中的梯度范數(shù)。所有實驗均基于 27B 參數(shù)規(guī)模的模型。實驗結(jié)果表明，mHC 在損失函數(shù)和梯度范數(shù)兩方面均表現(xiàn)出更優(yōu)的穩(wěn)定性。

研究團隊首先考察 27B 模型的訓(xùn)練穩(wěn)定性和收斂性。如圖 5 (a) 所示，mHC 有效緩解了在 HC 中觀察到的訓(xùn)練不穩(wěn)定問題，與基線模型相比，最終損失降低了 0.021。圖 5 (b) 中的梯度范數(shù)分析進一步證實了這種穩(wěn)定性的提升：mHC 表現(xiàn)出明顯優(yōu)于 HC 的行為，保持了與基線模型相當(dāng)?shù)姆€(wěn)定輪廓。

表 4：27B 模型在系統(tǒng)級基準測試上的結(jié)果。本表對比了基線模型、HC 以及 mHC 在 8 個不同的下游基準測試中的零樣本和少樣本性能表現(xiàn)。結(jié)果顯示，mHC 始終優(yōu)于基線模型，并在大多數(shù)基準測試中超越了 HC，證明了其在大規(guī)模預(yù)訓(xùn)練中的有效性。

表 4 展示了在多種下游基準測試中的性能表現(xiàn)。mHC 帶來了全面的提升，一致性地優(yōu)于基線模型，并在大多數(shù)任務(wù)上超過了 HC。值得注意的是，與 HC 相比，mHC 進一步增強了模型的推理能力，在 BBH 和 DROP 任務(wù)上分別實現(xiàn)了 2.1% 和 2.3% 的性能增益。

規(guī)模擴展實驗

圖 6：mHC 與基線模型的擴展特性對比。 (a) 計算擴展曲線：實線描繪了在不同計算預(yù)算下的性能差距。每個點代表模型大小與數(shù)據(jù)集大小的最優(yōu)計算配置，涵蓋了從 3B、9B 到 27B 參數(shù)規(guī)模的規(guī)模擴展過程。 (b) Token 擴展曲線：展示了 3B 模型在訓(xùn)練過程中的軌跡。每個點代表模型在不同訓(xùn)練 Token 數(shù)量下的性能表現(xiàn)。

為了評估該方法的擴展性，研究者報告了在不同規(guī)模下 mHC 相對于基線模型的損失改善情況。在圖 6 (a) 中，他們繪制了涵蓋 3B、9B 和 27B 參數(shù)規(guī)模的計算規(guī)模擴展曲線。其軌跡表明，即使在更高的計算預(yù)算下，性能優(yōu)勢依然穩(wěn)健地得以保持，僅表現(xiàn)出輕微的衰減。

此外，他們在圖 6 (b) 中考察了訓(xùn)練過程中的動態(tài)變化，展示了 3B 模型的 Token 擴展曲線。總的來看，這些發(fā)現(xiàn)驗證了 mHC 在大規(guī)模場景下的有效性。這一結(jié)論在他們內(nèi)部的大規(guī)模訓(xùn)練實驗中得到了進一步的證實。

更多詳情請參閱原論文。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.