<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      剛剛,梁文鋒署名,DeepSeek元旦新論文要開啟架構(gòu)新篇章

      0
      分享至

      新年第一天,DeepSeek 發(fā)布了一篇新論文,提出了一種名為mHC(流形約束超連接)的新架構(gòu)。

      該研究旨在解決傳統(tǒng)超連接在大規(guī)模模型訓(xùn)練中的不穩(wěn)定性問題,同時保持其顯著的性能增益 。

      簡單來說,DeepSeek 提出的 mHC 通過將傳統(tǒng) Transformer 的單一殘差流擴展為多流并行架構(gòu),并利用 Sinkhorn-Knopp 算法將連接矩陣約束在雙擬隨機矩陣流形上,成功解決了超連接(HC)在大規(guī)模訓(xùn)練中因破壞恒等映射屬性而導(dǎo)致的數(shù)值不穩(wěn)定和信號爆炸問題。


      論文標(biāo)題:mHC: Manifold-Constrained Hyper-Connections

      論文地址:https://arxiv.org/pdf/2512.24880

      這篇論文的第一作者有三位:Zhenda Xie(解振達(dá))、Yixuan Wei(韋毅軒)、Huanqi Cao。值得注意的是,DeepSeek 創(chuàng)始人 & CEO 梁文鋒也在作者名單中。

      傳統(tǒng)的殘差連接(即 Transformer 中的 x + F (x) 結(jié)構(gòu))憑借「恒等映射」保證了信號無損傳輸和訓(xùn)練穩(wěn)定性。但它的瓶頸在于信息通道的寬度受限于隱藏層維度 C。

      近期,以 Hyper-Connections (HC) 為代表的研究,通過擴展殘差流寬度和多樣化連接模式,拓展了過去十年中廣泛應(yīng)用的殘差連接范式。

      雖然這些方法帶來了顯著的性能提升,但但也帶來了兩個嚴(yán)重問題:

      數(shù)值不穩(wěn)定性: 原始的 HC 中,連接矩陣是自由學(xué)習(xí)的,沒有約束。這導(dǎo)致信號在經(jīng)過多層傳播后,數(shù)值會「爆炸」或「消失」,破壞了恒等映射的特性,模型越深越難訓(xùn)練。

      系統(tǒng)開銷大: 通道變寬意味著顯存讀寫 (I/O) 和通信成本成倍增加,也就是所謂的「顯存墻」問題。

      從根本上破壞了殘差連接固有的恒等映射屬性,導(dǎo)致了嚴(yán)重的訓(xùn)練不穩(wěn)定性和受限的可擴展性,并額外增加了顯著的內(nèi)存訪問開銷。

      為了解決這些挑戰(zhàn),DeepSeek 的研究團(tuán)隊提出了Manifold-Constrained Hyper-Connections (mHC,流形約束超連接)。

      這是一個通用框架,它將 HC 的殘差連接空間投影到一個特定的流形上,以恢復(fù)恒等映射屬性,同時結(jié)合嚴(yán)格的基礎(chǔ)設(shè)施優(yōu)化以確保效率。

      它的核心目的是:在保留「加寬殘差流」帶來的性能提升的同時,解決其導(dǎo)致的訓(xùn)練不穩(wěn)定和顯存消耗過大的問題。

      團(tuán)隊利用Sinkhorn-Knopp 算法將殘差連接矩陣投影到 Birkhoff 多胞形(雙隨機矩陣)上。這使得信號傳播變?yōu)樘卣鞯摹竿菇M合」,從數(shù)學(xué)上嚴(yán)格保證了信號范數(shù)的穩(wěn)定性(能量守恒)。為了抵消加寬通道帶來的開銷,團(tuán)隊實施了內(nèi)核融合、選擇性重計算以及擴展的 DualPipe 通信計算重疊策略

      實證表明,mHC 不僅解決了穩(wěn)定性問題,且在大規(guī)模訓(xùn)練中(如 27B 模型)表現(xiàn)出卓越的可擴展性。在 n=4 的擴展倍率下,僅增加了 6.7% 的訓(xùn)練時間開銷,卻換來了顯著的性能提升。mHC 為基礎(chǔ)模型的拓?fù)浼軜?gòu)演進(jìn)指明了方向。


      圖 1:殘差連接范式示意圖。 本圖對比了以下三種結(jié)構(gòu)設(shè)計: (a) 標(biāo)準(zhǔn)殘差連接(Residual Connection); (b) Hyper-Connections (HC); (c) 我們提出的 Manifold-Constrained Hyper-Connections (mHC)。與無約束的 HC 不同,mHC 專注于優(yōu)化殘差連接空間,通過將矩陣投影到受約束的流形上,以確保穩(wěn)定性。具體方法介紹流形約束超連接 (mHC)

      借鑒恒等映射(Identity Mapping)原則,mHC 的核心前提是將殘差映射

      約束在一個特定的流形上。

      雖然原始的恒等映射是通過強制執(zhí)行

      來確保穩(wěn)定性,但它能從根本上阻止殘差流內(nèi)部的信息交換,而這種交換對于最大化多流架構(gòu)的潛力至關(guān)重要。

      因此,該 DeepSeek 團(tuán)隊提出將殘差映射投影到一個流形上,既能保持跨層信號傳播的穩(wěn)定性,又能促進(jìn)殘差流之間的相互作用,以保持模型的表達(dá)能力(expressivity)。

      為此,他們的做法是將

      限制為雙擬隨機矩陣(Doubly Stochastic Matrix),即具有非負(fù)項且行和與列和均為 1 的矩陣。

      形式上,令

      表示雙擬隨機矩陣的流形(也稱為 Birkhoff 多胞形),再將

      約束在

      中,定義為:

      其中 1_n 表示全 1 的 n 維向量。

      為什么選擇雙擬隨機性?因為其具有多項有利于大規(guī)模訓(xùn)練的理論屬性:

      范數(shù)保持:其譜范數(shù)有界且不超過 1(即

      ),這意味著學(xué)習(xí)到的映射是非擴張的,可有效緩解梯度爆炸問題。

      復(fù)合封閉性:雙擬隨機矩陣集對矩陣乘法具有封閉性,確保了跨多層的復(fù)合殘差映射仍保持雙擬隨機,從而可在整個模型深度上維持穩(wěn)定性。

      幾何解釋:該集合構(gòu)成了 Birkhoff 多胞形,是排列矩陣集的凸包。這意味著殘差映射充當(dāng)了排列的凸組合,其重復(fù)應(yīng)用會單調(diào)地增加跨流的信息混合,起到魯棒的特征融合作用。

      此外,該團(tuán)隊還對輸入映射

      和輸出映射

      施加了非負(fù)約束,以防止因正負(fù)系數(shù)復(fù)合導(dǎo)致的信號抵消。

      參數(shù)化與流形投影

      本節(jié)將詳述 mHC 中各映射的計算過程。

      給定第 l 層的輸入隱藏矩陣 x_l,先將其展平為向量

      以保留完整的上下文信息。然后,按照 HC 的原始公式獲取動態(tài)映射和靜態(tài)映射:


      最終的約束映射通過以下方式獲得:


      其中

      是 Sigmoid 函數(shù)。Sinkhorn-Knopp 算子首先通過指數(shù)操作確保所有元素為正,然后進(jìn)行迭代規(guī)范化,交替縮放行和列使其和為 1。

      DeepSeek 在實驗中采用 t_max=20 次迭代。

      高效基礎(chǔ)設(shè)施設(shè)計

      DeepSeek 還為 mHC 量身定制了基礎(chǔ)設(shè)施設(shè)計,使其在 n=4 時在大模型中的訓(xùn)練開銷僅增加 6.7%:

      算子融合 (Kernel Fusion):

      重新調(diào)整 RMSNorm 的順序以提高效率,并采用混合精度策略。

      開發(fā)了統(tǒng)一的算子,將多次掃描和矩陣乘法融合,減少內(nèi)存帶寬瓶頸和算子啟動開銷。

      在單個算子中實現(xiàn) Sinkhorn-Knopp 迭代及其自定義反向傳播。

      的應(yīng)用與殘差合并融合,顯著減少了內(nèi)存讀寫量。

      重計算 (Recomputing):

      為了減輕 n 流設(shè)計帶來的內(nèi)存壓力,DeepSeek 在前向傳播后丟棄 mHC 算子的中間激活,并在反向傳播時即時重新計算。

      通過推導(dǎo)得出最優(yōu)重計算塊大小 L_r^*,以最小化總內(nèi)存占用。

      DualPipe 中的通信重疊:

      擴展了 DualPipe 調(diào)度算法,以改善流水線并行階段邊界處的通信與計算重疊在專用高優(yōu)先級計算流上執(zhí)行 MLP 層的內(nèi)核,并避免在注意力層使用持久算子,以防止阻塞通信流并提高設(shè)備利用率。

      實驗實驗設(shè)置

      研究團(tuán)隊通過語言模型預(yù)訓(xùn)練來驗證所提方法的有效性,并對基線模型、超連接(HC)以及提出的流形約束超連接(mHC)進(jìn)行了對比分析。

      他們采用了受 DeepSeek-V3 啟發(fā)的 MoE 架構(gòu),訓(xùn)練了四種不同的模型變體,以覆蓋不同的評估體系。

      具體而言,HC 和 mHC 的擴展率 n 均設(shè)置為 4,主要關(guān)注點是一個 27B 參數(shù)規(guī)模的模型。其訓(xùn)練數(shù)據(jù)集的大小與其參數(shù)量成正比,該模型用于展示系統(tǒng)層面的主要結(jié)果。在此基礎(chǔ)上,他們通過引入使用成比例數(shù)據(jù)訓(xùn)練的較小的 3B 和 9B 模型來分析計算擴展性,從而觀察不同計算規(guī)模下的性能趨勢。此外,為了專門研究 Token 規(guī)模的影響,他們另外訓(xùn)練了一個獨立的 3B 模型,該模型在一個固定的 1T Token 的語料庫上進(jìn)行訓(xùn)練。



      主要結(jié)果



      圖 5:流形約束超連接 (mHC) 的訓(xùn)練穩(wěn)定性。 該圖展示了:(a) mHC 和 HC 相對于基線模型的訓(xùn)練損失絕對差值;(b) 三種方法在訓(xùn)練過程中的梯度范數(shù)。所有實驗均基于 27B 參數(shù)規(guī)模的模型。實驗結(jié)果表明,mHC 在損失函數(shù)和梯度范數(shù)兩方面均表現(xiàn)出更優(yōu)的穩(wěn)定性。

      研究團(tuán)隊首先考察 27B 模型的訓(xùn)練穩(wěn)定性和收斂性。如圖 5 (a) 所示,mHC 有效緩解了在 HC 中觀察到的訓(xùn)練不穩(wěn)定問題,與基線模型相比,最終損失降低了 0.021。圖 5 (b) 中的梯度范數(shù)分析進(jìn)一步證實了這種穩(wěn)定性的提升:mHC 表現(xiàn)出明顯優(yōu)于 HC 的行為,保持了與基線模型相當(dāng)?shù)姆€(wěn)定輪廓。



      表 4:27B 模型在系統(tǒng)級基準(zhǔn)測試上的結(jié)果。 本表對比了基線模型、HC 以及 mHC 在 8 個不同的下游基準(zhǔn)測試中的零樣本和少樣本性能表現(xiàn)。結(jié)果顯示,mHC 始終優(yōu)于基線模型,并在大多數(shù)基準(zhǔn)測試中超越了 HC,證明了其在大規(guī)模預(yù)訓(xùn)練中的有效性。

      表 4 展示了在多種下游基準(zhǔn)測試中的性能表現(xiàn)。mHC 帶來了全面的提升,一致性地優(yōu)于基線模型,并在大多數(shù)任務(wù)上超過了 HC。值得注意的是,與 HC 相比,mHC 進(jìn)一步增強了模型的推理能力,在 BBH 和 DROP 任務(wù)上分別實現(xiàn)了 2.1% 和 2.3% 的性能增益。

      規(guī)模擴展實驗



      圖 6:mHC 與基線模型的擴展特性對比。 (a) 計算擴展曲線:實線描繪了在不同計算預(yù)算下的性能差距。每個點代表模型大小與數(shù)據(jù)集大小的最優(yōu)計算配置,涵蓋了從 3B、9B 到 27B 參數(shù)規(guī)模的規(guī)模擴展過程。 (b) Token 擴展曲線:展示了 3B 模型在訓(xùn)練過程中的軌跡。每個點代表模型在不同訓(xùn)練 Token 數(shù)量下的性能表現(xiàn)。

      為了評估該方法的擴展性,研究者報告了在不同規(guī)模下 mHC 相對于基線模型的損失改善情況。在圖 6 (a) 中,他們繪制了涵蓋 3B、9B 和 27B 參數(shù)規(guī)模的計算規(guī)模擴展曲線。其軌跡表明,即使在更高的計算預(yù)算下,性能優(yōu)勢依然穩(wěn)健地得以保持,僅表現(xiàn)出輕微的衰減。

      此外,他們在圖 6 (b) 中考察了訓(xùn)練過程中的動態(tài)變化,展示了 3B 模型的 Token 擴展曲線??偟膩砜矗@些發(fā)現(xiàn)驗證了 mHC 在大規(guī)模場景下的有效性。這一結(jié)論在他們內(nèi)部的大規(guī)模訓(xùn)練實驗中得到了進(jìn)一步的證實。

      更多詳情請參閱原論文。

      ? THE END

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      女子吃自助烤肉剩菜過多 被扣100元押金 投訴退費遭駁回

      女子吃自助烤肉剩菜過多 被扣100元押金 投訴退費遭駁回

      閃電新聞
      2026-02-04 15:08:17
      5年前,他靠核酸檢測設(shè)備2年狂入222億,揚言活120歲,如今咋樣

      5年前,他靠核酸檢測設(shè)備2年狂入222億,揚言活120歲,如今咋樣

      芳芳?xì)v史燴
      2026-01-25 10:06:32
      不要再隨意猜測楊蘭蘭的身份了,釋放的信號很明顯了

      不要再隨意猜測楊蘭蘭的身份了,釋放的信號很明顯了

      李昕言溫度空間
      2025-08-20 15:01:53
      馬斯克為什么沒上蘿莉島?不是他不想,是愛潑斯坦嫌他懶得帶他玩

      馬斯克為什么沒上蘿莉島?不是他不想,是愛潑斯坦嫌他懶得帶他玩

      余鴡搞笑段子
      2026-02-04 18:39:08
      熱點城市聚焦:太突然!取消中考落地!上海風(fēng)向真變了?

      熱點城市聚焦:太突然!取消中考落地!上海風(fēng)向真變了?

      音樂時光的娛樂
      2026-02-05 00:26:59
      大獎賽16強出爐附賽程,趙心童、肖國棟迎戰(zhàn)強敵,8強中國鎖定2席

      大獎賽16強出爐附賽程,趙心童、肖國棟迎戰(zhàn)強敵,8強中國鎖定2席

      球場沒跑道
      2026-02-04 23:57:23
      “海后”金晨的危機:被女大佬壓制,姐弟戀不斷,肇事逃逸

      “海后”金晨的危機:被女大佬壓制,姐弟戀不斷,肇事逃逸

      紅大娘娛樂
      2026-02-04 20:48:47
      某魚驚現(xiàn)“天價筆”:800元一支的中性筆,藏著多少骯臟暗語?

      某魚驚現(xiàn)“天價筆”:800元一支的中性筆,藏著多少骯臟暗語?

      戧詞奪理
      2026-01-24 16:05:41
      乒乓亞洲杯大爆冷!日本全國冠軍2-0連丟3局,韓國隊一哥開門黑

      乒乓亞洲杯大爆冷!日本全國冠軍2-0連丟3局,韓國隊一哥開門黑

      籃球看比賽
      2026-02-04 17:25:00
      人社部傳來好消息!1.5億退休老人高興了,2026年養(yǎng)老金或再調(diào)整

      人社部傳來好消息!1.5億退休老人高興了,2026年養(yǎng)老金或再調(diào)整

      姩姩有娛
      2026-02-04 15:07:40
      春節(jié)還剩13天,社會上卻出現(xiàn)這5個反常現(xiàn)象,今年過年大變樣!

      春節(jié)還剩13天,社會上卻出現(xiàn)這5個反?,F(xiàn)象,今年過年大變樣!

      前沿天地
      2026-02-04 11:14:38
      不用坐牢了?馬杜羅入獄3周后,中方斬釘截鐵,委代元首接過兵權(quán)

      不用坐牢了?馬杜羅入獄3周后,中方斬釘截鐵,委代元首接過兵權(quán)

      觀星賞月
      2026-02-05 07:57:58
      提醒大家:洗衣機里,不管有幾件衣服,千萬要記得放幾個塑料袋!

      提醒大家:洗衣機里,不管有幾件衣服,千萬要記得放幾個塑料袋!

      美食格物
      2026-02-04 22:51:09
      42歲王濛退役11年再破紀(jì)錄,李琰冰壇集體沉默

      42歲王濛退役11年再破紀(jì)錄,李琰冰壇集體沉默

      悅君兮君不知
      2026-02-02 23:01:39
      錢再多有啥用?曝朱媛媛在《小城大事》殺青后,因害怕主動求合照

      錢再多有啥用?曝朱媛媛在《小城大事》殺青后,因害怕主動求合照

      飄逸語人
      2026-02-05 01:48:42
      大反轉(zhuǎn)!上港失而復(fù)得,王燊超接班人來了,國足王牌新星正式加盟

      大反轉(zhuǎn)!上港失而復(fù)得,王燊超接班人來了,國足王牌新星正式加盟

      羅掌柜體育
      2026-02-05 06:05:03
      1-3!3送烏龍助攻 衛(wèi)冕冠軍慘淡出局 12.9億豪門時隔5年再進(jìn)決賽

      1-3!3送烏龍助攻 衛(wèi)冕冠軍慘淡出局 12.9億豪門時隔5年再進(jìn)決賽

      狍子歪解體壇
      2026-02-05 06:02:23
      Shams:老鷹以現(xiàn)金方式從爵士交易得到中鋒蘭代爾

      Shams:老鷹以現(xiàn)金方式從爵士交易得到中鋒蘭代爾

      懂球帝
      2026-02-05 06:07:09
      專治各種“不通”的奇穴!每天捏捏手指,作用你意想不到!

      專治各種“不通”的奇穴!每天捏捏手指,作用你意想不到!

      財經(jīng)早餐
      2026-01-15 06:26:32
      女生主動起來有多黏人?網(wǎng)友:這些女的太開放了

      女生主動起來有多黏人?網(wǎng)友:這些女的太開放了

      帶你感受人間冷暖
      2026-01-27 00:20:06
      2026-02-05 09:35:00
      算法與數(shù)學(xué)之美 incentive-icons
      算法與數(shù)學(xué)之美
      分享知識,交流思想
      5340文章數(shù) 64601關(guān)注度
      往期回顧 全部

      科技要聞

      微信給馬化騰澆了“一盆冷水”

      頭條要聞

      伊朗被指將鈾庫存轉(zhuǎn)至俄羅斯 克宮首次回應(yīng)

      頭條要聞

      伊朗被指將鈾庫存轉(zhuǎn)至俄羅斯 克宮首次回應(yīng)

      體育要聞

      哈登回應(yīng)交易:不想讓自己拖累快船的未來

      娛樂要聞

      春晚主持人陣容曝光,5位都是老面孔

      財經(jīng)要聞

      黃金,出現(xiàn)拐點

      汽車要聞

      綜合續(xù)航1730km 5座中級電混SUV吉利銀河M7官圖發(fā)布

      態(tài)度原創(chuàng)

      旅游
      手機
      健康
      教育
      房產(chǎn)

      旅游要聞

      貴旅集團(tuán)2026年春季產(chǎn)品推介會在貴陽舉行

      手機要聞

      蘋果Sports應(yīng)用3.7更新:接入高爾夫賽事、升級交互體驗

      耳石癥分類型,癥狀大不同

      教育要聞

      2025全國畢業(yè)生薪酬百強出爐,青島大學(xué)上榜!

      房產(chǎn)要聞

      還在漲!成交量連飆四個月 海口二手房開始穩(wěn)了!

      無障礙瀏覽 進(jìn)入關(guān)懷版