<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      梁文鋒署名,DeepSeek元旦新論文要開啟架構(gòu)新篇章

      0
      分享至



      機器之心編輯部

      新年第一天,DeepSeek 發(fā)布了一篇新論文,提出了一種名為mHC(流形約束超連接)的新架構(gòu)。

      該研究旨在解決傳統(tǒng)超連接在大規(guī)模模型訓(xùn)練中的不穩(wěn)定性問題,同時保持其顯著的性能增益 。

      簡單來說,DeepSeek 提出的 mHC 通過將傳統(tǒng) Transformer 的單一殘差流擴展為多流并行架構(gòu),并利用 Sinkhorn-Knopp 算法將連接矩陣約束在雙擬隨機矩陣流形上,成功解決了超連接(HC)在大規(guī)模訓(xùn)練中因破壞恒等映射屬性而導(dǎo)致的數(shù)值不穩(wěn)定和信號爆炸問題。



      • 論文標題:mHC: Manifold-Constrained Hyper-Connections
      • 論文地址:https://arxiv.org/pdf/2512.24880

      這篇論文的第一作者有三位:Zhenda Xie(解振達)、Yixuan Wei(韋毅軒)、Huanqi Cao。值得注意的是,DeepSeek 創(chuàng)始人 & CEO 梁文鋒也在作者名單中。

      傳統(tǒng)的殘差連接(即 Transformer 中的 x + F (x) 結(jié)構(gòu))憑借「恒等映射」保證了信號無損傳輸和訓(xùn)練穩(wěn)定性。但它的瓶頸在于信息通道的寬度受限于隱藏層維度 C。

      近期,以字節(jié)跳動Seed團隊提出的 Hyper-Connections (HC) 為代表的研究,通過擴展殘差流寬度和多樣化連接模式,拓展了過去十年中廣泛應(yīng)用的殘差連接范式。

      雖然這些方法帶來了顯著的性能提升,但但也帶來了兩個嚴重問題:

      • 數(shù)值不穩(wěn)定性: 原始的 HC 中,連接矩陣是自由學(xué)習(xí)的,沒有約束。這導(dǎo)致信號在經(jīng)過多層傳播后,數(shù)值會「爆炸」或「消失」,破壞了恒等映射的特性,模型越深越難訓(xùn)練。
      • 系統(tǒng)開銷大: 通道變寬意味著顯存讀寫 (I/O) 和通信成本成倍增加,也就是所謂的「顯存墻」問題。

      從根本上破壞了殘差連接固有的恒等映射屬性,導(dǎo)致了嚴重的訓(xùn)練不穩(wěn)定性和受限的可擴展性,并額外增加了顯著的內(nèi)存訪問開銷。

      為了解決這些挑戰(zhàn),DeepSeek 的研究團隊提出了Manifold-Constrained Hyper-Connections (mHC,流形約束超連接)。

      這是一個通用框架,它將 HC 的殘差連接空間投影到一個特定的流形上,以恢復(fù)恒等映射屬性,同時結(jié)合嚴格的基礎(chǔ)設(shè)施優(yōu)化以確保效率。

      它的核心目的是:在保留「加寬殘差流」帶來的性能提升的同時,解決其導(dǎo)致的訓(xùn)練不穩(wěn)定和顯存消耗過大的問題。

      團隊利用Sinkhorn-Knopp 算法將殘差連接矩陣投影到 Birkhoff 多胞形(雙隨機矩陣)上。這使得信號傳播變?yōu)樘卣鞯摹竿菇M合」,從數(shù)學(xué)上嚴格保證了信號范數(shù)的穩(wěn)定性(能量守恒)。為了抵消加寬通道帶來的開銷,團隊實施了內(nèi)核融合、選擇性重計算以及擴展的 DualPipe 通信計算重疊策略。

      實證表明,mHC 不僅解決了穩(wěn)定性問題,且在大規(guī)模訓(xùn)練中(如 27B 模型)表現(xiàn)出卓越的可擴展性。在 n=4 的擴展倍率下,僅增加了 6.7% 的訓(xùn)練時間開銷,卻換來了顯著的性能提升。mHC 為基礎(chǔ)模型的拓撲架構(gòu)演進指明了方向。



      圖 1:殘差連接范式示意圖。 本圖對比了以下三種結(jié)構(gòu)設(shè)計: (a) 標準殘差連接(Residual Connection); (b) Hyper-Connections (HC); (c) 我們提出的 Manifold-Constrained Hyper-Connections (mHC)。與無約束的 HC 不同,mHC 專注于優(yōu)化殘差連接空間,通過將矩陣投影到受約束的流形上,以確保穩(wěn)定性。

      具體方法介紹

      流形約束超連接 (mHC)

      借鑒恒等映射(Identity Mapping)原則,mHC 的核心前提是將殘差映射

      雖然原始的恒等映射是通過強制執(zhí)行



      因此,該 DeepSeek 團隊提出將殘差映射投影到一個流形上,既能保持跨層信號傳播的穩(wěn)定性,又能促進殘差流之間的相互作用,以保持模型的表達能力(expressivity)。

      為此,他們的做法是將

      形式上,令







      其中 1_n 表示全 1 的 n 維向量。

      為什么選擇雙擬隨機性?因為其具有多項有利于大規(guī)模訓(xùn)練的理論屬性:

      • ),這意味著學(xué)習(xí)到的映射是非擴張的,可有效緩解梯度爆炸問題。
      • 范數(shù)保持:其譜范數(shù)有界且不超過 1(即



      • 復(fù)合封閉性:雙擬隨機矩陣集對矩陣乘法具有封閉性,確保了跨多層的復(fù)合殘差映射仍保持雙擬隨機,從而可在整個模型深度上維持穩(wěn)定性。
      • 幾何解釋:該集合構(gòu)成了 Birkhoff 多胞形,是排列矩陣集的凸包。這意味著殘差映射充當(dāng)了排列的凸組合,其重復(fù)應(yīng)用會單調(diào)地增加跨流的信息混合,起到魯棒的特征融合作用。

      此外,該團隊還對輸入映射



      參數(shù)化與流形投影

      本節(jié)將詳述 mHC 中各映射的計算過程。

      給定第 l 層的輸入隱藏矩陣 x_l,先將其展平為向量





      最終的約束映射通過以下方式獲得:



      其中



      DeepSeek 在實驗中采用 t_max=20 次迭代。

      高效基礎(chǔ)設(shè)施設(shè)計

      DeepSeek 還為 mHC 量身定制了基礎(chǔ)設(shè)施設(shè)計,使其在 n=4 時在大模型中的訓(xùn)練開銷僅增加 6.7%:

      算子融合 (Kernel Fusion):

      重新調(diào)整 RMSNorm 的順序以提高效率,并采用混合精度策略。

      開發(fā)了統(tǒng)一的算子,將多次掃描和矩陣乘法融合,減少內(nèi)存帶寬瓶頸和算子啟動開銷。

      在單個算子中實現(xiàn) Sinkhorn-Knopp 迭代及其自定義反向傳播。



      重計算 (Recomputing):

      為了減輕 n 流設(shè)計帶來的內(nèi)存壓力,DeepSeek 在前向傳播后丟棄 mHC 算子的中間激活,并在反向傳播時即時重新計算。

      通過推導(dǎo)得出最優(yōu)重計算塊大小 L_r^*,以最小化總內(nèi)存占用。

      DualPipe 中的通信重疊:

      擴展了 DualPipe 調(diào)度算法,以改善流水線并行階段邊界處的通信與計算重疊在專用高優(yōu)先級計算流上執(zhí)行 MLP 層的內(nèi)核,并避免在注意力層使用持久算子,以防止阻塞通信流并提高設(shè)備利用率。

      實驗

      實驗設(shè)置

      研究團隊通過語言模型預(yù)訓(xùn)練來驗證所提方法的有效性,并對基線模型、超連接(HC)以及提出的流形約束超連接(mHC)進行了對比分析。

      他們采用了受 DeepSeek-V3 啟發(fā)的 MoE 架構(gòu),訓(xùn)練了四種不同的模型變體,以覆蓋不同的評估體系。

      具體而言,HC 和 mHC 的擴展率 n 均設(shè)置為 4,主要關(guān)注點是一個 27B 參數(shù)規(guī)模的模型。其訓(xùn)練數(shù)據(jù)集的大小與其參數(shù)量成正比,該模型用于展示系統(tǒng)層面的主要結(jié)果。在此基礎(chǔ)上,他們通過引入使用成比例數(shù)據(jù)訓(xùn)練的較小的 3B 和 9B 模型來分析計算擴展性,從而觀察不同計算規(guī)模下的性能趨勢。此外,為了專門研究 Token 規(guī)模的影響,他們另外訓(xùn)練了一個獨立的 3B 模型,該模型在一個固定的 1T Token 的語料庫上進行訓(xùn)練。



      主要結(jié)果



      圖 5:流形約束超連接 (mHC) 的訓(xùn)練穩(wěn)定性。 該圖展示了:(a) mHC 和 HC 相對于基線模型的訓(xùn)練損失絕對差值;(b) 三種方法在訓(xùn)練過程中的梯度范數(shù)。所有實驗均基于 27B 參數(shù)規(guī)模的模型。實驗結(jié)果表明,mHC 在損失函數(shù)和梯度范數(shù)兩方面均表現(xiàn)出更優(yōu)的穩(wěn)定性。

      研究團隊首先考察 27B 模型的訓(xùn)練穩(wěn)定性和收斂性。如圖 5 (a) 所示,mHC 有效緩解了在 HC 中觀察到的訓(xùn)練不穩(wěn)定問題,與基線模型相比,最終損失降低了 0.021。圖 5 (b) 中的梯度范數(shù)分析進一步證實了這種穩(wěn)定性的提升:mHC 表現(xiàn)出明顯優(yōu)于 HC 的行為,保持了與基線模型相當(dāng)?shù)姆€(wěn)定輪廓。



      表 4:27B 模型在系統(tǒng)級基準測試上的結(jié)果。 本表對比了基線模型、HC 以及 mHC 在 8 個不同的下游基準測試中的零樣本和少樣本性能表現(xiàn)。結(jié)果顯示,mHC 始終優(yōu)于基線模型,并在大多數(shù)基準測試中超越了 HC,證明了其在大規(guī)模預(yù)訓(xùn)練中的有效性。

      表 4 展示了在多種下游基準測試中的性能表現(xiàn)。mHC 帶來了全面的提升,一致性地優(yōu)于基線模型,并在大多數(shù)任務(wù)上超過了 HC。值得注意的是,與 HC 相比,mHC 進一步增強了模型的推理能力,在 BBH 和 DROP 任務(wù)上分別實現(xiàn)了 2.1% 和 2.3% 的性能增益。

      規(guī)模擴展實驗



      圖 6:mHC 與基線模型的擴展特性對比。 (a) 計算擴展曲線:實線描繪了在不同計算預(yù)算下的性能差距。每個點代表模型大小與數(shù)據(jù)集大小的最優(yōu)計算配置,涵蓋了從 3B、9B 到 27B 參數(shù)規(guī)模的規(guī)模擴展過程。 (b) Token 擴展曲線:展示了 3B 模型在訓(xùn)練過程中的軌跡。每個點代表模型在不同訓(xùn)練 Token 數(shù)量下的性能表現(xiàn)。

      為了評估該方法的擴展性,研究者報告了在不同規(guī)模下 mHC 相對于基線模型的損失改善情況。在圖 6 (a) 中,他們繪制了涵蓋 3B、9B 和 27B 參數(shù)規(guī)模的計算規(guī)模擴展曲線。其軌跡表明,即使在更高的計算預(yù)算下,性能優(yōu)勢依然穩(wěn)健地得以保持,僅表現(xiàn)出輕微的衰減。

      此外,他們在圖 6 (b) 中考察了訓(xùn)練過程中的動態(tài)變化,展示了 3B 模型的 Token 擴展曲線。總的來看,這些發(fā)現(xiàn)驗證了 mHC 在大規(guī)模場景下的有效性。這一結(jié)論在他們內(nèi)部的大規(guī)模訓(xùn)練實驗中得到了進一步的證實。

      更多詳情請參閱原論文。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      杜蘭特工資3158萬美元NBA第一,庫里縮水最嚴重跌第5

      杜蘭特工資3158萬美元NBA第一,庫里縮水最嚴重跌第5

      大眼瞄世界
      2026-01-02 14:02:32
      小區(qū)樓上天天晚上都有女的大聲叫。。。

      小區(qū)樓上天天晚上都有女的大聲叫。。。

      微微熱評
      2025-12-24 00:26:04
      普利西奇進球比心獻女友,親自下場怒懟緋聞:我沒出軌“悉尼妹”

      普利西奇進球比心獻女友,親自下場怒懟緋聞:我沒出軌“悉尼妹”

      聽我說球
      2026-01-03 11:17:15
      9戰(zhàn)6敗!新疆最多落后30分慘負山東 克里斯36+7阿不都20分

      9戰(zhàn)6敗!新疆最多落后30分慘負山東 克里斯36+7阿不都20分

      醉臥浮生
      2026-01-02 21:28:57
      2026年新能源車一統(tǒng)天下,燃油車兩年內(nèi)趨零已成定局

      2026年新能源車一統(tǒng)天下,燃油車兩年內(nèi)趨零已成定局

      純科學(xué)
      2026-01-01 14:44:31
      這種“奪命”洗衣液別再用了,有致癌的風(fēng)險!很多人中招卻不知道

      這種“奪命”洗衣液別再用了,有致癌的風(fēng)險!很多人中招卻不知道

      三農(nóng)老歷
      2026-01-03 09:51:14
      2026年11月滿70歲,山東養(yǎng)老金高齡傾斜能享受嗎?答案明確了

      2026年11月滿70歲,山東養(yǎng)老金高齡傾斜能享受嗎?答案明確了

      云鵬敘事
      2026-01-03 09:08:45
      我生病住院3個月無人問津,出院后我停了弟弟每月2萬的生活費

      我生病住院3個月無人問津,出院后我停了弟弟每月2萬的生活費

      小秋情感說
      2026-01-02 13:20:03
      荷蘭5000億換“廢鐵”?我國強硬下達“逐客令”:一分也不能少

      荷蘭5000億換“廢鐵”?我國強硬下達“逐客令”:一分也不能少

      芯火相承
      2026-01-02 16:01:22
      轟22分掃質(zhì)疑!美球迷盼給哈珀更多時間 美媒:新秀就能掌控大局

      轟22分掃質(zhì)疑!美球迷盼給哈珀更多時間 美媒:新秀就能掌控大局

      顏小白的籃球夢
      2026-01-03 10:35:09
      溥儀9歲仍在吃奶,給他當(dāng)乳娘有2規(guī)矩:一是喂奶,另一個毫無人性

      溥儀9歲仍在吃奶,給他當(dāng)乳娘有2規(guī)矩:一是喂奶,另一個毫無人性

      小豫講故事
      2025-12-27 06:00:06
      記者:獨行俠曾主動聯(lián)系勇士談濃眉交易;勇士無意交易追夢和巴特勒

      記者:獨行俠曾主動聯(lián)系勇士談濃眉交易;勇士無意交易追夢和巴特勒

      懂球帝
      2026-01-03 01:43:33
      江蘇女子稱奶奶去世公司不批假還被逼離職,公司法人回應(yīng):“上班摸魚,害群之馬!”

      江蘇女子稱奶奶去世公司不批假還被逼離職,公司法人回應(yīng):“上班摸魚,害群之馬!”

      瀟湘晨報
      2026-01-01 18:41:14
      醫(yī)院里你見過最離譜的事是啥?網(wǎng)友:這年頭啥稀奇事都有可能發(fā)生

      醫(yī)院里你見過最離譜的事是啥?網(wǎng)友:這年頭啥稀奇事都有可能發(fā)生

      帶你感受人間冷暖
      2025-12-31 00:20:05
      斯大林葬禮時,周總理罕見不顧一切向蘇聯(lián)提要求:放我們一人回國

      斯大林葬禮時,周總理罕見不顧一切向蘇聯(lián)提要求:放我們一人回國

      阿胂是吃瓜群眾
      2025-12-29 16:54:40
      馬家軍作戰(zhàn)有多兇狠?打到戰(zhàn)役尾聲,解放軍戰(zhàn)士不惜以身體擋住敵人的槍膛,奮勇向前

      馬家軍作戰(zhàn)有多兇狠?打到戰(zhàn)役尾聲,解放軍戰(zhàn)士不惜以身體擋住敵人的槍膛,奮勇向前

      史海殘云
      2026-01-01 22:54:11
      16GB+1TB!新機官宣:搭載驍龍8 Elite Gen5+雙衛(wèi)星通信!

      16GB+1TB!新機官宣:搭載驍龍8 Elite Gen5+雙衛(wèi)星通信!

      科技堡壘
      2026-01-01 11:32:37
      演都不演了!離婚傳聞?wù)嫦嗪螅T小剛一個舉動撕下徐帆的'體面'

      演都不演了!離婚傳聞?wù)嫦嗪螅T小剛一個舉動撕下徐帆的'體面'

      蕭佉影視解說
      2025-12-31 20:12:40
      網(wǎng)紅郭有才,泡沫散去之后,曾經(jīng)飄的有多高,如今摔得就有多慘

      網(wǎng)紅郭有才,泡沫散去之后,曾經(jīng)飄的有多高,如今摔得就有多慘

      小熊侃史
      2025-12-20 10:55:18
      震怒!俄羅斯要求聯(lián)合國譴責(zé)烏赫爾松恐怖襲擊,警告沉默即是共謀

      震怒!俄羅斯要求聯(lián)合國譴責(zé)烏赫爾松恐怖襲擊,警告沉默即是共謀

      健身狂人
      2026-01-03 12:01:46
      2026-01-03 13:16:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12033文章數(shù) 142527關(guān)注度
      往期回顧 全部

      科技要聞

      比亞迪銷冠!特斯拉2025年交付量跌逾8%

      頭條要聞

      孩子后腦勺摔出一個大口子 夫妻看監(jiān)控"眼淚就下來了"

      頭條要聞

      孩子后腦勺摔出一個大口子 夫妻看監(jiān)控"眼淚就下來了"

      體育要聞

      快船似乎又行了

      娛樂要聞

      “國服嫂子”司曉迪,曝與多位男星私照

      財經(jīng)要聞

      人工智能四問:投資泡沫出現(xiàn)了嗎?

      汽車要聞

      奕派科技全年銷量275,752輛 同比增長28.3

      態(tài)度原創(chuàng)

      家居
      數(shù)碼
      教育
      藝術(shù)
      公開課

      家居要聞

      無形有行 自然與靈感詩意

      數(shù)碼要聞

      華碩ROG、XREAL暗示聯(lián)名智能眼鏡:無顯示器實現(xiàn)大屏游戲體驗

      教育要聞

      為什么會有極端不聽話的孩子?

      藝術(shù)要聞

      砸30億!桂林山水間的“史詩級爛尾酒店”,如今1億沒人要?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 97人妻碰碰中文无码久热丝袜| 天天伊人久久| 精品九九在线| 亚洲熟女综合色一区二区三区| 人妻第一页| 婷婷久久综合九色综合88| 国产电影一区二区三区| 久久人人爽人人爽人人片| 少妇愉情理伦片丰满丰满午夜| 国产成人精品综合在线观看| 色 亚洲 日韩 国产 综合| 偷拍精品一区二区三区| 国产精品任我爽爆在线播放6080| 亚洲国产色婷婷久久99精品91| 两个人看的www视频中文字幕| 极品无码国模在线观看| 91sese| 中文字幕乱码亚洲无线码在线日噜噜| 汝城县| 江门市| 张北县| 高平市| 日韩色区| 久久一级国产黄色精品| 怡春院av| 制度丝袜诱惑av| 欧美成人无码国产精品嫩草开发| 婷婷丁香五月亚洲中文字幕| 亚洲第一区二区快射影院| 鲁鲁美女影院| 国产精品偷伦费观看一次| 亚洲踪合一二三| 婷婷亚洲综合五月天小说| 亚洲国产成人精品激情资源9| 色www视频永久免费| 一本本月无码-| 激情国产一区二区三区四区小说 | 亚洲av综合av一区| 摸丰满大乳奶水www免费| 成人国产精品免费视频| 欧美人与动牲交A免费观看|