<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek 開年王炸:mHC 架構用流形約束重構 ResNet 殘差連接

      0
      分享至


      大過節的,qwen發布了image 2512,DeepSeek這邊就偷摸的在arXiv 上掛出了這篇mHC: Manifold-Constrained Hyper-Connections(arXiv:2512.24880),哪個正經公司在最后一天還發論文啊。

      簡單的看了一下,說說我的看法: 這回DeepSeek又要對 殘差連接(Residual Connection)出手了。

      現在我們模型的底層架構就是疊 Transformer Block,而過去這十年,對于每一層的堆疊,愷明大神的 ResNet 也就是那個 y=x+f(x),幾乎行業的“公理”。它通過 Identity Mapping(恒等映射),可以讓信號能無損傳下去,梯度也能無損傳上來,這就保證了咱們能把模型堆到幾百上千層還不崩。

      但 DeepSeek 團隊之前(大概是去年 9 月那會兒)提了個 Hyper-Connections (好像看的人不多,我當時沒太注意這個) 的概念,覺得簡單的相加太浪費了就搞了個更復雜的連接方式來擴寬層間的信息通路。但是一旦你動了那個“相加”,Identity 的屬性就沒了,梯度傳播就開始不穩定,這樣訓練起來特別容易炸他們管這叫 Seesaw Effect(蹺蹺板效應)。

      這篇 mHC 就是來填這個坑的,咱們順著邏輯拆解一下。



      這就引出了 mHC 的核心:流形約束(Manifold Constraint)。

      別被這數學名詞嚇著:之前的 HC 是想讓連接權重隨便長,結果就長歪了;現在的 mHC 就是給這些權重矩陣加了個限制。DeepSeek 在數學上證明了,如果把這些超連接的權重矩陣強制投影到一個特定的流形空間里就能在保留 HC 那種高帶寬、多通路優勢的同時,還把 Identity Mapping 的屬性給找補回來。

      也就是說他們在數學層面上造了一個“既要有又要”的結構:既要連接方式足夠復雜多變,能捕捉更高級的特征交互;又要信號傳播像 ResNet 一樣順滑,不至于在深層網絡里迷路。

      這里的“流形”具體由兩個關鍵的數學性質構成:

      第一是 譜范數約束(Spectral Norm Constraint),他們強制要求連接矩陣的譜范數 ∥W∥2≤1。這在動力系統里叫“非擴張”(Non-expansive)。只有當矩陣的最大奇異值被摁在 1 附近,信號能量在深層傳播時才不會發散。

      第二是 雙重隨機矩陣(Doubly Stochastic Matrices), 這是一類行和、列和都為 1 的非負矩陣。這玩意兒有個極好的代數性質叫 閉包性(Compositional Closure)。兩個雙重隨機矩陣乘起來它還是雙重隨機的,所以這就保證了無論網絡堆多深,整體的變換性質不變。更重要的是,這讓每一層的輸出變成了上一層的 凸組合(Convex Combination),從根本上恢復了訓練的穩定性。

      并且論文里面包含了很強的理論推導,對于信號傳播(Signal Propagation)的分析非常扎實,直接指出了為什么之前的架構在超深層會遇到瓶頸,而 mHC 是怎么通過約束奇異值分布來解決這個問題的。(ps:DeepSeek 的日子也是好起來了,做實驗都敢用27B的模型了,HC那篇用的可以是7B的)



      論文里還有一段非常精彩的理論分析,是從 動態系統(Dynamical Systems) 的角度去看的。

      如果你把層數看作時間步,深層網絡其實就是一個離散的動態系統。而且這篇論文證明了在流形約束下,這個系統的 Lyapunov 指數是受控的。他們通過一種類似 Projecting(投影)的手法,確保權重矩陣始終保持良好的 譜性質(Spectral Properties)。說的通俗點就是:不管怎么更新,這些矩陣在數學性質上必須看起來像一個“稍微扭曲了一點點的 Identity Matrix”,而不是一個完全隨機的矩陣。

      這就從理論上解釋了為什么 mHC 可以堆疊到成百上千層而不崩塌,這部分其實是對現有架構理論的一個重要補充。以前我們只知道“加個殘差就好使”,現在 mHC 告訴我們:“只要你在流形上走路,哪怕姿勢復雜點,也不會摔倒”。

      而且熟悉 DeepSeek 風格的朋友都知道,他們從來不只聊數學,還必須要聊 System Efficiency。

      mHC 這個架構顯然是做過嚴格的 Infrastructure Optimization 的。如果只是理論上好使但拖慢了訓練速度,DeepSeek 是絕對不會用的。他們在論文里也提到了這點,這種特殊的連接方式配合專門優化的 CUDA kernel,可以把額外的計算開銷壓縮到了幾乎可以忽略不計的程度。

      這就很可怕了,等于是在算力成本幾乎不變的情況下,白嫖了模型表達能力的上限。在實際的大規模訓練吞吐上并沒有造成明顯的 overhead。

      這對咱們行業意味著什么?

      我覺得這可能是“后 Transformer 時代”的一個重要信號。以前咱們擴模型,就是簡單粗暴地增加層數、增加寬度,屬于“堆料”。但 mHC 提示了一個新的方向:層與層之間的拓撲結構(Topology)本身,還有巨大的挖掘空間。

      如果這種基于流形約束的連接方式被驗證能 scaling up 到萬億參數級別(論文說 671B 的 MoE 模型是ok的),那咱們以后設計大模型,可能就不再是簡單的搭積木而是要開始研究積木之間的粘合劑怎么調配了。

      mHC 的出現不僅修復了 Hyper-Connections 的缺陷,更重要的是它將深度學習架構設計的視角從單純的“連接圖”提升到了“參數流形”的高度。隨著基礎模型對效率和能力的要求日益嚴苛,mHC 所代表的幾何約束設計理念,極有可能成為未來幾年 AI 基礎設施的核心標準之一。

      論文:

      https://avoid.overfit.cn/post/51f0eb0654f744878511b56befd42a77

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      伊朗最大“內鬼”被抓?革命衛隊:勾結以色列,指揮官卡尼被拘!

      伊朗最大“內鬼”被抓?革命衛隊:勾結以色列,指揮官卡尼被拘!

      青青子衿
      2026-03-05 11:57:03
      打瘋了!東契奇首節狂轟22+5三分 生涯30次單節20+升歷史第四

      打瘋了!東契奇首節狂轟22+5三分 生涯30次單節20+升歷史第四

      醉臥浮生
      2026-03-07 12:13:33
      伊拉克庫爾德第一夫人宣言:我們不是任人驅使的炮灰!

      伊拉克庫爾德第一夫人宣言:我們不是任人驅使的炮灰!

      勝研集
      2026-03-06 13:44:23
      廣東一女子不愿上班常年坐街邊,因長得好看被路人投喂:又懶又饞

      廣東一女子不愿上班常年坐街邊,因長得好看被路人投喂:又懶又饞

      明智家庭教育
      2026-03-06 17:19:16
      美以伊軍事沖突最大副作用,是斬斷了俄羅斯的“救命稻草”

      美以伊軍事沖突最大副作用,是斬斷了俄羅斯的“救命稻草”

      廖保平
      2026-03-05 12:08:52
      “不想為以色列賣命”:帝國最后的遮羞布,美式民主終成笑話

      “不想為以色列賣命”:帝國最后的遮羞布,美式民主終成笑話

      怪口歷史的K先生
      2026-03-06 15:22:51
      為何關閉霍爾木茲海峽就能掐全球脖子?因為伊朗原油是全世界最好的

      為何關閉霍爾木茲海峽就能掐全球脖子?因為伊朗原油是全世界最好的

      風向觀察
      2026-03-06 21:31:15
      兩會不到3天,5大好消息傳來!老百姓暗暗叫好:希望國家盡快落實

      兩會不到3天,5大好消息傳來!老百姓暗暗叫好:希望國家盡快落實

      談史論天地
      2026-03-07 06:54:29
      1979年,張國燾凍死在養老院,許世友:除了主席,沒人是他的對手

      1979年,張國燾凍死在養老院,許世友:除了主席,沒人是他的對手

      文史季季紅
      2026-03-05 13:35:03
      寫入教科書的一天:F-35在德黑蘭完成全球首次實戰空對空擊殺

      寫入教科書的一天:F-35在德黑蘭完成全球首次實戰空對空擊殺

      斌聞天下
      2026-03-06 07:30:03
      伊方:因美以襲擊喪生的伊朗人三成為青少年

      伊方:因美以襲擊喪生的伊朗人三成為青少年

      環球網資訊
      2026-03-07 06:39:29
      為什么美國的華人華裔地位那么低 網友從各方面分析 真就那樣

      為什么美國的華人華裔地位那么低 網友從各方面分析 真就那樣

      侃神評故事
      2026-03-06 07:10:03
      我包養過一個女大學生,七年花了一千多萬

      我包養過一個女大學生,七年花了一千多萬

      煙火人間故事匯
      2026-03-06 23:05:03
      性壓抑已經變態至此了?

      性壓抑已經變態至此了?

      黯泉
      2026-03-07 11:28:43
      蘿莉島,是進入核心圈層的投名狀,你猜他們為什么都穿紅皮鞋

      蘿莉島,是進入核心圈層的投名狀,你猜他們為什么都穿紅皮鞋

      百曉生談歷史
      2026-03-05 22:00:08
      一份“煮熟的三文魚”火了,原來低認知的家長,真能搞出人命!

      一份“煮熟的三文魚”火了,原來低認知的家長,真能搞出人命!

      妍妍教育日記
      2026-03-07 08:45:06
      伊朗萬萬沒想到,自家王牌武器遭到破解,美軍多了一張底牌

      伊朗萬萬沒想到,自家王牌武器遭到破解,美軍多了一張底牌

      空天力量
      2026-03-06 13:09:18
      上次被發現還是1911年!上海寶山驚現1只,專家:可能是坐船來的

      上次被發現還是1911年!上海寶山驚現1只,專家:可能是坐船來的

      萬象硬核本尊
      2026-03-06 23:54:22
      女子實名舉報某團外賣:不上大額券就讓我變成“凌晨營業”,你們真黑!

      女子實名舉報某團外賣:不上大額券就讓我變成“凌晨營業”,你們真黑!

      回旋鏢
      2026-03-06 21:13:59
      塔圖姆復出15分12板7助攻凱爾特人大勝獨行俠,布朗24分7板7助

      塔圖姆復出15分12板7助攻凱爾特人大勝獨行俠,布朗24分7板7助

      湖人崛起
      2026-03-07 10:25:09
      2026-03-07 13:43:00
      deephub incentive-icons
      deephub
      CV NLP和數據挖掘知識
      1940文章數 1456關注度
      往期回顧 全部

      科技要聞

      OpenClaw爆火,六位"養蝦人"自述與AI共生

      頭條要聞

      特朗普突然放話"先解決伊朗后解決古巴" 梅西聽懵了

      頭條要聞

      特朗普突然放話"先解決伊朗后解決古巴" 梅西聽懵了

      體育要聞

      塔圖姆歸來:凱爾特人的春之綠

      娛樂要聞

      周杰倫田馥甄的“JH戀” 被扒得底朝天

      財經要聞

      針對"不敢休、不讓休"怪圈 國家出手了

      汽車要聞

      逃離ICU,上汽通用“止血”企穩

      態度原創

      手機
      家居
      游戲
      數碼
      公開課

      手機要聞

      歐加驍龍8系小平板4月來襲,Find X9系列配件已備好!

      家居要聞

      暖棕撞色 輕法奶油風

      鍵鼠不是萬能的神!外媒盤點近年適合用手柄玩的游戲

      數碼要聞

      蘋果M5 Pro芯片GeekBench跑分曝光:多核破2.8萬

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版