<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      【梁文鋒署名】DeepSeek新論文:所有人都覺得沒必要改的東西,他們改了

      0
      分享至

      2025年的最后一天,DeepSeek又發論文了。


      過去一年,很多人都在問同一個問題:DeepSeek為什么能用更少的錢,做出更強的模型?

      答案當然不止一個。但這篇論文透露了其中一個思路:去優化那些所有人都覺得"已經是最優解"的東西

      這次他們動的是殘差連接——一個深度學習領域用了十年、幾乎沒人質疑過的基礎設計。

      論文名字有點硬核:mHC(Manifold-Constrained Hyper-Connections),翻譯過來就是"流形約束的超連接"。但核心思想其實不復雜,今天試著用人話講清楚。

      先說背景:殘差連接統治了深度學習十年

      經常訓練大模型的朋友,一定聽過"殘差連接"(Residual Connection)這個詞。

      2015年,何愷明團隊提出ResNet,核心創新就是這個殘差連接。簡單說就是:每一層的輸出 = 這一層學到的東西 + 上一層的輸入。

      用公式表示:

      x_{l+1} = x_l + F(x_l)

      這個設計看起來簡單,但解決了一個大問題:網絡太深就訓不動

      為什么?因為梯度消失。信號在幾十上百層網絡里傳遞,越傳越弱,最后弱到模型根本學不到東西。

      殘差連接的妙處在于:它給信號開了一條"快車道"。不管中間那些層學到了什么,原始信號都能直接傳到后面。這就是所謂的恒等映射(Identity Mapping)——淺層的信息可以原封不動地傳到深層。

      從2015年到現在,不管是GPT、LLaMA還是Gemini,幾乎所有大模型都在用這個設計。十年了,沒人動過它。

      DeepSeek的第一次嘗試:Hyper-Connections

      2024年9月,DeepSeek發了一篇論文,提出了Hyper-Connections(HC),第一次對殘差連接動刀。

      核心思想是:既然殘差連接的權重是固定的(1:1),為什么不讓模型自己學習最優的連接方式?

      HC做了兩件事:

      1. 把殘差流從1條擴展到n條(通常n=4)

      2. 引入可學習的連接矩陣,讓模型自己決定怎么混合這些信號

      效果確實好。論文數據顯示:

      • 訓練收斂速度提升1.8倍

      • ARC-Challenge任務提升6個百分點

      這個提升挺猛的。但HC有一個致命缺陷——訓練不穩定

      HC的問題:信號放大了3000倍

      這是論文里最直觀的一張圖。


      看左邊那條藍線(HC),在第12000步左右,損失突然飆升。這對大規模訓練來說是致命的——你可能已經燒了幾百萬的算力,結果模型突然崩了。

      為什么會這樣?

      論文里有詳細分析。核心原因是:HC破壞了恒等映射的特性

      還記得殘差連接的公式嗎?x_{l+1} = x_l + F(x_l)。這里的x_l是"1倍"傳遞到下一層的。但HC引入了可學習的權重矩陣H,信號傳遞變成了:

      x_{l+1} = H * x_l + ...

      問題來了:H是可學習的,沒有任何約束。

      當網絡有60層時,信號要經過60個H矩陣的連乘。如果每個H的"放大倍數"稍微大于1,連乘60次會發生什么?

      指數爆炸

      論文測量了這個"放大倍數"(Amax Gain Magnitude)。理想情況下應該是1(信號不放大也不縮小)。但HC在27B模型上的實測結果是——

      峰值達到3000

      信號被放大了3000倍,梯度也被放大了3000倍。難怪訓練會崩。

      mHC的解法:雙隨機矩陣

      現在問題清楚了:H矩陣太"自由"了,沒有約束,所以會亂來。

      那怎么約束它?

      最簡單的方法是讓H = I(單位矩陣),這樣就退化回原始的殘差連接了。但這樣就失去了HC的性能優勢。

      DeepSeek的解法很優雅:把H約束在"雙隨機矩陣"上

      什么是雙隨機矩陣?簡單說就是滿足兩個條件的矩陣:

      1. 所有元素都 ≥ 0

      2. 每行之和 = 1,每列之和 = 1

      舉個例子,這是一個2×2的雙隨機矩陣:

      [0.3, 0.7]
      [0.7, 0.3]

      每行加起來是1,每列加起來也是1。

      為什么這個約束有效?

      因為雙隨機矩陣做的事情本質上是"加權平均"

      當你用雙隨機矩陣乘以一個向量時,結果向量的每個元素都是輸入向量的凸組合(加權平均)。加權平均有一個天然的性質:結果不會超出輸入的范圍

      這就從數學上保證了信號不會爆炸。

      更妙的是,雙隨機矩陣還有一個"封閉性":兩個雙隨機矩陣相乘,結果還是雙隨機矩陣

      這意味著不管網絡有多深,60層、100層、1000層,信號經過多少個H矩陣的連乘,結果仍然是一個雙隨機矩陣,仍然滿足"不會爆炸"的性質。

      論文用了一個算法叫Sinkhorn-Knopp來做這個投影。具體細節不展開了,核心就是迭代地調整矩陣的行和列,讓它們都歸一化到和為1。

      效果:穩定性提升三個數量級

      mHC的效果怎么樣?


      先看穩定性。同樣是27B模型,同樣的訓練配置:

      指標

      HC

      mHC

      Amax Gain峰值

      3000

      1.6

      從3000降到1.6,降低了三個數量級。說實話,看到這個數字的時候我愣了一下——這個改進幅度有點離譜。

      訓練曲線也變得平滑了,再也沒有那個可怕的"損失飆升"。

      再看性能。mHC不僅比原始的殘差連接強,甚至比不穩定的HC還要強:

      Benchmark

      Baseline

      HC

      mHC

      BBH

      43.8

      48.9

      51.0

      DROP

      47.0

      51.6

      53.9

      GSM8K

      46.7

      53.2

      53.8

      MMLU

      59.0

      63.0

      63.4

      mHC在大多數任務上都比HC更好,特別是推理任務(BBH +2.1%,DROP +2.3%)。

      穩定性提升了,性能也提升了。那代價呢?

      只增加了6.7%的訓練時間

      這個數字挺關鍵的。HC雖然不增加FLOPs(浮點運算量),但因為擴展了殘差流寬度,內存訪問成本大幅增加。DeepSeek在論文里花了大量篇幅講基礎設施優化——內核融合、選擇性重計算、通信重疊——才把開銷控制在這個水平。

      為什么這個方法優雅?

      讀完這篇論文,我覺得mHC的設計挺漂亮的,主要體現在三個地方:

      1. 問題定義精準

      很多研究會籠統地說"訓練不穩定",但DeepSeek精確地定位到了問題根源:恒等映射特性的喪失導致信號在多層傳播時爆炸。有了這個精準定義,解決方案才能有的放矢。

      2. 解決方案有數學保證

      雙隨機矩陣不是拍腦袋想出來的,而是有嚴格的數學性質支撐:

      • 譜范數 ≤ 1(不會放大信號)

      • 組合封閉性(多層仍然穩定)

      • Birkhoff多面體的幾何解釋(是所有置換矩陣的凸組合)

      這種有數學保證的方法,比"試了一百種trick發現這個work"要可靠得多。

      3. 工程和理論并重

      很多論文只講理論創新,對工程實現一筆帶過。但DeepSeek的論文花了相當篇幅講基礎設施優化:怎么融合內核、怎么減少內存占用、怎么和DualPipe調度配合。這才是能真正落地的研究。

      往大了說:DeepSeek在找什么?

      回到開頭的問題:DeepSeek為什么能用更少的錢做出更強的模型?

      這篇論文給出了一個側面的答案:他們在找那些"所有人都覺得已經是最優解"的東西,然后證明它不是

      過去十年,大模型的架構創新主要集中在"微觀設計"——Attention怎么改、FFN怎么改、位置編碼怎么改。但殘差連接?從2015年到現在,幾乎原封不動。大家默認它沒什么可優化的了。

      mHC證明了這個假設是錯的。

      更重要的是,這種優化的特點是:不增加計算量,只改變信息流動的方式。同樣的FLOPs,更好的效果。

      這可能就是DeepSeek的技術哲學之一:不是比誰燒的錢多,而是比誰能在同樣的資源下榨取更多性能。

      當然,mHC還解決了一個實際問題:讓HC能穩定訓練。HC本身是個好方法,但因為不穩定沒法用。mHC修復了這個缺陷,讓這條架構創新的路能走下去。

      論文最后一句話說得挺直接的:

      "我們希望mHC能重新激發社區對宏觀架構設計的興趣。"

      翻譯一下:過去大家都在卷Attention、卷FFN、卷MoE。現在DeepSeek說,層與層之間怎么連接,這塊也有金礦。

      最后

      這篇論文給我最大的啟發是:當你發現一個方法有效但不穩定時,不要放棄,而是去找約束條件

      雙隨機矩陣就是這樣一個約束——它保留了HC的表達能力(可學習的連接權重),同時通過數學性質保證了穩定性(加權平均不會爆炸)。在自由和約束之間找平衡,這個思路可能在很多領域都適用。

      回到開頭的問題:DeepSeek為什么能做到別人做不到的事?

      這篇論文給出的答案是:去質疑那些"所有人都覺得沒必要改"的東西。殘差連接用了十年,不代表它是最優解。

      2025年最后一天發這篇論文,DeepSeek給2026年開了個好頭。

      參考資料

      • mHC論文:https://arxiv.org/abs/2512.24880

      • Hyper-Connections論文:https://arxiv.org/abs/2409.19606

      • DeepSeek-V3技術報告:https://arxiv.org/abs/2412.19437

      @Deepseek 用我奶奶也能懂的方式,用100字解釋下這篇論文。

      奶奶,你想啊,AI訓練就像帶熊孩子。 以前的規矩是:拉著手走,一步都不許亂動。安全,但孩子啥也學不會。 后來有人說:放開讓他跑吧。結果跑著跑著就跑丟了。 DeepSeek的辦法:讓孩子自己跑,但只能在圍欄里跑。怎么跑都行,反正跑不出去。 給自由畫個圈,這就是mHC。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      高鐵時代,綠皮車卻火了,大巴車都要起死回生了

      高鐵時代,綠皮車卻火了,大巴車都要起死回生了

      歷史總在押韻
      2026-02-12 23:53:10
      李亞鵬突然提到十年前最難時給黃曉明發短信,不到一分鐘收到回復

      李亞鵬突然提到十年前最難時給黃曉明發短信,不到一分鐘收到回復

      百態人間
      2026-02-10 15:25:10
      浙江省稅務局黨委書記、局長孟軍:堅定扛起經濟大省挑大梁的稅務擔當

      浙江省稅務局黨委書記、局長孟軍:堅定扛起經濟大省挑大梁的稅務擔當

      新浪財經
      2026-02-13 11:11:38
      不能錯過!2月13日晚19:00比賽!中央5套CCTV5、CCTV5+直播節目表

      不能錯過!2月13日晚19:00比賽!中央5套CCTV5、CCTV5+直播節目表

      林子說事
      2026-02-13 14:54:46
      中央軍委全力反腐敗,說明中國人民解放軍將要擔大任,干大事!

      中央軍委全力反腐敗,說明中國人民解放軍將要擔大任,干大事!

      安安說
      2026-01-29 09:33:17
      大年三十除夕必吃的3道菜,好吃吉利,吃完馬年旺,快收藏起來!

      大年三十除夕必吃的3道菜,好吃吉利,吃完馬年旺,快收藏起來!

      江江食研社
      2026-02-12 18:30:07
      恒基太子爺李家誠入稟高等法院,控告藝人周秀娜誹謗及騷擾

      恒基太子爺李家誠入稟高等法院,控告藝人周秀娜誹謗及騷擾

      TVB劇評社
      2026-02-13 16:22:16
      金融戰已經打響

      金融戰已經打響

      白淺娛樂聊
      2026-02-12 19:39:55
      退休14年被查!中國人壽原總裁楊超案:投資領域腐敗典型,退休非安全港

      退休14年被查!中國人壽原總裁楊超案:投資領域腐敗典型,退休非安全港

      聽楓觀瀾
      2025-12-28 23:13:23
      霍勒迪31分9板7助開拓者戰勝爵士,克林根23分18板楊瀚森2分

      霍勒迪31分9板7助開拓者戰勝爵士,克林根23分18板楊瀚森2分

      湖人崛起
      2026-02-13 12:33:42
      慘敗仍有收獲!U18國青2將被張博源主帥看中 除張懿趙杰還有1人

      慘敗仍有收獲!U18國青2將被張博源主帥看中 除張懿趙杰還有1人

      大嘴爵爺侃球
      2026-02-13 18:21:14
      消失的彭加木:一場精心計劃的逃亡?隱藏在羅布泊中的離奇秘密

      消失的彭加木:一場精心計劃的逃亡?隱藏在羅布泊中的離奇秘密

      史之銘
      2026-02-10 15:35:39
      媽媽嫁給爸爸的理由有多簡單粗暴?網友:我爹圖我姥爺是縣委書記

      媽媽嫁給爸爸的理由有多簡單粗暴?網友:我爹圖我姥爺是縣委書記

      帶你感受人間冷暖
      2026-02-11 12:27:35
      當第一次帶對象回山里老家時!我要笑死在評論區

      當第一次帶對象回山里老家時!我要笑死在評論區

      另子維愛讀史
      2026-02-13 19:35:51
      震撼!國家投超3000億建新藏鐵路,1980公里每公里造價近2億

      震撼!國家投超3000億建新藏鐵路,1980公里每公里造價近2億

      有書
      2026-02-12 21:00:08
      Coco直播自曝經濟不好,謝賢沒給她2000萬分手費,遺憾沒能結婚

      Coco直播自曝經濟不好,謝賢沒給她2000萬分手費,遺憾沒能結婚

      離離言幾許
      2026-02-11 12:44:06
      驚喜連連!18歲全紅嬋強勢歸隊,4大好消息藏不住了

      驚喜連連!18歲全紅嬋強勢歸隊,4大好消息藏不住了

      卿子書
      2026-02-12 08:15:51
      《生命樹》大結局:邵云飛被逼跳樓,馮克清入獄,孟耀輝中槍身亡

      《生命樹》大結局:邵云飛被逼跳樓,馮克清入獄,孟耀輝中槍身亡

      小娛樂悠悠
      2026-02-13 13:22:35
      男子辭北京公務員,照顧非親非故老太太9年,網友:報恩還是犯傻

      男子辭北京公務員,照顧非親非故老太太9年,網友:報恩還是犯傻

      一絲不茍的法律人
      2026-02-13 13:29:56
      印度2nm成功流片!

      印度2nm成功流片!

      中國半導體論壇
      2026-02-11 22:26:02
      2026-02-13 22:23:00
      AI進化論花生 incentive-icons
      AI進化論花生
      AI博主,AppStore付費榜第一的小貓補光燈app開發者
      140文章數 61關注度
      往期回顧 全部

      科技要聞

      獨家探訪蔡磊:答不完的卷子 死磕最后一程

      頭條要聞

      浙江"一人公司"興起 前大廠程序員靠AI直接月入200萬

      頭條要聞

      浙江"一人公司"興起 前大廠程序員靠AI直接月入200萬

      體育要聞

      這張照片背后,是米蘭冬奧最催淚的故事

      娛樂要聞

      大衣哥女兒風光出嫁,農村婚禮超樸素

      財經要聞

      華萊士母公司退市 瘋狂擴張下的食安隱憂

      汽車要聞

      探秘比亞迪巴西工廠 居然是這個畫風!

      態度原創

      房產
      家居
      教育
      游戲
      公開課

      房產要聞

      三亞新機場,又傳出新消息!

      家居要聞

      中古雅韻 樂韻伴日常

      教育要聞

      希望這位寶媽想明白后,可以再回來找我!

      LCK第一階段:世界冠軍亦有差距,DK五局擊敗DRX,許秀笑了

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版