<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<cite id="oscqb"><track id="oscqb"></track></cite>

^{<blockquote id="oscqb"></blockquote>}

<s id="oscqb"></s>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

【梁文鋒署名】DeepSeek新論文：所有人都覺得沒必要改的東西，他們改了

2026-01-01 18:17:24　來源: AI進化論花生

北京舉報

0

分享至

2025年的最后一天，DeepSeek又發論文了。

過去一年，很多人都在問同一個問題：DeepSeek為什么能用更少的錢，做出更強的模型？

答案當然不止一個。但這篇論文透露了其中一個思路：去優化那些所有人都覺得"已經是最優解"的東西。

這次他們動的是殘差連接——一個深度學習領域用了十年、幾乎沒人質疑過的基礎設計。

論文名字有點硬核：mHC（Manifold-Constrained Hyper-Connections），翻譯過來就是"流形約束的超連接"。但核心思想其實不復雜，今天試著用人話講清楚。

先說背景：殘差連接統治了深度學習十年

經常訓練大模型的朋友，一定聽過"殘差連接"（Residual Connection）這個詞。

2015年，何愷明團隊提出ResNet，核心創新就是這個殘差連接。簡單說就是：每一層的輸出 = 這一層學到的東西 + 上一層的輸入。

用公式表示：

x_{l+1} = x_l + F(x_l)

這個設計看起來簡單，但解決了一個大問題：網絡太深就訓不動。

為什么？因為梯度消失。信號在幾十上百層網絡里傳遞，越傳越弱，最后弱到模型根本學不到東西。

殘差連接的妙處在于：它給信號開了一條"快車道"。不管中間那些層學到了什么，原始信號都能直接傳到后面。這就是所謂的恒等映射（Identity Mapping）——淺層的信息可以原封不動地傳到深層。

從2015年到現在，不管是GPT、LLaMA還是Gemini，幾乎所有大模型都在用這個設計。十年了，沒人動過它。

DeepSeek的第一次嘗試：Hyper-Connections

2024年9月，DeepSeek發了一篇論文，提出了Hyper-Connections（HC），第一次對殘差連接動刀。

核心思想是：既然殘差連接的權重是固定的（1:1），為什么不讓模型自己學習最優的連接方式？

HC做了兩件事：

把殘差流從1條擴展到n條（通常n=4）
引入可學習的連接矩陣，讓模型自己決定怎么混合這些信號

效果確實好。論文數據顯示：

訓練收斂速度提升1.8倍
ARC-Challenge任務提升6個百分點

這個提升挺猛的。但HC有一個致命缺陷——訓練不穩定。

HC的問題：信號放大了3000倍

這是論文里最直觀的一張圖。

看左邊那條藍線（HC），在第12000步左右，損失突然飆升。這對大規模訓練來說是致命的——你可能已經燒了幾百萬的算力，結果模型突然崩了。

為什么會這樣？

論文里有詳細分析。核心原因是：HC破壞了恒等映射的特性。

還記得殘差連接的公式嗎？x_{l+1} = x_l + F(x_l)。這里的x_l是"1倍"傳遞到下一層的。但HC引入了可學習的權重矩陣H，信號傳遞變成了：

x_{l+1} = H * x_l + ...

問題來了：H是可學習的，沒有任何約束。

當網絡有60層時，信號要經過60個H矩陣的連乘。如果每個H的"放大倍數"稍微大于1，連乘60次會發生什么？

指數爆炸。

論文測量了這個"放大倍數"（Amax Gain Magnitude）。理想情況下應該是1（信號不放大也不縮小）。但HC在27B模型上的實測結果是——

峰值達到3000。

信號被放大了3000倍，梯度也被放大了3000倍。難怪訓練會崩。

mHC的解法：雙隨機矩陣

現在問題清楚了：H矩陣太"自由"了，沒有約束，所以會亂來。

那怎么約束它？

最簡單的方法是讓H = I（單位矩陣），這樣就退化回原始的殘差連接了。但這樣就失去了HC的性能優勢。

DeepSeek的解法很優雅：把H約束在"雙隨機矩陣"上。

什么是雙隨機矩陣？簡單說就是滿足兩個條件的矩陣：

所有元素都 ≥ 0
每行之和 = 1，每列之和 = 1

舉個例子，這是一個2×2的雙隨機矩陣：

[0.3, 0.7]
[0.7, 0.3]

每行加起來是1，每列加起來也是1。

為什么這個約束有效？

因為雙隨機矩陣做的事情本質上是"加權平均"。

當你用雙隨機矩陣乘以一個向量時，結果向量的每個元素都是輸入向量的凸組合（加權平均）。加權平均有一個天然的性質：結果不會超出輸入的范圍。

這就從數學上保證了信號不會爆炸。

更妙的是，雙隨機矩陣還有一個"封閉性"：兩個雙隨機矩陣相乘，結果還是雙隨機矩陣。

這意味著不管網絡有多深，60層、100層、1000層，信號經過多少個H矩陣的連乘，結果仍然是一個雙隨機矩陣，仍然滿足"不會爆炸"的性質。

論文用了一個算法叫Sinkhorn-Knopp來做這個投影。具體細節不展開了，核心就是迭代地調整矩陣的行和列，讓它們都歸一化到和為1。

效果：穩定性提升三個數量級

mHC的效果怎么樣？

先看穩定性。同樣是27B模型，同樣的訓練配置：

指標

HC

mHC

Amax Gain峰值

3000

1.6

從3000降到1.6，降低了三個數量級。說實話，看到這個數字的時候我愣了一下——這個改進幅度有點離譜。

訓練曲線也變得平滑了，再也沒有那個可怕的"損失飆升"。

再看性能。mHC不僅比原始的殘差連接強，甚至比不穩定的HC還要強：

Benchmark

Baseline

HC

mHC

BBH

43.8

48.9

51.0

DROP

47.0

51.6

53.9

GSM8K

46.7

53.2

53.8

MMLU

59.0

63.0

63.4

mHC在大多數任務上都比HC更好，特別是推理任務（BBH +2.1%，DROP +2.3%）。

穩定性提升了，性能也提升了。那代價呢？

只增加了6.7%的訓練時間。

這個數字挺關鍵的。HC雖然不增加FLOPs（浮點運算量），但因為擴展了殘差流寬度，內存訪問成本大幅增加。DeepSeek在論文里花了大量篇幅講基礎設施優化——內核融合、選擇性重計算、通信重疊——才把開銷控制在這個水平。

為什么這個方法優雅？

讀完這篇論文，我覺得mHC的設計挺漂亮的，主要體現在三個地方：

1. 問題定義精準

很多研究會籠統地說"訓練不穩定"，但DeepSeek精確地定位到了問題根源：恒等映射特性的喪失導致信號在多層傳播時爆炸。有了這個精準定義，解決方案才能有的放矢。

2. 解決方案有數學保證

雙隨機矩陣不是拍腦袋想出來的，而是有嚴格的數學性質支撐：

譜范數 ≤ 1（不會放大信號）
組合封閉性（多層仍然穩定）
Birkhoff多面體的幾何解釋（是所有置換矩陣的凸組合）

這種有數學保證的方法，比"試了一百種trick發現這個work"要可靠得多。

3. 工程和理論并重

很多論文只講理論創新，對工程實現一筆帶過。但DeepSeek的論文花了相當篇幅講基礎設施優化：怎么融合內核、怎么減少內存占用、怎么和DualPipe調度配合。這才是能真正落地的研究。

往大了說：DeepSeek在找什么？

回到開頭的問題：DeepSeek為什么能用更少的錢做出更強的模型？

這篇論文給出了一個側面的答案：他們在找那些"所有人都覺得已經是最優解"的東西，然后證明它不是。

過去十年，大模型的架構創新主要集中在"微觀設計"——Attention怎么改、FFN怎么改、位置編碼怎么改。但殘差連接？從2015年到現在，幾乎原封不動。大家默認它沒什么可優化的了。

mHC證明了這個假設是錯的。

更重要的是，這種優化的特點是：不增加計算量，只改變信息流動的方式。同樣的FLOPs，更好的效果。

這可能就是DeepSeek的技術哲學之一：不是比誰燒的錢多，而是比誰能在同樣的資源下榨取更多性能。

當然，mHC還解決了一個實際問題：讓HC能穩定訓練。HC本身是個好方法，但因為不穩定沒法用。mHC修復了這個缺陷，讓這條架構創新的路能走下去。

論文最后一句話說得挺直接的：

"我們希望mHC能重新激發社區對宏觀架構設計的興趣。"

翻譯一下：過去大家都在卷Attention、卷FFN、卷MoE。現在DeepSeek說，層與層之間怎么連接，這塊也有金礦。

最后

這篇論文給我最大的啟發是：當你發現一個方法有效但不穩定時，不要放棄，而是去找約束條件。

雙隨機矩陣就是這樣一個約束——它保留了HC的表達能力（可學習的連接權重），同時通過數學性質保證了穩定性（加權平均不會爆炸）。在自由和約束之間找平衡，這個思路可能在很多領域都適用。

回到開頭的問題：DeepSeek為什么能做到別人做不到的事？

這篇論文給出的答案是：去質疑那些"所有人都覺得沒必要改"的東西。殘差連接用了十年，不代表它是最優解。

2025年最后一天發這篇論文，DeepSeek給2026年開了個好頭。

參考資料：

mHC論文：https://arxiv.org/abs/2512.24880
Hyper-Connections論文：https://arxiv.org/abs/2409.19606
DeepSeek-V3技術報告：https://arxiv.org/abs/2412.19437

@Deepseek 用我奶奶也能懂的方式，用100字解釋下這篇論文。

奶奶，你想啊，AI訓練就像帶熊孩子。以前的規矩是：拉著手走，一步都不許亂動。安全，但孩子啥也學不會。后來有人說：放開讓他跑吧。結果跑著跑著就跑丟了。 DeepSeek的辦法：讓孩子自己跑，但只能在圍欄里跑。怎么跑都行，反正跑不出去。給自由畫個圈，這就是mHC。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

這個春節，三亞徹底火了！游客8499元訂的民宿被臨時毀約，附近民宿漲到三四萬，機票價同比翻倍！95后、00后也多起來了

每日經濟新聞 2026-02-12 22:13:04
6923 跟貼 6923
老牌軍事網文平臺鐵血讀書宣布關停

大風新聞 2026-02-12 20:17:04
7036 跟貼 7036

中央批準，蔚盛斌跨省履新

長安街知事 2026-02-13 18:20:43
4 跟貼 4

中方罕見評價日本選舉發出“極其嚴厲的預警”

環球網 2026-02-13 14:17:34
83 跟貼 83
孫龍奪得短道速滑男子1000米亞軍

人民網-人民日報 2026-02-13 05:27:54
3846 跟貼 3846

5個月用AI做了120多個App，職高畢業的小伙在杭州上城開“一人公司” 火到了海外

都市快報橙柿互動 2026-02-13 12:48:31
1399 跟貼 1399

于東來深夜發文：胖東來永不上市最高管理層60歲前必須退出權力崗位

閃電新聞 2026-02-13 11:50:20
138 跟貼 138
DeepSeek更新后被吐槽變冷變傻？

每日經濟新聞 2026-02-13 00:42:18
794 跟貼 794

美國要搞“北約3.0”

新華社 2026-02-12 18:57:03
775 跟貼 775
視頻丨多次成功應對外艦、外機挑釁！太原艦展示052D硬核實力

海外網 2026-02-13 07:35:14
1243 跟貼 1243
女子吃烤全羊尾部發現大量便便

觀威海 2026-02-13 09:58:03
181 跟貼 181
王鑫被查，曾出演《風箏》《大江大河》《生萬物》等經典影視劇

中國網 2026-02-13 11:39:54
0 跟貼 0
胖東來下架智利車厘子，工作人員：壞果太多、品質達不到要求，新上架了190元每斤的澳洲車厘子

觀威海 2026-02-13 09:34:10
1 跟貼 1
需求暴漲！有人短短兩周收入9000元！不少店家：滿額，停止接單

環球網資訊 2026-02-13 07:46:14
190 跟貼 190
美媒說美方第二艘航空母艦被派往中東

新華社 2026-02-13 12:54:04
2238 跟貼 2238
央行：1月份人民幣存款增加8.09萬億元

財聯社 2026-02-13 17:08:04
108 跟貼 108
攜程旅行等六家出行平臺企業被約談

央視新聞客戶端 2026-02-13 19:01:15
144 跟貼 144
網信辦清理男女對立，項立剛連批胡錫進羅永浩

丁辰靈 2026-02-13 21:44:11
0 跟貼 0
男子賣前任銀鐲剪出30克金崩潰：不識貨的人，活該把寶貝當廢鐵

教育人看世界 2026-02-13 21:56:47
0 跟貼 0
東觀軍情｜日本最新反艦導彈“玩雜耍 ”實戰效果有限

國際在線 2026-02-13 21:27:03
0 跟貼 0
廣東餐廳老板：點外賣2000多次的顧客，已“報平安”

930老友記 2026-02-13 21:55:08
0 跟貼 0
應急管理部：加強煙花爆竹非法制售、儲存的排查打擊

環球網資訊 2026-02-13 14:16:06
0 跟貼 0
7.6元網購2500克土豆，男子食用后連續兩年飽受折磨！醫生提醒

新民晚報 2026-02-13 15:07:33
0 跟貼 0
道里菜市場門口上演浪漫“大屏求婚”：“等了四年，在咱倆初識的地方，我補你個求婚”

視聽河南 2026-02-13 21:55:59
0 跟貼 0

高鐵時代，綠皮車卻火了，大巴車都要起死回生了

高鐵時代，綠皮車卻火了，大巴車都要起死回生了

歷史總在押韻

2026-02-12 23:53:10

李亞鵬突然提到十年前最難時給黃曉明發短信，不到一分鐘收到回復

李亞鵬突然提到十年前最難時給黃曉明發短信，不到一分鐘收到回復

百態人間

2026-02-10 15:25:10

浙江省稅務局黨委書記、局長孟軍：堅定扛起經濟大省挑大梁的稅務擔當

浙江省稅務局黨委書記、局長孟軍：堅定扛起經濟大省挑大梁的稅務擔當

新浪財經

2026-02-13 11:11:38

不能錯過！2月13日晚19:00比賽！中央5套CCTV5、CCTV5+直播節目表

不能錯過！2月13日晚19:00比賽！中央5套CCTV5、CCTV5+直播節目表

林子說事

2026-02-13 14:54:46

中央軍委全力反腐敗，說明中國人民解放軍將要擔大任，干大事！

中央軍委全力反腐敗，說明中國人民解放軍將要擔大任，干大事！

安安說

2026-01-29 09:33:17

大年三十除夕必吃的3道菜，好吃吉利，吃完馬年旺，快收藏起來！

大年三十除夕必吃的3道菜，好吃吉利，吃完馬年旺，快收藏起來！

江江食研社

2026-02-12 18:30:07

恒基太子爺李家誠入稟高等法院，控告藝人周秀娜誹謗及騷擾

恒基太子爺李家誠入稟高等法院，控告藝人周秀娜誹謗及騷擾

TVB劇評社

2026-02-13 16:22:16

金融戰已經打響

白淺娛樂聊

2026-02-12 19:39:55

退休14年被查！中國人壽原總裁楊超案：投資領域腐敗典型，退休非安全港

退休14年被查！中國人壽原總裁楊超案：投資領域腐敗典型，退休非安全港

聽楓觀瀾

2025-12-28 23:13:23

霍勒迪31分9板7助開拓者戰勝爵士，克林根23分18板楊瀚森2分

霍勒迪31分9板7助開拓者戰勝爵士，克林根23分18板楊瀚森2分

湖人崛起

2026-02-13 12:33:42

慘敗仍有收獲！U18國青2將被張博源主帥看中除張懿趙杰還有1人

慘敗仍有收獲！U18國青2將被張博源主帥看中除張懿趙杰還有1人

大嘴爵爺侃球

2026-02-13 18:21:14

消失的彭加木：一場精心計劃的逃亡？隱藏在羅布泊中的離奇秘密

消失的彭加木：一場精心計劃的逃亡？隱藏在羅布泊中的離奇秘密

史之銘

2026-02-10 15:35:39

媽媽嫁給爸爸的理由有多簡單粗暴？網友：我爹圖我姥爺是縣委書記

媽媽嫁給爸爸的理由有多簡單粗暴？網友：我爹圖我姥爺是縣委書記

帶你感受人間冷暖

2026-02-11 12:27:35

當第一次帶對象回山里老家時！我要笑死在評論區

當第一次帶對象回山里老家時！我要笑死在評論區

另子維愛讀史

2026-02-13 19:35:51

震撼！國家投超3000億建新藏鐵路，1980公里每公里造價近2億

震撼！國家投超3000億建新藏鐵路，1980公里每公里造價近2億

有書

2026-02-12 21:00:08

Coco直播自曝經濟不好，謝賢沒給她2000萬分手費，遺憾沒能結婚

Coco直播自曝經濟不好，謝賢沒給她2000萬分手費，遺憾沒能結婚

離離言幾許

2026-02-11 12:44:06

驚喜連連！18歲全紅嬋強勢歸隊，4大好消息藏不住了

驚喜連連！18歲全紅嬋強勢歸隊，4大好消息藏不住了

卿子書

2026-02-12 08:15:51

《生命樹》大結局：邵云飛被逼跳樓，馮克清入獄，孟耀輝中槍身亡

《生命樹》大結局：邵云飛被逼跳樓，馮克清入獄，孟耀輝中槍身亡

小娛樂悠悠

2026-02-13 13:22:35

男子辭北京公務員，照顧非親非故老太太9年，網友：報恩還是犯傻

男子辭北京公務員，照顧非親非故老太太9年，網友：報恩還是犯傻

一絲不茍的法律人

2026-02-13 13:29:56

印度2nm成功流片！

中國半導體論壇

2026-02-11 22:26:02

AI進化論花生

AI博主，AppStore付費榜第一的小貓補光燈app開發者

140文章數 61關注度

往期回顧全部

科技要聞

獨家探訪蔡磊：答不完的卷子死磕最后一程

頭條要聞

浙江"一人公司"興起前大廠程序員靠AI直接月入200萬

頭條要聞

浙江"一人公司"興起前大廠程序員靠AI直接月入200萬

體育要聞

這張照片背后，是米蘭冬奧最催淚的故事

娛樂要聞

大衣哥女兒風光出嫁，農村婚禮超樸素

財經要聞

華萊士母公司退市瘋狂擴張下的食安隱憂

汽車要聞

探秘比亞迪巴西工廠居然是這個畫風！

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房產

家居

教育

游戲

公開課

房產要聞

三亞新機場，又傳出新消息！

家居要聞

中古雅韻樂韻伴日常

本真棲居愛暖伴流年
簡雅閑居靜享時光柔
寧靜港灣靈動與詩意

教育要聞

希望這位寶媽想明白后，可以再回來找我！

LCK第一階段：世界冠軍亦有差距，DK五局擊敗DRX，許秀笑了

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
古代的馬真能日行八百里嗎
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<style id="5komb"></style>