網易首頁 > 網易號 > 正文申請入駐

DeepSeek再次放大招，用MHC改變技術規則

2026-01-02 14:08:25　來源: 何毅商業財經

北京舉報

分享至

過去半年以來，大家都在等DeepSeek再次放大招，但是似乎并沒有讓人特別驚艷的進展，再次橫空出世。

等2026年的新年剛翻頁，DeepSeek 并沒有像外界期待的那樣發布新模型、刷榜單、秀參數，而是做了一件更加踢館炸街的大事，在 arXiv上發表了一篇最重磅的論文。

這一點非常關鍵。因為arXiv 從來就不是給市場看的地方，它是全球科研共同體默認的“原始技術水源”。

能選擇在這里發聲，說明這一次DeepSeek 想討論的，不是大模型的應用效果了，而是以前的規則本身，能不能繼續成立，還能不能繼續創新的問題。

論文的名字叫《mHC：引入流形約束的超連接結構》。如果你只是停留在標題層面，大概率會覺得這又是一篇典型的模型結構改進論文，專業、抽象。而且離現實很遠。

但如果你順著論文真正想解決的問題往下拆，你會發現，這一次DeepSeek 實際上是在正面回答一個，過去兩年幾乎所有大模型公司都在刻意回避的問題：

大模型，還能不能繼續穩定地變大？

注意，這里不是“還能不能繼續變強”，而是“還能不能穩定”的變大的問題。這是兩個完全不同的命題。

過去十年，整個深度學習體系有一個幾乎沒人再質疑的默認前提：只要模型足夠深、足夠寬，只要算力和數據能跟上，訓練的效果就一定能出來。參數規模，等于能力上限。這個邏輯，支撐了從ResNet 到 Transformer，再到今天所有大模型的擴張路徑。

但這個邏輯并不是天然成立的，它背后依賴的，其實是一項極其關鍵、卻早已被視為“空氣”的基礎設施——殘差連接。

如果沒有殘差連接，今天你看到的所有GPT、Claude、Gemini、LLaMA，根本不可能存在。

關于殘差連接，我們得把這個來龍去脈和底層邏輯說清楚。

在殘差連接出現之前，神經網絡一旦加深之后，訓練就會迅速失控。不是算力不夠，而是梯度在層層傳遞中不斷衰減、扭曲，信息根本傳不到該去的地方。這一點工程上表現得非常直觀：loss 不收斂、效果倒退、調參調到崩潰。

參差連接的偉大之處，在于它做了一件極其簡單、卻極其反直覺的事：
它不要求每一層都必須“學到東西”，而是允許它什么都不學。

輸出不再是f(x），而是x + f(x）。
那條“+ x”，就是一條信息的保命通道。

只要這條通道在，哪怕這一層的參數全錯，信息至少還能原樣往下走。也正是因為這一點，網絡才第一次具備了“無限加深”的工程可能性。

換句話來說，殘差連接的作用，不是為了提高上限，而是為了防止系統出現崩潰。

但是，問題也恰恰出在這里。

殘差連接就像一條單向的高速公路。當模型規模越來越大、任務越來越復雜，人們開始逐漸意識到：這種單一、線性的殘差信息通道，雖然穩，但可能已經不夠用了。

現實世界的信息處理，從來不是一條直線。復雜認知一定是多層信息、多路徑并行、交叉作用的結果。而傳統殘差連接，本質上是一條極其干凈、極其保守的高速路，它可以保證不出事故，但是同時也限制了交通運行的復雜度。

這正是Hyper-Connections（HC）出現的背景。

HC 的出發點，是非常清晰：既然信息不該只在相鄰層之間流動，那為什么不讓多層之間直接建立連接？讓不同深度的特征充分混合，理論上模型的表達能力會大幅提升。

從研究的動機上看，這條路設是完全正確的選擇。從實驗的直覺上看，它也確實有效。但HC 真正的問題，不在于“連得多”，而在于它動了殘差連接的底座。

為了實現多層混合，HC 把原本的恒等映射 x → x，變成了 x → W·x。也就是說。那條原本不參與學習、不容易出錯的信息高速路，被強行加上了一個可學習的變換矩陣。

聽起來只是多了一步線性映射，但是這一步，在工程層面，帶來的變化是巨大的。

因為一旦W 學錯了，那么信息就不再是“至少能通過”，而是必然會被扭曲。原來殘差連接提供的是“兜底信息機制”，現在這個兜底的機制被拆掉了。

于是你會看到一個非常典型的現象：HC 在小模型、小規模實驗中表現十分亮眼；但是模型一放大、層數一加深，訓練立刻開始變得不穩定了。算力越多、參數越大，問題反而暴露得越快。

這其實暴露了一個更深層的問題：大模型表達能力的提升，正在侵蝕系統原有的穩定性。

于是，這一次，針對這個問題，DeepSeek 做了一件非常值得玩味，也非常“硬核”的事。

它沒有否定HC，也沒有退回傳統殘差連接的安全區，而是直接選擇了一個從數學層面重新立規矩的路徑。它這次給出的答案，核心思路只有一句話：HC，你可以連得更加復雜，但你不能破壞信息守恒。

于是，DeepSeek 的mHC 出現了。

DeepSeek 把殘差路徑中的映射矩陣，強行約束到了一個特定的數學空間里——Birkhoff 多面體。這個空間里所有矩陣，都滿足一個極其重要的性質：它們是雙隨機矩陣。

雙隨機矩陣如果不用數學語言解釋，這到底意味著什么？意味著信息不會被放大，也不會被壓縮，只會在不同通道之間重新分配。意味著信息的“總量”，是被鎖死了。

實現這一步的工程意義，可以說非常直接而重大，因為無論你怎么設計復雜的信息連接，殘差信息都不會被破壞；也就意味著無論模型變得多大，梯度都不會因為殘差路徑而失控。

所以，mHC 的本質，不是讓模型變得更“聰明”，而是讓模型在復雜化之后，系統依然可控。

具體的實驗結果，也非常耐人尋味：模型規模越大，mHC 相對于傳統 HC 的優勢越明顯。那么不得不承認，這是一個極其關鍵的信號，因為它說明，mHC的解決方案，這不是一個小技巧，而是一種隨規模放大的結構優勢。

到這里，如果我們只站在技術視角來理解的話，這已經是一篇很扎實的論文了。但如果我們再次切換到資本市場的視角，你會發現，這件事的意義要大得多。

過去兩年，大模型競爭在資本層面的邏輯其實非常單一：誰能拿到更多錢，誰能買到更多卡，誰就有更大的勝率。

這是一種極端依賴資本投入的競爭模式，它的隱含前提是：算力投入的邊際效率始終成立。只要你愿意燒錢，就一定能換來能力。

而mHC 這類工作的真正沖擊在于：它開始動搖這個前提。因為訓練不穩定，本身就是最大的隱性成本。一次失敗的大規模訓練，消耗的不只是算力，還有時間、團隊節奏、資本耐心，以及市場的窗口期。

大模型具備更穩定的結構，到底意味著什么？意味著花同樣的錢，可以換來的是更確定的結果；意味著擴張不是資本的博弈，而是工程化的決策和手段；意味著大模型的規模優勢，開始從資源壟斷，算力優勢，轉向“結構設計”能力了。

這種情況會直接改變三件事。第一，算力的絕對優勢，會被結構效率部分對沖。第二，工程能力，會重新成為大模型公司的核心壁壘。第三，大模型競爭的重心，會從“誰更有錢有卡”，慢慢轉向“誰更不容易崩”。

從這個角度看，DeepSeek 這篇論文，真正的價值不在于 mHC 本身，而在于它所代表的技術方向選擇。

它沒有在參數規模上，去硬剛美國，也沒有在應用層面追熱點，而是提前一步，把注意力放在了一個更長期，也更底層的問題上：當模型繼續變大的確定性開始下降，新的系統的確定性，到底從哪里來？

DeepSeek借助mHC，給出的答案，是結構的約束，是工程的理性，是在復雜系統里主動引入“安全邊界”。

這件事，對DeepSeek 自身的戰略價值也非常清晰。更穩定的訓練意味著更低的邊際成本、更高的成功率、更強的開源社區吸引力。同時也意味著在下一輪模型繼續放大之前，DeepSeek已經提前卡住了一塊關鍵的技術高地。

更重要的是，它釋放了一個非常明確的信號：中國的AI 團隊，已經開始在“規則層”參與博弈了。

不是繼續跟隨，不是看淡優化，而是嘗試定義，嘗試改變規則，改變底層邏輯。

所以，如果你把這篇論文放回資本市場的語境里，它討論的從來不只是殘差連接，而是一個更宏觀的問題：當大模型的擴張不再只是算力問題，誰有能力讓系統在更大規模下依然不崩？這才是下一階段真正決定產業格局和技術能力的核心變量。

新的一年剛剛開始，DeepSeek 又一次選擇了不走尋常路。而真正值得關注的，也從來不是這一篇論文本身，而是它背后所指向的那條創新路線。

如果說過去的競爭，是“誰能把模型做得更大”，那接下來的競爭，很可能會變成一句話：今后誰能把模型，安全地做大。目前來看，能夠很快掌握這一必殺秘訣的，就是DeepSeek團隊了，就是中國的AI工程師了。

因此mHC的提出，其實釋放了一個很清晰的信號：中國的AI研發團隊，再次跑到了世界前列，因為他們已經開始在“基礎架構層”開始做原創了。

所以，在新的一年剛剛開始之際，DeepSeek 又來踢館，又來炸街了，是不是很快，又會掀起全球的DeepSeek時刻了？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

清華聯手千問重塑歸一化范式，讓 Transformer 回歸「深度」學習

機器之心Pro 2026-02-10 18:50:12
0 跟貼 0
Loop-ViT：AI學會「反復思考」，3.8M參數小模型追平人類平均水平

機器之心Pro 2026-02-12 19:22:16
0 跟貼 0

日本高官有意調查Seedance2.0

北京日報 2026-02-14 09:01:32
2427 跟貼 2427

AI也搞輿論戰？提交代碼被拒，發小作文控訴項目維護者

雷科技 2026-02-14 21:28:35
0 跟貼 0
萬億思考模型新速度！螞蟻開源Ring-2.5-1T

量子位 2026-02-14 11:16:17
0 跟貼 0

【數智周報】豆包大模型2.0發布；智譜GLM-5已深度適配華為昇騰等國產芯片；Anthropic宣布300億美元融資，估值達3800億美元；歐盟批準谷

鈦媒體APP 2026-02-14 15:46:07
2 跟貼 2

隱私已死，曝Meta眼鏡開發「人臉識別」功能，這回真成「臉書」了

雷科技 2026-02-14 22:48:12
0 跟貼 0
極佳視界斬獲全球第一后，GigaBrain-0.5M*再進化

機器之心Pro 2026-02-14 15:39:15
0 跟貼 0

獨家對話Remy創始人王正男：一個超過微信下載量的爆款應用是如何誕生的

虎嗅APP 2026-02-14 20:37:14
1 跟貼 1
Meta新專利允許AI接管逝者賬號，繼續在社交平臺“存活”

DeepTech深科技 2026-02-14 23:12:35
0 跟貼 0
DeepSeek更新后被吐槽變冷變傻？

每日經濟新聞 2026-02-13 00:42:18
1273 跟貼 1273
MiniMax發布M2.5模型：1美元運行1小時，價格僅為GPT-5的1/20，性能比肩Claude Opus

華爾街見聞官方 2026-02-13 10:14:27
36 跟貼 36
阿特金森升級登體系，騎士三戰換三種模式

籃視角 2026-02-13 21:50:55
12 跟貼 12
戰斗機躲避防空導彈，駕駛員操作技術太高超，一般人真做不到

宇宙搞笑生活 2026-02-12 15:45:04
2 跟貼 2
字節跳動Seed發布NL2Repo-Bench倉庫級長程代碼生成基準

機器之心Pro 2026-02-13 10:19:29
0 跟貼 0
為什么朱雨玲不能參加三大賽？這源自兩條規則，看完瞬間明白了！

榻榻米搞笑 2026-02-11 09:19:46
1 跟貼 1
汽車廠：DeepSeek已成牛夫人，千問和豆包才是小甜甜

燃擎頻道 2026-02-14 18:43:10
0 跟貼 0
狐訊 | 迪士尼控訴字節跳動；DeepSeek 回復變冷漠

科技狐 2026-02-14 22:43:17
0 跟貼 0
視覺模型既懂語義，又能還原細節，南洋理工&商湯提出棱鏡假說

機器之心Pro 2026-01-13 18:26:48
0 跟貼 0
求助信號寫到這個部位也是沒誰了

涼心愛追劇 2026-02-14 18:59:00
0 跟貼 0
不是德國人的技術先進，而是德國的工具實在太先進了！

平方秒和立方噸 2026-02-14 05:54:41
0 跟貼 0
中國無人機作戰體系！一起來聽聽！

大春不一樣 2026-02-14 04:56:38
0 跟貼 0
俄軍指揮體系崩了？烏軍稱霸紅軍城，多戰線推進超2023巔峰

易欣看大世界 2026-02-14 06:16:25
116 跟貼 116
手機信號增強！

喬喬的怪知識 2026-02-12 13:21:09
0 跟貼 0
就愛看大張偉說段子，全程無邏輯吐槽，閻鶴祥笑到起不來身

琴音似君語 2026-02-14 08:19:45
1 跟貼 1
庫爾斯克大反攻！烏軍精準打擊俄軍指揮體系遭團滅

易欣看大世界 2026-02-13 01:56:18
14 跟貼 14
三個動作手機立馬有信號是什么原理？

深林的動物圈 2026-02-13 17:21:32
1 跟貼 1
新春走基層｜40米高空，零下15℃ 他們在“極限工位”上堅守

新華社 2026-02-14 20:07:58
0 跟貼 0
旗袍根本不影響她發揮，這跳繩技術牛，最后那收神一笑絕了！

海星旅行 2026-02-11 09:52:12
0 跟貼 0
全家都覺得賺了！21歲的孫子寒假“打工”照顧97歲的奶奶 5元1小時 1天封頂50元

閃電新聞 2026-02-14 10:50:57
729 跟貼 729
梅西是歷史第一，還是體系極致天才？

大漢體育解說 2026-02-13 00:30:11
32 跟貼 32
三百年幾何猜想被推翻，數學家首次發現「穿不過去」的多面體

機器之心Pro 2025-10-27 18:02:35
10 跟貼 10
自帶體系的男人！哈登到騎士他成最大贏家，連3場20+瘋狂吃餅

籃球過人技巧 2026-02-13 20:48:07
1 跟貼 1
最新報告曝美國只剩7個緊密盟友

財聯社 2026-02-14 15:59:47
826 跟貼 826
讓樊振東回來他就必須回來？這是什么邏輯和道理？聽聽大哥怎么說

庫拉萌多 2026-02-13 06:06:51
0 跟貼 0
李佳琦跟79元眉筆和解，但花西子們快被擠下桌了

地理三體說 2026-02-14 23:38:48
0 跟貼 0
揭秘F-35戰斗機：隱身技術與空中優勢如何重塑現代戰爭格局

全球見聞筆記 2026-02-13 08:49:27
1 跟貼 1
王鶴棣染一頭紅發亮相NBA名人賽，多次沖擊籃下得手，全場9投5中，得到10分4籃板

揚子晚報 2026-02-14 10:54:25
357 跟貼 357
世界壺聯回應作弊事件：違規但結果無法更改，罵人隊員被口頭警告

全景體育V 2026-02-14 21:35:20
1 跟貼 1
維爾茨在利物浦建立新體系，薩拉赫也要給他傳球

米奇兔 2026-02-12 15:50:40
4 跟貼 4

何毅商業財經

分享商業知識，共享財經信息

520文章數 926關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

親子

游戲

家居

房產

軍事航空

手機 / 數碼

房產 / 家居

DeepSeek再次放大招，用MHC改變技術規則

字節跳動官宣豆包大模型今日進入2.0階段

福州街頭發現一流浪老人身份成謎 程序員精準破解方言

福州街頭發現一流浪老人身份成謎 程序員精準破解方言

最戲劇性的花滑男單，冠軍為什么是他？

春晚第五次聯排路透 明星積極飯撒互動

誰在掌控你的胃？起底百億"飄香劑"江湖

星光730新春促銷開啟 80天銷量破2.6萬臺

態度原創

與其昧著良心，這糖不吃也罷！

《零 ~紅蝶~ REMAKE》試玩報告：和無名野鬼大戰二十回合"/> 主站 商城 論壇 自運營 登錄 注冊 《零 ~紅蝶~ REMAKE》試玩報告：和無...

中古雅韻 樂韻伴日常

三亞新機場，又傳出新消息！

釣魚島、黃巖島、仁愛礁已充滿中國年味

福州街頭發現一流浪老人身份成謎程序員精準破解方言

福州街頭發現一流浪老人身份成謎程序員精準破解方言

春晚第五次聯排路透明星積極飯撒互動

《零 ~紅蝶~ REMAKE》試玩報告：和無名野鬼大戰二十回合"/> 主站商城論壇自運營登錄注冊《零 ~紅蝶~ REMAKE》試玩報告：和無...

中古雅韻樂韻伴日常