<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek再次放大招,用MHC改變技術規則

      0
      分享至

      過去半年以來,大家都在等DeepSeek再次放大招,但是似乎并沒有讓人特別驚艷的進展,再次橫空出世。

      等2026年的新年剛翻頁,DeepSeek 并沒有像外界期待的那樣發布新模型、刷榜單、秀參數,而是做了一件更加踢館炸街的大事,在 arXiv上發表了一篇最重磅的論文。


      這一點非常關鍵。因為arXiv 從來就不是給市場看的地方,它是全球科研共同體默認的“原始技術水源”。

      能選擇在這里發聲,說明這一次DeepSeek 想討論的,不是大模型的應用效果了,而是以前的規則本身,能不能繼續成立還能不能繼續創新的問題

      論文的名字叫《mHC:引入流形約束的超連接結構》。如果你只是停留在標題層面,大概率會覺得這又是一篇典型的模型結構改進論文,專業、抽象。而且離現實很遠。

      但如果你順著論文真正想解決的問題往下拆,你會發現,這一次DeepSeek 實際上是在正面回答一個,過去兩年幾乎所有大模型公司都在刻意回避的問題:

      大模型,還能不能繼續穩定地變大?

      注意,這里不是“還能不能繼續變強”,而是“還能不能穩定”的變大的問題。這是兩個完全不同的命題。

      過去十年,整個深度學習體系有一個幾乎沒人再質疑的默認前提:只要模型足夠深、足夠寬,只要算力和數據能跟上,訓練的效果就一定能出來。參數規模,等于能力上限。這個邏輯,支撐了從ResNet 到 Transformer,再到今天所有大模型的擴張路徑。

      但這個邏輯并不是天然成立的,它背后依賴的,其實是一項極其關鍵、卻早已被視為“空氣”的基礎設施——殘差連接

      如果沒有殘差連接,今天你看到的所有GPT、Claude、Gemini、LLaMA,根本不可能存在。

      關于殘差連接我們得把這個來龍去脈和底層邏輯說清楚。

      在殘差連接出現之前,神經網絡一旦加深之后,訓練就會迅速失控。不是算力不夠,而是梯度在層層傳遞中不斷衰減、扭曲,信息根本傳不到該去的地方。這一點工程上表現得非常直觀:loss 不收斂、效果倒退、調參調到崩潰。

      參差連接的偉大之處,在于它做了一件極其簡單、卻極其反直覺的事:
      它不要求每一層都必須“學到東西”,而是允許它什么都不學。

      輸出不再是f(x),而是x + f(x)。
      那條“+ x”,就是一條信息的保命通道。

      只要這條通道在,哪怕這一層的參數全錯,信息至少還能原樣往下走。也正是因為這一點,網絡才第一次具備了“無限加深”的工程可能性。

      換句話來說,殘差連接的作用,不是為了提高上限,而是為了防止系統出現崩潰


      但是,問題也恰恰出在這里。

      殘差連接就像一條單向的高速公路。當模型規模越來越大、任務越來越復雜,人們開始逐漸意識到:這種單一、線性的殘差信息通道,雖然穩,但可能已經不夠用了。

      現實世界的信息處理,從來不是一條直線。復雜認知一定是多層信息、多路徑并行、交叉作用的結果。而傳統殘差連接,本質上是一條極其干凈、極其保守的高速路,它可以保證不出事故,但是同時也限制了交通運行的復雜度。

      這正是Hyper-Connections(HC)出現的背景。

      HC 的出發點,是非常清晰:既然信息不該只在相鄰層之間流動,那為什么不讓多層之間直接建立連接?讓不同深度的特征充分混合,理論上模型的表達能力會大幅提升。

      從研究的動機上看,這條路設是完全正確的選擇。從實驗的直覺上看,它也確實有效。但HC 真正的問題,不在于“連得多”,而在于它動了殘差連接的底座

      為了實現多層混合,HC 把原本的恒等映射 x → x,變成了 x → W·x。也就是說。那條原本不參與學習、不容易出錯的信息高速路,被強行加上了一個可學習的變換矩陣。

      聽起來只是多了一步線性映射,但是這一步,在工程層面,帶來的變化是巨大的。

      因為一旦W 學錯了,那么信息就不再是“至少能通過”,而是必然被扭曲。原來殘差連接提供的是“兜底信息機制”,現在這個兜底的機制被拆掉了。

      于是你會看到一個非常典型的現象:HC 在小模型、小規模實驗中表現十分亮眼;但是模型一放大、層數一加深,訓練立刻開始變得不穩定了。算力越多、參數越大,問題反而暴露得越快。

      這其實暴露了一個更深層的問題:大模型表達能力的提升,正在侵蝕系統原有的穩定性。

      于是,這一次,針對這個問題,DeepSeek 做了一件非常值得玩味,也非常“硬核”的事。

      它沒有否定HC,也沒有退回傳統殘差連接的安全區,而是直接選擇了一個從數學層面重新立規矩的路徑。它這次給出的答案,核心思路只有一句話:HC,你可以連得更加復雜,但你不能破壞信息守恒。

      于是,DeepSeek 的mHC 出現了。

      DeepSeek 把殘差路徑中的映射矩陣,強行約束到了一個特定的數學空間里——Birkhoff 多面體。這個空間里所有矩陣,都滿足一個極其重要的性質:它們是雙隨機矩陣。

      雙隨機矩陣如果不用數學語言解釋,這到底意味著什么?意味著信息不會被放大,也不會被壓縮,只會在不同通道之間重新分配。意味著信息的“總量”,是被鎖死了。

      實現這一步的工程意義,可以說非常直接而重大,因為無論你怎么設計復雜的信息連接,殘差信息都不會被破壞;也就意味著無論模型變得多大,梯度都不會因為殘差路徑而失控。

      所以,mHC 的本質,不是讓模型變得更“聰明”,而是讓模型在復雜化之后,系統依然可控

      具體的實驗結果,也非常耐人尋味:模型規模越大,mHC 相對于傳統 HC 的優勢越明顯。那么不得不承認,這是一個極其關鍵的信號,因為它說明,mHC的解決方案,這不是一個小技巧,而是一種隨規模放大的結構優勢。

      到這里,如果我們只站在技術視角來理解的話,這已經是一篇很扎實的論文了。但如果我們再次切換到資本市場的視角,你會發現,這件事的意義要大得多。

      過去兩年,大模型競爭在資本層面的邏輯其實非常單一:誰能拿到更多錢,誰能買到更多卡,誰就有更大的勝率。

      這是一種極端依賴資本投入的競爭模式,它的隱含前提是:算力投入的邊際效率始終成立。只要你愿意燒錢,就一定能換來能力。

      而mHC 這類工作的真正沖擊在于:它開始動搖這個前提。因為訓練不穩定,本身就是最大的隱性成本。一次失敗的大規模訓練,消耗的不只是算力,還有時間、團隊節奏、資本耐心,以及市場的窗口期。

      大模型具備更穩定的結構,到底意味著什么?意味著花同樣的錢,可以換來的是更確定的結果;意味著擴張不是資本的博弈,而是工程化的決策和手段;意味著大模型的規模優勢,開始從資源壟斷,算力優勢,轉向“結構設計”能力了。

      這種情況會直接改變三件事。第一,算力的絕對優勢,會被結構效率部分對沖。第二,工程能力,會重新成為大模型公司的核心壁壘。第三,大模型競爭的重心,會從“誰更有錢有卡”,慢慢轉向“誰更不容易崩”。

      從這個角度看,DeepSeek 這篇論文,真正的價值不在于 mHC 本身,而在于它所代表的技術方向選擇。

      它沒有在參數規模上,去硬剛美國,也沒有在應用層面追熱點,而是提前一步,把注意力放在了一個更長期,也更底層的問題上:當模型繼續變大的確定性開始下降,新的系統的確定性到底從哪里來?

      DeepSeek借助mHC,給出的答案,是結構的約束,是工程的理性,是在復雜系統里主動引入“安全邊界”。

      這件事,對DeepSeek 自身的戰略價值也非常清晰。更穩定的訓練意味著更低的邊際成本、更高的成功率、更強的開源社區吸引力。同時也意味著在下一輪模型繼續放大之前,DeepSeek已經提前卡住了一塊關鍵的技術高地。

      更重要的是,它釋放了一個非常明確的信號:中國的AI 團隊,已經開始在“規則層”參與博弈了。

      不是繼續跟隨,不是看淡優化,而是嘗試定義,嘗試改變規則,改變底層邏輯。

      所以,如果你把這篇論文放回資本市場的語境里,它討論的從來不只是殘差連接,而是一個更宏觀的問題:當大模型的擴張不再只是算力問題,誰有能力讓系統在更大規模下依然不崩?這才是下一階段真正決定產業格局和技術能力的核心變量。

      新的一年剛剛開始,DeepSeek 又一次選擇了不走尋常路。而真正值得關注的,也從來不是這一篇論文本身,而是它背后所指向的那條創新路線。

      如果說過去的競爭,是“誰能把模型做得更大”,那接下來的競爭,很可能會變成一句話:今后誰能把模型,安全地做大。目前來看,能夠很快掌握這一必殺秘訣的,就是DeepSeek團隊了,就是中國的AI工程師了。

      因此mHC的提出,其實釋放了一個很清晰的信號:中國的AI研發團隊,再次跑到了世界前列,因為他們已經開始在“基礎架構層”開始做原創了。

      所以,在新的一年剛剛開始之際,DeepSeek 又來踢館,又來炸街了,是不是很快,又會掀起全球的DeepSeek時刻了?

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      吃瓜后續丨四川大學通報王竹卿事件調查結果

      吃瓜后續丨四川大學通報王竹卿事件調查結果

      忘憂雜話店
      2026-02-14 22:15:43
      微軟人工智能CEO:最快1年,大部分白領工作會被AI完全自動化

      微軟人工智能CEO:最快1年,大部分白領工作會被AI完全自動化

      紅星新聞
      2026-02-14 13:52:23
      “不給人算命,只給國算命”的靈媒阮氏虹說2026:紅黃沖天、藍白墜淵,三光三煞,火馬絕運

      “不給人算命,只給國算命”的靈媒阮氏虹說2026:紅黃沖天、藍白墜淵,三光三煞,火馬絕運

      神奇故事
      2026-02-13 23:31:12
      2-1,63歲穆帥發威:率隊22輪不敗,逼近葡超榜首,繼續沖冠軍

      2-1,63歲穆帥發威:率隊22輪不敗,逼近葡超榜首,繼續沖冠軍

      俯身沖頂
      2026-02-14 06:33:36
      蘋果官網又推送新固件!

      蘋果官網又推送新固件!

      果粉易查
      2026-02-14 21:25:03
      烏美俄第3輪談判準備就緒,烏克蘭軍隊化身浴火鳳凰

      烏美俄第3輪談判準備就緒,烏克蘭軍隊化身浴火鳳凰

      史政先鋒
      2026-02-14 18:42:24
      “誰會買你老公的大頭照?”寶媽創業開超市,最終敗給了低認知

      “誰會買你老公的大頭照?”寶媽創業開超市,最終敗給了低認知

      妍妍教育日記
      2026-02-12 18:48:38
      女子故意扮丑去相親,男子一眼看中,女子吃驚:他是不是太餓了

      女子故意扮丑去相親,男子一眼看中,女子吃驚:他是不是太餓了

      丫頭舫
      2026-02-10 22:18:05
      震驚!網傳清遠一工廠春節放假,幾百員工辦離職,竟然都是臨時工

      震驚!網傳清遠一工廠春節放假,幾百員工辦離職,竟然都是臨時工

      火山詩話
      2026-02-13 15:17:46
      周總理逝世21年后,中國銀行核查賬目時發現他名下存有巨額存款,一番調查后揭開了背后的真相

      周總理逝世21年后,中國銀行核查賬目時發現他名下存有巨額存款,一番調查后揭開了背后的真相

      寄史言志
      2026-01-17 16:37:15
      笑不活了!《中華小當家》主角劉昴星又復活了,還是粒子重組身體

      笑不活了!《中華小當家》主角劉昴星又復活了,還是粒子重組身體

      二次元那些事
      2026-02-14 15:08:54
      14億人都不會忘卻!揭開核酸大王張核子的真面具:權力變現大公

      14億人都不會忘卻!揭開核酸大王張核子的真面具:權力變現大公

      大魚簡科
      2026-02-07 09:52:29
      越南談中越戰爭:中國不是給越南一個教訓,而是摧毀,他們做到了

      越南談中越戰爭:中國不是給越南一個教訓,而是摧毀,他們做到了

      老蝣說體育
      2026-01-31 13:51:15
      伊利亞拉門迪:在香港現場看球的人不多;希望皇社能贏皇馬

      伊利亞拉門迪:在香港現場看球的人不多;希望皇社能贏皇馬

      懂球帝
      2026-02-14 13:27:06
      在日華人直言:如今中國要是再和日本發生沖突,根本撐不過14年!

      在日華人直言:如今中國要是再和日本發生沖突,根本撐不過14年!

      南權先生
      2026-02-12 15:39:07
      王勵勤正式出面!國乒4主力官宣退役,林詩棟狀態持續低迷引關注

      王勵勤正式出面!國乒4主力官宣退役,林詩棟狀態持續低迷引關注

      觀察鑒娛
      2026-02-14 10:04:52
      笑不活了!朱芳雨提大箱現身,不是離職是回廣西吃螺螄粉

      笑不活了!朱芳雨提大箱現身,不是離職是回廣西吃螺螄粉

      TVB的四小花
      2026-02-14 00:53:04
      發工資時我調侃財務:嫁我工資歸你管!董事長:那當我女婿吧!

      發工資時我調侃財務:嫁我工資歸你管!董事長:那當我女婿吧!

      千秋文化
      2026-02-13 19:08:05
      少子化+AI,正在殺死延續了70年的選拔游戲

      少子化+AI,正在殺死延續了70年的選拔游戲

      格致君
      2026-02-14 09:21:44
      此刻,蘇通大橋,又有人開始散步了?期待二橋和海太!

      此刻,蘇通大橋,又有人開始散步了?期待二橋和海太!

      卷史
      2026-02-14 17:10:42
      2026-02-15 00:12:49
      何毅商業財經 incentive-icons
      何毅商業財經
      分享商業知識,共享財經信息
      520文章數 926關注度
      往期回顧 全部

      科技要聞

      字節跳動官宣豆包大模型今日進入2.0階段

      頭條要聞

      福州街頭發現一流浪老人身份成謎 程序員精準破解方言

      頭條要聞

      福州街頭發現一流浪老人身份成謎 程序員精準破解方言

      體育要聞

      最戲劇性的花滑男單,冠軍為什么是他?

      娛樂要聞

      春晚第五次聯排路透 明星積極飯撒互動

      財經要聞

      誰在掌控你的胃?起底百億"飄香劑"江湖

      汽車要聞

      星光730新春促銷開啟 80天銷量破2.6萬臺

      態度原創

      親子
      游戲
      家居
      房產
      軍事航空

      親子要聞

      與其昧著良心,這糖不吃也罷!

      《零 ~紅蝶~ REMAKE》試玩報告:和無名野鬼大戰二十回合"/> 主站 商城 論壇 自運營 登錄 注冊 《零 ~紅蝶~ REMAKE》試玩報告:和無...

      家居要聞

      中古雅韻 樂韻伴日常

      房產要聞

      三亞新機場,又傳出新消息!

      軍事要聞

      釣魚島、黃巖島、仁愛礁已充滿中國年味

      無障礙瀏覽 進入關懷版