<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek 今年第一篇論文,到底在講什么?

      0
      分享至

      DeepSeek 在 2026 年第一篇論文,梁文峰署名

      讓「多流殘差」這個好想法,能真正在大模型上跑起來

      私底下,某巨佬評價道:“牛逼”


      https://arxiv.org/abs/2512.24880

      要理解這篇論文,得先知道 Transformer 里的信息是怎么傳的

      Transformer 里的信息流

      你問 ChatGPT 一個問題:今天天氣怎么樣,它怎么回答你的?

      問題拆成一個個小單元,比如「今天」「天氣」「怎么樣」這樣的片段

      ,可以點擊下面的 svg,模擬交互

      然后,每個片段會被轉成一組向量,進入 Transformer,開始進行處理

      數字從第一層進去,經過處理,傳到第二層,再處理,再傳到第三層...一直傳到最后一層

      最后一層輸出的數字,決定了模型接下來要生成哪個詞


      大概就是這樣

      這個過程會循環往復,直到所有文字都生成完畢

      你看到 ChatGPT 一個字一個字往外蹦,就是這個過程

      所以中間這幾十層的傳遞很關鍵。傳到最后的數字如果不對,生成的內容就會跑偏

      問題來了:層數一多,數字在傳遞過程中會越來越小,甚至趨近于零
      傳到后面,前面的信息就丟了

      2015 年,ResNet 提出了一個辦法:殘差連接

      做法很簡單。每一層在輸出的時候,把「這一層算出來的新數字」和「上一層傳過來的原始數字」加在一起,再傳給下一層


      一個簡單的示意圖

      這樣,不管網絡有多深,最開始的信息都能一路傳到底

      過去十年,幾乎所有大模型都在用

      字節的想法:一條路不夠,搞四條

      2024 年,字節發了一篇論文叫 Hyper-Connections(HC),入選了 ICLR 2025

      他們說,一條殘差通道不夠用,要把這條路拓寬成四條,還得并行

      同時的,這四條通道之間,可以互相交換信息,通過一個可學習的矩陣來混合


      三種連接方式對比:左邊是傳統殘差,中間是 HC,右邊是 DeepSeek 的 mHC

      聽起來很合理,小模型上的實驗效果也確實好

      但...


      boom 問題:信號爆炸

      那個用來混合信息的矩陣,完全可學習,沒有任何約束

      一層沒事,兩層也還行

      但層數一多,矩陣一乘,信號就飛了

      信息每過一層,都要被這個矩陣處理一次。矩陣乘矩陣,再乘矩陣...

      DeepSeek 在 27B 模型上復現了這個問題

      訓練到 12000 步左右,loss 突然飆升,梯度劇烈震蕩,訓練崩了


      27B 模型訓練曲線,HC 在 12k 步附近崩了

      論文里給了一個指標,衡量信號在傳遞過程中被放大了多少倍

      HC 在 27B 模型上,這個數能到多少?
      3000 倍(理想情況下,不應該放大)


      HC 的信號增益能飆到 3000 mHC:加一個約束

      DeepSeek 的思路很直接
      問題出在矩陣沒有約束,那就加約束

      加什么約束?
      雙隨機矩陣

      這個矩陣有個特點:
      所有元素加起來,每一行的和等于 1,每一列的和也等于 1

      換句話說,信息經過這個矩陣,可以在四條通道之間重新分配,但總量不變

      信息可以流動,但總量守恒

      不管模型有多少層,信號都不會爆炸,也不會消失

      用了這個約束之后,27B 模型上的信號放大倍數從 3000 降到了 1.6


      mHC 的信號增益穩定在 1 附近性

      這就是 mHC
      m 代表 Manifold,流形約束

      工程優化

      四條通道,意味著四倍的數據讀寫量

      DeepSeek 做了一系列工程優化:內核融合重計算策略流水線調度...

      細節不展開了

      最終結果:
      額外的訓練時間開銷只有 6.7%

      實驗效果

      27B 模型,mHC 對比傳統殘差連接,loss 下降 0.021

      下游任務上,推理能力(BBH)提升 2.1%,閱讀理解(DROP)提升 2.3%

      訓練全程穩定


      mHC 穩定下降,沒崩 說回這篇論文

      字節的 HC 提出了一個好想法:把殘差通道變寬
      但沒解決大規模訓練的穩定性問題

      DeepSeek 給出了數學上干凈的解法,然后在工程上把開銷壓到了可接受的范圍

      這篇論文透露的信息:DeepSeek 在認真搞架構層的優化

      下一代模型,DeepSeek 會不會用 mHC?不知道

      但顯然,他們在這個方向有投入

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      杠上了!“誰說歐洲文明要完?加拿大還想加入呢”

      杠上了!“誰說歐洲文明要完?加拿大還想加入呢”

      觀察者網
      2026-02-15 22:54:13
      高市沒想到,日本剛扣押中國漁船,抓走船長,中方就迅速出手了!

      高市沒想到,日本剛扣押中國漁船,抓走船長,中方就迅速出手了!

      歲暮的歸南山
      2026-02-16 00:18:08
      拉夫羅夫公開說“看不懂”,西方政客集體沉默 這事真有那么難解釋

      拉夫羅夫公開說“看不懂”,西方政客集體沉默 這事真有那么難解釋

      西莫的藝術宮殿
      2026-02-16 03:44:59
      俄媒:一旦開戰,中方只靠解放軍難以取勝,必須調動另一股力量!

      俄媒:一旦開戰,中方只靠解放軍難以取勝,必須調動另一股力量!

      勇士軍武閑談
      2026-02-13 11:54:35
      新加坡急了,外長幾乎是拍著桌子,讓中國“尊重”馬六甲的地位。

      新加坡急了,外長幾乎是拍著桌子,讓中國“尊重”馬六甲的地位。

      南權先生
      2026-01-26 15:41:26
      網速更快!華為公布支持5A通信機型:覆蓋Mate、Pura、nova等系列

      網速更快!華為公布支持5A通信機型:覆蓋Mate、Pura、nova等系列

      快科技
      2026-02-14 12:13:04
      最高可得2888元!剛剛,千問APP宣布發放口令紅包

      最高可得2888元!剛剛,千問APP宣布發放口令紅包

      大象新聞
      2026-02-15 17:59:05
      好慘烈的身高對比差距,中越邊境上的一張軍人合影突然火了起來

      好慘烈的身高對比差距,中越邊境上的一張軍人合影突然火了起來

      我心縱橫天地間
      2026-01-30 22:17:29
      回顧探花大神:害人害己,多位女主被親戚認出當場“社死”

      回顧探花大神:害人害己,多位女主被親戚認出當場“社死”

      就一點
      2025-10-09 12:19:42
      樊振東3-1逆轉賈哈!后三局拿捏關鍵分,為薩爾布呂肯奪首勝!

      樊振東3-1逆轉賈哈!后三局拿捏關鍵分,為薩爾布呂肯奪首勝!

      籃球資訊達人
      2026-02-15 20:50:48
      德國那位軍事專家說得夠直白:美國不是怕中國,是怕打了也白打

      德國那位軍事專家說得夠直白:美國不是怕中國,是怕打了也白打

      扶蘇聊歷史
      2026-01-28 18:04:09
      氣笑了!李家誠告周秀娜,不到半天就被打臉,好在周秀娜早有預防

      氣笑了!李家誠告周秀娜,不到半天就被打臉,好在周秀娜早有預防

      離離言幾許
      2026-02-13 18:34:28
      貝克漢姆家劇情更新,小七情人節曬與大布合照,貝嫂回應但沒人理

      貝克漢姆家劇情更新,小七情人節曬與大布合照,貝嫂回應但沒人理

      手工制作阿殲
      2026-02-16 02:42:05
      你無意之中撞見過什么秘密?網友:我婆婆和公公外面各自有人

      你無意之中撞見過什么秘密?網友:我婆婆和公公外面各自有人

      帶你感受人間冷暖
      2026-02-12 00:05:09
      他8次上春晚,作死被捕入獄,如今56歲無人問津,淪落到四處走穴

      他8次上春晚,作死被捕入獄,如今56歲無人問津,淪落到四處走穴

      小熊侃史
      2026-01-06 11:17:00
      中央電視臺直播錄播2026年2月16日至22日乒乓球比賽

      中央電視臺直播錄播2026年2月16日至22日乒乓球比賽

      乒乓球球
      2026-02-16 00:27:52
      前勇士、湖人冠軍中鋒麥基:我將加入北京首鋼

      前勇士、湖人冠軍中鋒麥基:我將加入北京首鋼

      懂球帝
      2026-02-15 09:17:17
      這種飲料正在摧毀你的胰島細胞!很多糖尿病,都和這種飲料有關!

      這種飲料正在摧毀你的胰島細胞!很多糖尿病,都和這種飲料有關!

      蜉蝣說
      2026-01-29 14:46:50
      從5260萬降到600萬,還準備退役巡演么?奪冠熱門似乎不太需要你

      從5260萬降到600萬,還準備退役巡演么?奪冠熱門似乎不太需要你

      老梁體育漫談
      2026-02-15 00:03:47
      2026央視春晚最新動態!節目單曝光,重量級嘉賓登場

      2026央視春晚最新動態!節目單曝光,重量級嘉賓登場

      夢在深巷qw
      2026-02-16 03:42:26
      2026-02-16 05:15:00
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      293文章數 36關注度
      往期回顧 全部

      科技要聞

      發春節紅包的大廠都被約談了

      頭條要聞

      大學生寒假為媽媽店鋪當中老年服裝模特 撞臉明星

      頭條要聞

      大學生寒假為媽媽店鋪當中老年服裝模特 撞臉明星

      體育要聞

      NBA三分大賽:利拉德帶傷第三次奪冠

      娛樂要聞

      2026央視春晚最新劇透 重量級嘉賓登場

      財經要聞

      誰在掌控你的胃?起底百億"飄香劑"江湖

      汽車要聞

      奔馳中國換帥:段建軍離任,李德思接棒

      態度原創

      游戲
      教育
      時尚
      本地
      公開課

      LPL第一賽段還未結束,亞運會已有3隊退出LOL比賽,包括東道主

      教育要聞

      點贊收藏轉發這條視頻,我不怕小日子

      多巴胺失寵了?過年這樣穿彩色時髦又減齡

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版