<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

DeepSeek 今年第一篇論文，到底在講什么？

2026-01-03 23:55:33　來源: 賽博禪心

北京舉報

0

分享至

DeepSeek 在 2026 年第一篇論文，梁文峰署名

讓「多流殘差」這個好想法，能真正在大模型上跑起來

私底下，某巨佬評價道：“牛逼”

https://arxiv.org/abs/2512.24880

要理解這篇論文，得先知道 Transformer 里的信息是怎么傳的

Transformer 里的信息流

你問 ChatGPT 一個問題：今天天氣怎么樣，它怎么回答你的？

問題拆成一個個小單元，比如「今天」「天氣」「怎么樣」這樣的片段

，可以點擊下面的 svg，模擬交互

然后，每個片段會被轉成一組向量，進入 Transformer，開始進行處理

數字從第一層進去，經過處理，傳到第二層，再處理，再傳到第三層...一直傳到最后一層

最后一層輸出的數字，決定了模型接下來要生成哪個詞

大概就是這樣

這個過程會循環往復，直到所有文字都生成完畢

你看到 ChatGPT 一個字一個字往外蹦，就是這個過程

所以中間這幾十層的傳遞很關鍵。傳到最后的數字如果不對，生成的內容就會跑偏

問題來了：層數一多，數字在傳遞過程中會越來越小，甚至趨近于零
傳到后面，前面的信息就丟了

2015 年，ResNet 提出了一個辦法：殘差連接

做法很簡單。每一層在輸出的時候，把「這一層算出來的新數字」和「上一層傳過來的原始數字」加在一起，再傳給下一層

一個簡單的示意圖

這樣，不管網絡有多深，最開始的信息都能一路傳到底

過去十年，幾乎所有大模型都在用

字節的想法：一條路不夠，搞四條

2024 年，字節發了一篇論文叫 Hyper-Connections（HC），入選了 ICLR 2025

他們說，一條殘差通道不夠用，要把這條路拓寬成四條，還得并行

同時的，這四條通道之間，可以互相交換信息，通過一個可學習的矩陣來混合

三種連接方式對比：左邊是傳統殘差，中間是 HC，右邊是 DeepSeek 的 mHC

聽起來很合理，小模型上的實驗效果也確實好

但...

boom 問題：信號爆炸

那個用來混合信息的矩陣，完全可學習，沒有任何約束

一層沒事，兩層也還行

但層數一多，矩陣一乘，信號就飛了

信息每過一層，都要被這個矩陣處理一次。矩陣乘矩陣，再乘矩陣...

DeepSeek 在 27B 模型上復現了這個問題

訓練到 12000 步左右，loss 突然飆升，梯度劇烈震蕩，訓練崩了

27B 模型訓練曲線，HC 在 12k 步附近崩了

論文里給了一個指標，衡量信號在傳遞過程中被放大了多少倍

HC 在 27B 模型上，這個數能到多少？
3000 倍（理想情況下，不應該放大）

HC 的信號增益能飆到 3000 mHC：加一個約束

DeepSeek 的思路很直接
問題出在矩陣沒有約束，那就加約束

加什么約束？
雙隨機矩陣

這個矩陣有個特點：
所有元素加起來，每一行的和等于 1，每一列的和也等于 1

換句話說，信息經過這個矩陣，可以在四條通道之間重新分配，但總量不變

信息可以流動，但總量守恒

不管模型有多少層，信號都不會爆炸，也不會消失

用了這個約束之后，27B 模型上的信號放大倍數從 3000 降到了 1.6

mHC 的信號增益穩定在 1 附近性

這就是 mHC
m 代表 Manifold，流形約束

工程優化

四條通道，意味著四倍的數據讀寫量

DeepSeek 做了一系列工程優化：內核融合、重計算策略、流水線調度...

細節不展開了

最終結果：
額外的訓練時間開銷只有 6.7%

實驗效果

27B 模型，mHC 對比傳統殘差連接，loss 下降 0.021

下游任務上，推理能力（BBH）提升 2.1%，閱讀理解（DROP）提升 2.3%

訓練全程穩定

mHC 穩定下降，沒崩說回這篇論文

字節的 HC 提出了一個好想法：把殘差通道變寬
但沒解決大規模訓練的穩定性問題

DeepSeek 給出了數學上干凈的解法，然后在工程上把開銷壓到了可接受的范圍

這篇論文透露的信息：DeepSeek 在認真搞架構層的優化

下一代模型，DeepSeek 會不會用 mHC？不知道

但顯然，他們在這個方向有投入

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

GLM-5真夠頂：超24小時跑代碼，700次工具調用、800次切上下文！

量子位 2026-02-14 16:11:24
5 跟貼 5
字節豆包2.0發布：推理成本降一個數量級，正面對標GPT-5和Gemini 3

華爾街見聞官方 2026-02-14 17:29:39
66 跟貼 66

清華聯手千問重塑歸一化范式，讓 Transformer 回歸「深度」學習

機器之心Pro 2026-02-10 18:50:12
0 跟貼 0

史上最長實驗，持續96年送走兩位教授？

差評XPIN 2026-02-13 18:00:00
14 跟貼 14
AI戰事正酣，都在等梁文鋒

36氪 2026-02-15 11:50:21
12 跟貼 12

驚人的實驗，在時速82公里的卡車上，將人以同樣的速度彈射出去

周周出精品 2026-02-15 15:19:49
3 跟貼 3

美國為證實時間是否存在，計劃將一女子關地下洞穴210天

明智家庭教育 2026-02-15 20:59:41
0 跟貼 0
求助信號寫到這個部位也是沒誰了

涼心愛追劇 2026-02-14 18:59:00
0 跟貼 0

中國AI再迎DeepSeek時刻

小司聊理財 2026-02-15 07:05:30
0 跟貼 0
賈樟柯稱贊Seedance 2.0：確實厲害，準備用它做個短片

財經網 2026-02-14 20:31:48
0 跟貼 0
Agent、圖像、視頻全是大版本升級：春晚還沒開，豆包AI就火了

機器之心Pro 2026-02-14 16:36:33
4 跟貼 4
狐訊 | 迪士尼控訴字節跳動；DeepSeek 回復變冷漠

科技狐 2026-02-14 22:43:17
1 跟貼 1
美媒發出感慨：美國過時了中國出乎意料成了熱門

環球時報 2026-02-15 12:00:05
14700 跟貼 14700
網傳字節將出售沐瞳：有望2月敲定，金額或超400億元

PChome電腦之家 2026-02-14 17:15:23
26 跟貼 26
迪士尼譴責字節，雙標嗎？

夏末moent 2026-02-15 12:35:58
2 跟貼 2
汽車廠：DeepSeek已成牛夫人，千問和豆包才是小甜甜

燃擎頻道 2026-02-14 18:43:10
0 跟貼 0
速遞｜字節戰略撤退游戲業務，70億美元出售沐瞳，沙特土豪接盤

ZFinance 2026-02-14 13:22:46
59 跟貼 59
喜報！欽北區法院3篇論文獲獎

欽北法院 2026-02-15 09:59:52
0 跟貼 0
男子堵住急救通道耍橫大喊有種你斃了我，結局讓人直呼解氣 (1)

蛋仔熊大 2026-02-12 03:00:20
0 跟貼 0
瓊州海峽新通道敲定，橋隧方案未采納！

赴赴赴焰海 2026-02-15 07:12:41
0 跟貼 0
液氮的威力到底有多強？牛人將其從五樓倒下，看結果就知道了

二毛走世界_1 2026-02-15 13:02:14
0 跟貼 0
農學院學姐畢業論文跑了，懸賞5000塊尋鵝只為畢業

即使沒有換位思考 2026-02-15 17:58:18
1 跟貼 1
視覺模型既懂語義，又能還原細節，南洋理工&商湯提出棱鏡假說

機器之心Pro 2026-01-13 18:26:48
0 跟貼 0
當我終于連夜肝完論文，感謝

幕清thee 2026-02-16 03:37:32
0 跟貼 0
汽車要有實體操縱件新國標征求意見

新華社 2026-02-15 14:49:05
218 跟貼 218
春節周重磅前瞻：美聯儲最愛通脹指標，DeepSeek V4或發布

華爾街見聞官方 2026-02-15 11:00:48
0 跟貼 0
一千多個模型都指向一個通用子空間

機器之心Pro 2025-12-16 18:23:47
0 跟貼 0
震撼！OpenAI神秘模型連破6道前沿難題，奧特曼：AI在造「新知識」

新智元 2026-02-15 16:45:42
58 跟貼 58
川大嚴查教師學術不端，28篇論文涉造假

懸崖邊上的愛情 2026-02-15 13:51:21
1 跟貼 1
騎車專用通道不走，結果很受傷

笑料萌記 2026-02-15 13:47:39
1 跟貼 1
初三化學難在哪？福州家長分享：這一年我是怎么陪孩子渡過的

誠誠教育行 2026-02-14 22:41:34
0 跟貼 0
告別抽卡！一手實測字節剛放出的視頻模型Seedance 1.5 pro

機器之心Pro 2025-12-18 17:49:18
0 跟貼 0
手機信號增強！

喬喬的怪知識 2026-02-12 13:21:09
0 跟貼 0
哪個氣球會變大？

新浪財經 2026-02-14 01:05:00
0 跟貼 0
微軟放話一年消滅白領！硅谷老板流行借助AI親自上手一切

新智元 2026-02-15 19:06:11
9 跟貼 9
大模型三箭齊發、芯片崗位低調招聘，字節跳動不只想贏下AI“春節檔”

每日經濟新聞 2026-02-15 09:35:33
30 跟貼 30
三個動作手機立馬有信號是什么原理？

深林的動物圈 2026-02-13 17:21:32
1 跟貼 1
湖南無線電管理系統精準施策護電波凝心聚力保安全

北青網-北京青年報 2026-02-15 21:48:19
0 跟貼 0
Seedance一騎絕塵背后：中國AI春節前為何“殺瘋了”？

澎湃新聞 2026-02-15 07:50:28
118 跟貼 118
AI催生巨量Token消耗、內存硬件緊缺算力租賃熱潮下，運營商加碼布局液冷服務器

每日經濟新聞 2026-02-15 19:35:15
7 跟貼 7

杠上了！“誰說歐洲文明要完？加拿大還想加入呢”

杠上了！“誰說歐洲文明要完？加拿大還想加入呢”

觀察者網

2026-02-15 22:54:13

高市沒想到，日本剛扣押中國漁船，抓走船長，中方就迅速出手了！

高市沒想到，日本剛扣押中國漁船，抓走船長，中方就迅速出手了！

歲暮的歸南山

2026-02-16 00:18:08

拉夫羅夫公開說“看不懂”，西方政客集體沉默這事真有那么難解釋

拉夫羅夫公開說“看不懂”，西方政客集體沉默這事真有那么難解釋

西莫的藝術宮殿

2026-02-16 03:44:59

俄媒：一旦開戰，中方只靠解放軍難以取勝，必須調動另一股力量！

俄媒：一旦開戰，中方只靠解放軍難以取勝，必須調動另一股力量！

勇士軍武閑談

2026-02-13 11:54:35

新加坡急了，外長幾乎是拍著桌子，讓中國“尊重”馬六甲的地位。

新加坡急了，外長幾乎是拍著桌子，讓中國“尊重”馬六甲的地位。

南權先生

2026-01-26 15:41:26

網速更快！華為公布支持5A通信機型：覆蓋Mate、Pura、nova等系列

網速更快！華為公布支持5A通信機型：覆蓋Mate、Pura、nova等系列

快科技

2026-02-14 12:13:04

最高可得2888元！剛剛，千問APP宣布發放口令紅包

最高可得2888元！剛剛，千問APP宣布發放口令紅包

大象新聞

2026-02-15 17:59:05

好慘烈的身高對比差距，中越邊境上的一張軍人合影突然火了起來

好慘烈的身高對比差距，中越邊境上的一張軍人合影突然火了起來

我心縱橫天地間

2026-01-30 22:17:29

回顧探花大神：害人害己，多位女主被親戚認出當場“社死”

回顧探花大神：害人害己，多位女主被親戚認出當場“社死”

就一點

2025-10-09 12:19:42

樊振東3-1逆轉賈哈！后三局拿捏關鍵分，為薩爾布呂肯奪首勝！

樊振東3-1逆轉賈哈！后三局拿捏關鍵分，為薩爾布呂肯奪首勝！

籃球資訊達人

2026-02-15 20:50:48

德國那位軍事專家說得夠直白：美國不是怕中國，是怕打了也白打

德國那位軍事專家說得夠直白：美國不是怕中國，是怕打了也白打

扶蘇聊歷史

2026-01-28 18:04:09

氣笑了！李家誠告周秀娜，不到半天就被打臉，好在周秀娜早有預防

氣笑了！李家誠告周秀娜，不到半天就被打臉，好在周秀娜早有預防

離離言幾許

2026-02-13 18:34:28

貝克漢姆家劇情更新，小七情人節曬與大布合照，貝嫂回應但沒人理

貝克漢姆家劇情更新，小七情人節曬與大布合照，貝嫂回應但沒人理

手工制作阿殲

2026-02-16 02:42:05

你無意之中撞見過什么秘密？網友：我婆婆和公公外面各自有人

你無意之中撞見過什么秘密？網友：我婆婆和公公外面各自有人

帶你感受人間冷暖

2026-02-12 00:05:09

他8次上春晚，作死被捕入獄，如今56歲無人問津，淪落到四處走穴

他8次上春晚，作死被捕入獄，如今56歲無人問津，淪落到四處走穴

小熊侃史

2026-01-06 11:17:00

中央電視臺直播錄播2026年2月16日至22日乒乓球比賽

中央電視臺直播錄播2026年2月16日至22日乒乓球比賽

乒乓球球

2026-02-16 00:27:52

前勇士、湖人冠軍中鋒麥基：我將加入北京首鋼

前勇士、湖人冠軍中鋒麥基：我將加入北京首鋼

懂球帝

2026-02-15 09:17:17

這種飲料正在摧毀你的胰島細胞！很多糖尿病，都和這種飲料有關！

這種飲料正在摧毀你的胰島細胞！很多糖尿病，都和這種飲料有關！

蜉蝣說

2026-01-29 14:46:50

從5260萬降到600萬，還準備退役巡演么？奪冠熱門似乎不太需要你

從5260萬降到600萬，還準備退役巡演么？奪冠熱門似乎不太需要你

老梁體育漫談

2026-02-15 00:03:47

2026央視春晚最新動態！節目單曝光，重量級嘉賓登場

2026央視春晚最新動態！節目單曝光，重量級嘉賓登場

夢在深巷qw

2026-02-16 03:42:26

拜AI古佛，修賽博禪心

293文章數 36關注度

往期回顧全部

科技要聞

發春節紅包的大廠都被約談了

頭條要聞

大學生寒假為媽媽店鋪當中老年服裝模特撞臉明星

頭條要聞

大學生寒假為媽媽店鋪當中老年服裝模特撞臉明星

體育要聞

NBA三分大賽:利拉德帶傷第三次奪冠

娛樂要聞

2026央視春晚最新劇透重量級嘉賓登場

財經要聞

誰在掌控你的胃？起底百億"飄香劑"江湖

汽車要聞

奔馳中國換帥：段建軍離任，李德思接棒

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戲

教育

時尚

本地

公開課

LPL第一賽段還未結束，亞運會已有3隊退出LOL比賽，包括東道主

教育要聞

點贊收藏轉發這條視頻，我不怕小日子

多巴胺失寵了？過年這樣穿彩色時髦又減齡

本地新聞

春花齊放2026：《駿馬奔騰迎新歲》

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
古代的馬真能日行八百里嗎
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<p id="edr5t"></p>

<sub id="edr5t"></sub>