<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek連發兩篇論文背后,原來藏著一場學術接力

      0
      分享至



      編輯|張倩、陳陳

      2026 年 1 月過半,我們依然沒有等來 DeepSeek V4,但它的模樣已經愈發清晰。

      最近,DeepSeek 連發了兩篇論文,一篇解決信息如何穩定流動,另一篇聚焦知識如何高效檢索。

      第一篇論文(mHC)出來的時候,打開論文的人都表示很懵,直呼看不懂,讓 AI 助手用各種方式講給自己聽。我們也翻了翻網友的討論,發現理解起來比較透徹的辦法其實還是要回到研究脈絡,看看這些年研究者們是怎么接力的。要理解第二篇論文(Conditional Memory)也是如此。

      于是,我們就去翻各路研究者的分析。這個時候,我們發現了一個有意思的現象:DeepSeek 和字節 Seed 團隊的很多工作其實是存在「接力」的 ——mHC 在字節 Seed 團隊 HC(Hyper-Connections)的基礎上進行了重大改進;Conditional Memory 則引用了字節 Seed 的 OverEncoding、UltraMem 等多項工作。

      如果把這些工作之間的關系搞清楚,相信我們不僅可以加深對 DeepSeek 論文的理解,還能看清大模型架構創新正在往哪些方向突破。

      在這篇文章中,我們結合自己的觀察和學界專家的點評,嘗試為大家梳理了一下。

      殘差連接的十年接力

      要理解 mHC,得先回到 2015 年。

      那一年,AI 大牛何愷明等人提出了 ResNet,用殘差連接解決了深度神經網絡訓練中的老大難問題:網絡層數一多,信息從前往后傳遞時會逐漸失真,到最后幾層幾乎學不到東西。殘差連接的思路很簡單,每一層不光接收上一層處理過的結果,還同時保留一份原始輸入,兩者加在一起再往下傳。

      這個設計堪稱深度學習的基石,十年來幾乎所有主流深度網絡架構都以殘差連接為默認配置。從視覺領域的各類 CNN,到自然語言處理領域的 Transformer,再到如今的大語言模型,無一例外。

      期間,研究者們大多在注意力機制、歸一化方法、激活函數等方面做了大量改進,但殘差連接的基本形式幾乎沒有根本性變化。

      直到 2024 年 9 月,字節 Seed 提出了 HC,論文后來被 ICLR 2025 接收。

      HC 的核心創新在于顯著提升了網絡的拓撲復雜度,同時不改變單個計算單元的 FLOPs 開銷。這意味著在相同的計算預算下,模型可以探索更豐富的特征組合方式。

      中國人民大學長聘副教授、博士生導師劉勇認為:HC 打破了由 ResNet 統治的恒等映射殘差連接傳統,提出了多路并發連接的新范式。它通過引入寬度動態性和跨層特征聚合,證明了通過增加殘差路徑的特征維(Expansion)和引入可學習的 Dynamic Hyper Connections 可以有效緩解 Representation Collapse 的問題并提升大語言模型的預訓練效率,提供了一個超越傳統殘差網絡的全新架構底座,即不再局限于單路徑的特征疊加,而是通過超連接構建一個更高維、更靈活的特征流動空間。

      DeepSeek 在 mHC 論文中表示:近年來,以 Hyper-Connections(HC)(Zhu et al., 2024) 為代表的研究,為殘差連接引入了一個新的維度,并在實驗上驗證了其顯著的性能潛力。HC 的單層結構如圖 1 (b) 所示。通過擴展殘差流的寬度并提升連接結構的復雜性,HC 在不改變單個計算單元 FLOPs 開銷的前提下,顯著提升了網絡的拓撲復雜度。



      可以看出:字節 Seed 提出的「擴展殘差流寬度 + 可學習連接矩陣」這一新的架構范式,構成了其后續方法設計的重要基礎,相關工作正是在這一范式框架內進一步展開的。

      但 HC 在走向大規模訓練的過程中遇到了瓶頸,導致訓練不穩定和受限的可擴展性。盡管如此,但其為后續研究指明了方向。劉勇認為,HC 論文為 mHC 研究提供了三個核心思路:

      • 首先是寬度擴展(Stream Expansion),即通過將殘差流維度擴大(如擴大至 4 倍或更多),能夠顯著增強模型的容量和學習能力;
      • 其次是多尺度連接的權重化,通過引入可學習矩陣來分配不同層級特征的貢獻,啟示了連接權重管理(mHC 中的 Sinkhorn-Knopp 算法)的重要性;
      • 最后是動態拓撲的潛力,論文展示了模型可以根據深度動態調整特征流向,這種軟拓撲結構為解決深層網絡訓練難點提供了新視角。這些探索讓 mHC 意識到,雖然拓撲結構的復雜化能帶來增益,但也必須解決隨之而來的訓練穩定性與工程效率問題。

      正是基于這些探索,DeepSeek 團隊得以明確 mHC 的研究方向:在繼承 HC 架構優勢的同時,針對性地解決其規模化瓶頸。

      劉勇指出:mHC 針對 HC 在大規模部署時暴露的穩定性風險和內存訪問開銷進行了針對性改進。在研究思路上,mHC 延續了 HC 的寬度擴展與多路徑聚合,并進一步通過 Sinkhorn-Knopp 等技術手段,施加流形約束,將 HC 的廣義空間投影回特定流形,從而在保留 HC 性能優勢的同時,重新找回了殘差網絡至關重要的恒等映射特性,解決了 HC 在超大規模訓練時的不穩定性。在工程層面,mHC 中提出了更高效的內核優化(Infrastructure Optimization),使該范式從理論實驗走向了萬億級參數規模的工業級應用。

      基于這些改進,mHC 不僅解決了穩定性問題,且在大規模訓練中(如 27B 模型)表現出卓越的可擴展性。

      我們不難發現,mHC 解決了 HC 在大規模訓練中的工程瓶頸。通過引入流形約束,mHC 在保留 HC 架構優勢的同時恢復了訓練穩定性,使得這一新范式真正具備了在主流大模型訓練中應用的條件。

      有網友認為:DeepSeek 提出的 mHC 是對字節 Seed HC 訓練架構技巧的一次頗具說服力的推進。



      從 2015 年殘差連接問世,到 2024 年字節 Seed 提出 HC,再到 2026 年 DeepSeek 提出 mHC,我們清楚地看到殘差連接在算法上的演進,是不同機構、研究者持續接力和優化的結果。

      而在 DeepSeek 發布的另一篇論文中,我們看到了幾乎相同的模式再次上演。

      都用 N-gram,字節 Seed、DeepSeek 接連導出新結論

      和 mHC 論文的「抽象」感不同,「Conditional Memory」論文解決的問題比較好理解:大模型被問到的很多問題是可以直接查表解決的,比如「法國的首都是哪里」,但由于標準 Transformer 缺乏原生的知識查找原語,即使這樣簡單的問題,模型也得去計算,就像你上了考場還要自己推導公式,這無疑是一種浪費。

      對此,「Conditional Memory」論文提出的解決方案是給模型裝一個「小抄本」(Engram),常見的詞組直接查表,省下來的算力用來做更復雜的推理。

      具體來說,Engram 的做法是:給模型配一個巨大的「詞組詞典」,當模型讀到某個詞(比如「Great」時,就把它前面幾個詞拼成 N-gram(比如「the Great」或「Alexander the Great」),然后用哈希函數把這個 N-gram 變成一個數字,直接去詞典里查對應的向量。

      這個「N-gram 哈希查表」的做法,字節 Seed 之前也用過。在提出OverEncoding 方法的論文(題為「Over-Tokenized Transformer: Vocabulary is Generally Worth Scaling」)中,他們發現:給模型配一個巨大的 N-gram 詞典,幾乎是「白撿」的性能提升。為什么說白撿?劉勇分析說,因為這些海量的嵌入參數是稀疏激活的,每次推理只查其中極少數,所以既不怎么吃顯存,也不怎么費算力。更重要的是,論文發現詞典越大、性能越好,而且提升幅度是可預測的。



      論文地址:https://arxiv.org/pdf/2501.16975

      如果說字節 Seed 論文用實驗告訴我們「把輸入詞表加大就能漲分」,DeepSeek 論文則另開一條賽道:把 N-gram 做成外掛存儲 Engram,與 MoE 分工,正式提出「條件存儲」這條新軸線,并告訴我們該怎么分參數才最劃算。

      還是回到考場的比喻:字節 Seed 發現給學生發公式手冊成績會提高,于是得出結論 ——「大詞表是更好的輸入表示」。DeepSeek 則進一步追問:這種做法還能以什么方式提高成績?他們通過 LogitLens 等工具進行機制分析,發現這種 lookup 機制能將模型從繁重的局部靜態模式重建中解放出來,使早期層直接獲得高階語義,從而增加了模型的有效推理深度。

      基于這個洞察,DeepSeek 不再僅僅將 N-gram 視為簡單的詞表擴展,而是將這一實驗性結論升華為「條件存儲」(Conditional Memory),這是一條與條件計算(MoE)并列的 scaling law 新軸線。在此基礎上,他們提出了「稀疏分配」(Sparsity Allocation)問題:在固定參數預算下,如何在 MoE 專家與靜態存儲模塊之間分配參數?實驗揭示了一條 U 型縮放規律 —— 全押 MoE 并非最優解,將約 20%-25% 的參數分配給 Engram 反而效果更好。

      劉勇表示,在工程實現上,DeepSeek 也進行了系統性的技術改良。架構層面,它改進了前作僅在輸入層(Layer 0)注入信息的局限,將 Engram 模塊注入到模型的中間層,使存儲訪問與深度計算實現并行與融合。交互機制上,它放棄了簡單的嵌入加和,引入了「上下文感知門控」,利用隱狀態動態調節檢索結果。系統優化上,它通過分詞器壓縮提高存儲效率,并利用硬件層面的預取技術(Prefetching)解決海量參數導致的延遲問題,使該技術真正具備了大規模工業落地的能力。

      在論文的 3.2 章節,我們發現,DeepSeek 把自己的 Engram 與字節 Seed 的 OverEncoding 方法進行了對比,指出雖然兩者都能從更大的嵌入表中獲益,但在相同的參數預算下,Engram 的縮放效率明顯更高。



      一起上分、互相啟發

      研究發表的意義具象化了

      每次 DeepSeek 一發論文,推特上都能引發不小的轟動,有位博主甚至提到他搭乘的飛機上有 30% 的人都在看 DeepSeek 剛發的論文。



      歸根結底,這反映出一個問題 —— 目前還愿意公開自己研究成果、帶著大家一起「上分」的頭部大模型廠商已經越來越少了。DeepSeek 和字節 Seed 在研究上的接力讓我們看到了公開研究成果的價值。

      同時,DeepSeek 對于社區內優秀成果的挖掘也給了我們一些啟發,類似字節 Seed 這樣的國內頭部大模型團隊其實有很多想法值得繼續探索。

      比如,在架構層面,除了前面提到的 OverEncoding,DeepSeek 論文中還提到了幾篇字節 Seed 的相關研究,包括稀疏模型架構 UltraMem 和它的新版本 Ultramemv2。這個全新的模型架構通過分布式多層級聯內存結構、Tucker 分解檢索與隱式參數擴展優化,有效解決了傳統 MoE 架構在推理階段的高額訪存問題,同時驗證了其優于傳統架構的 Scaling Law 擴展特性。



      此外,字節 Seed 在基礎研究上還發表過很多大膽探索全新范式的嘗試,比如Seed Diffusion Preview,系統性地驗證離散擴散技術路線作為下一代語言模型基礎框架的可行性;SuperClass,首次舍棄了文本編碼器,直接用原始文本的分詞作為多分類標簽,在視覺任務上效果優于傳統的 CLIP 方法;甚至提出了新型神經網絡架構FAN,通過引入傅里葉原理思想,彌補了 Transformer 等主流模型在周期性建模方面的缺陷。

      這些底層技術的研究,雖然在短期內無法用于商業模型的訓練,但是科技行業的進步,正是在無數研究者對未知領域的探索中發生的。

      畢竟,真正推動技術進步的,從來不是單一的突破,而是持續的積累與相互啟發。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      訂單暴漲2000%!一舉突破美國壟斷,這家中國企業實在太“猛”了

      訂單暴漲2000%!一舉突破美國壟斷,這家中國企業實在太“猛”了

      牛牛叨史
      2026-01-22 00:01:48
      不知道大家有沒有這種感覺,
孫穎莎其實才是國乒里最狠的那個人

      不知道大家有沒有這種感覺, 孫穎莎其實才是國乒里最狠的那個人

      小光侃娛樂
      2025-12-28 10:00:08
      不下桌總有機會開席!41歲丑聞纏身的朱亞文,這次要“翻身”了

      不下桌總有機會開席!41歲丑聞纏身的朱亞文,這次要“翻身”了

      奇怪的鯊魚們
      2026-01-22 12:14:44
      U23亞洲杯突然變臉中國3比0越南進決賽 東南亞驚呼

      U23亞洲杯突然變臉中國3比0越南進決賽 東南亞驚呼

      詩遠文案館
      2026-01-22 12:06:35
      4-2!亞馬爾缺席,萊萬搶戲,弗里克神換人,巴薩輕取歐冠弱旅

      4-2!亞馬爾缺席,萊萬搶戲,弗里克神換人,巴薩輕取歐冠弱旅

      我的護球最獨特
      2026-01-22 06:09:57
      “后坐力”太大!閆學晶又被爆出猛料,她和兒子已經一個也跑不了

      “后坐力”太大!閆學晶又被爆出猛料,她和兒子已經一個也跑不了

      來科點譜
      2026-01-22 08:53:11
      福建一首飾店被搶劫監控畫面曝光:店主遭嫌疑人電擊大聲呼救,警方正調查

      福建一首飾店被搶劫監控畫面曝光:店主遭嫌疑人電擊大聲呼救,警方正調查

      揚子晚報
      2026-01-21 20:12:06
      今日搞笑圖:同樣都是馬,憑啥下面的要被騎?

      今日搞笑圖:同樣都是馬,憑啥下面的要被騎?

      采采
      2026-01-20 17:06:18
      帶狀皰疹致死病例增多!倡議:1不喝、3不碰、2堅持,別馬虎了!

      帶狀皰疹致死病例增多!倡議:1不喝、3不碰、2堅持,別馬虎了!

      垚垚分享健康
      2026-01-19 20:30:10
      分手29年后,肖戰將成國乒副總教練,陳靜嫁給富商,已是大學教授

      分手29年后,肖戰將成國乒副總教練,陳靜嫁給富商,已是大學教授

      趣文說娛
      2026-01-14 18:40:13
      農行浙江分行880萬罰單揭貸管漏洞 浦發杭州分行475萬處罰顯三查短板

      農行浙江分行880萬罰單揭貸管漏洞 浦發杭州分行475萬處罰顯三查短板

      經濟觀察網
      2026-01-22 12:03:42
      先美后陸、透支信任!鄭麗文難破國民黨兩岸困局

      先美后陸、透支信任!鄭麗文難破國民黨兩岸困局

      娛樂小可愛蛙
      2026-01-22 12:18:14
      李亞鵬欠4千萬內情,20年兄弟好算計,竇靖童上大分,陳光標出手

      李亞鵬欠4千萬內情,20年兄弟好算計,竇靖童上大分,陳光標出手

      子芫伴你成長
      2026-01-21 22:53:56
      佩林卡終于動手!湖人、公牛圍繞八村塁醞釀交易,這是雙贏的存在

      佩林卡終于動手!湖人、公牛圍繞八村塁醞釀交易,這是雙贏的存在

      八零后小伙兒
      2026-01-22 11:14:44
      法國為什么修米迪運河?繞過直布羅陀海峽

      法國為什么修米迪運河?繞過直布羅陀海峽

      地圖帝
      2026-01-21 09:06:57
      羅永浩所持錘子科技713萬元股權被凍結

      羅永浩所持錘子科技713萬元股權被凍結

      中新經緯
      2026-01-22 10:22:03
      別再搞錯了!燒毀圓明園的不是八國聯軍,這段歷史真相該被銘記

      別再搞錯了!燒毀圓明園的不是八國聯軍,這段歷史真相該被銘記

      小豫講故事
      2026-01-20 06:00:08
      真“加勒比海盜”!艾頓眼睛被對手戳傷,賽后社媒曬照自嘲

      真“加勒比海盜”!艾頓眼睛被對手戳傷,賽后社媒曬照自嘲

      懂球帝
      2026-01-21 16:30:14
      記住!老人離世第一步不是銷戶,先辦這5件事,權益不流失少跑腿

      記住!老人離世第一步不是銷戶,先辦這5件事,權益不流失少跑腿

      阿芒娛樂說
      2025-12-31 13:46:18
      中國財政供養人員達6846萬?結構失衡才是財政壓力的核心

      中國財政供養人員達6846萬?結構失衡才是財政壓力的核心

      流蘇晚晴
      2025-12-04 19:27:08
      2026-01-22 13:40:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12163文章數 142546關注度
      往期回顧 全部

      科技要聞

      幾千億只是開胃菜,AI基建還得再砸幾萬億

      頭條要聞

      小伙騎車撞特斯拉后貸款賠1.5萬修車費 發票只開9千元

      頭條要聞

      小伙騎車撞特斯拉后貸款賠1.5萬修車費 發票只開9千元

      體育要聞

      珍妮回應爆料:湖人不感激詹姆斯付出絕非事實

      娛樂要聞

      鐘麗緹土耳其高空落淚 與張倫碩擁吻

      財經要聞

      申通快遞創始人被前夫索要股份

      汽車要聞

      今年集中上市 旅行車的春天可能真要來了

      態度原創

      本地
      親子
      數碼
      游戲
      公開課

      本地新聞

      云游中國|格爾木的四季朋友圈,張張值得你點贊

      親子要聞

      駝奶粉哪個牌子好?2026駱駝奶粉品牌十強!

      數碼要聞

      當貝耳機Air 1 重磅發布:行業首款抗菌耳夾式耳機

      威世智竊喜?萬智牌新卡包混入3月預定的珍稀卡

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲三级无码| 中文字幕有码无码AV| 欧美一区二区三区欧美日韩亚洲| 国产美女午夜福利视频| 久久久91精品人妻无码夜色_国产v| 熟女Www亚洲国产W| 欧美人妖性爱| 一区二区三区福利午夜| 久久发布国产伦子伦精品| 天堂av成人国产精品| 久久天天躁狠狠躁夜夜2020一| 日韩永久免费无码AV电影| 国产三级最新在线观看不卡 | 日韩成人大屁股内射喷水| 国产精品无码av无码| 日区中文字幕一区二区| 精品精品亚洲高清a毛片| 一本大道东京热av无码| 日韩a| 国产色婷婷视频在线观看| 国产av一区二区久久蜜臀| 免费无码又爽又刺激动态图| 久久另类小说| 超碰66| 疯狂做受xxxx高潮欧美日本| 乱色精品无码一区二区国产盗| 俄罗斯兽交黑人又大又粗水汪汪 | 午夜精品久久久久久久久| 广东少妇大战黑人34厘米视频| 日日摸夜夜添夜夜添国产三级| 欧美丝袜你懂的| 仁怀市| 国产免费拔擦拔擦8x高清在线人| 日韩精品人妻一区二区中文八零| 无码人妻丰满熟妇区五十路百度| 黑人大战中国av女叫惨了| 国产成人无码一区二区在线播放 | 永久在线观看免费视频| 久久这里只精品国产2| 午夜不卡久久精品无码免费| 国产午夜成人av在线播放|