<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      梁文鋒的新論文,要革何愷明們的命?

      0
      分享至



      出品|搜狐科技

      作者|常博碩

      編輯| 楊 錦

      果然,只要一到假期,DeepSeek就會更新點什么。

      這個元旦,DeepSeek發表了一篇新論文《mHC: Manifold-Constrained Hyper-Connections》提出了一種新的架構——流形約束超連接,以解決傳統架構在大模型訓練中的不穩定問題。

      更值得關注的是,論文作者最后一位赫然寫著梁文鋒的大名。


      在此之前,梁文鋒幾乎很少在技術論文中署名,最多是掛個通訊作者。這次直接參與論文撰寫,足以可見DeepSeek對這篇論文的重視程度。

      而細讀之后才發現,這篇論文可以稱得上是一場革命性的創新,革的正是何愷明們建立的深度學習基石ResNet的命。

      作為計算機視覺領域的頂尖科學家,何愷明畢業于清華大學物理系,現任麻省理工學院電氣工程與計算機科學系副教授(終身教職)。其最著名的成就,就是提出了ResNet架構,解決了深度神經網絡中“越深越難訓練”的根本性問題,ResNet也被稱為現代深度學習發展史上的一座里程碑。


      十年未變的“底層共識”被改變

      要理解DeepSeek這篇論文分量,我們得回到十年前。如果把那時的神經網絡比喻成一座高塔,在當時,隨著塔的層數堆疊過多,地基傳來的信號往往在半路就消失殆盡,很容易導致塔身崩塌。

      直到何愷明等人提出了劃時代的ResNet(殘差網絡),這個問題才被解決。

      在 ResNet之前,深度神經網絡有一個致命問題,那就是網絡一深,反而學不會了。原因很簡單,梯度會在層層傳遞中消失或爆炸,前面的信息傳不到后面。

      于是當時還在微軟亞洲研究院的何愷明等人就發表了一篇名為《Deep Residual Learning for Image Recognition》的論文,這篇論文也是AI歷史上引用率最高的殿堂級論文之一。

      可以這樣理解,原本信息過神經網絡層時會被攔截處理,可以理解為一條高速公路中有很多收費站,導致信號像公路上的車流一樣不停被收費站攔截,運行不暢。

      而ResNet相當于在旁邊修了一條直通的“快速通道”,哪怕收費站處理得不好,信息也可以通過快速通道原封不動地傳到下一站,這也被稱為恒等映射(Identity Mapping)。

      于是,自2016 年何愷明提出ResNet開始,殘差連接迅速成為深度神經網絡的默認配置。它解決了深層網絡難以訓練的問題,使得模型深度可以從幾十層擴展到上百層,甚至更深。

      后來出現的 Transformer,看似是一種全新的架構,但LayerNorm + Residual的基本形式,本質也是繼承了ResNet的思想。ResNet也成為了后來幾乎所有大模型的基石。

      然而,隨著模型參數邁向萬億級別,研究者開始覺得單車道的信息吞吐量太小了,它限制了模型思考的廣度。既然單車道不夠用,為什么不把它拓寬成八車道、十六車道?

      一種新的架構HC也就應運而生。這種被稱為“超連接”(Hyper-Connections,簡稱HC)的新架構由字節Seed團隊在論文《Hyper-Connections》中提出。


      它試圖打破傳統的束縛,將原本單一的殘差流拓寬數倍,并允許信息在不同的通道間自由穿插、混合。也就是說,原本的高速路加快車單行道直接變成了一個巨大的、沒有紅綠燈的多層立交橋。

      在 HC 架構中,模型維護多條并行的殘差流,每一層輸出都是這些殘差流的線性組合。這也就意味著,信息不必被壓縮進單一通道,結果就是網絡的表示能力顯著增強。

      在中小規模實驗中,HC的表現確實亮眼,在相同參數量和計算量下,HC模型往往能取得更低的 loss,或者在下游任務上表現更優。

      但問題,很快就暴露出來。HC 在大規模模型訓練中,存在系統性的不穩定問題。

      這種不穩定并不是偶然的訓練失敗,而是隨著層數和訓練步數增加,幾乎必然發生的結構性風險。



      mHC掀起架構革命

      當模型規模放大,HC就開始“失控”了。在DeepSeek的新論文里認為,從數學角度看,這種失控的問題出在殘差的恒等映射被破壞了。

      在 ResNet 中,殘差連接的核心價值不在于加法本身,而在于不論網絡其他部分如何變化,都至少存在一條不被放大的信息通路。

      但在 HC 中,每一層的殘差更新,本質上是一個可學習矩陣對多條殘差流的線性變換。當這種矩陣在層與層之間不斷相乘時,就有可能導致梯度在反向傳播中迅速失控,訓練在某個時間點突然崩掉。

      論文給出的實驗非常直觀,在 27B 參數規模的模型中,HC 架構在訓練早期看似正常,但在約一萬多步后,出現了突發的損失激增,梯度范數也表現出劇烈波動。


      研究團隊計算了復合映射對信號的放大倍數,在HC架構中,這個值的峰值達到了3000,意味著信號在層間傳播時可能被放大數千倍,也可能直接衰減至幾乎消失。


      換句話說,HC 的問題并不是效果不好,而是它缺乏一個像ResNet那樣的安全底座。

      DeepSeek論文的核心思路是將殘差映射矩陣約束到一個特定的流形上,一個由雙隨機矩陣構成的Birkhoff多面體。

      他們認為HC的“多車道”思路是對的,但不能讓車亂跑。于是他們在 HC 的基礎上,加了一套嚴格的數學約束也就是雙隨機矩陣。

      DeepSeek的工作,可以看作是給這個多車道高速路裝上了智能紅綠燈和導流線,規則是你可以變道,但必須保證出來的總車流量等于進去的總車流量。

      這樣既享受了HC帶來的高吞吐量和性能提升,又像ResNet一樣極其穩定,恢復了恒等映射。

      具體來看,在mHC中所有用于混合多條殘差流的矩陣,都必須滿足三個條件:每一行元素之和等于1;每一列元素之和等于1;所有元素非負。

      這類矩陣被稱為雙隨機矩陣。

      乍一看,這是一個非常強的約束,但正是這一約束,帶來了mHC的核心優勢。從穩定性角度看雙隨機矩陣的譜半徑被嚴格限制在1以內,這意味著它不會放大信號,多層相乘后,依然保持有界,梯度既不會爆炸,也不會消失。

      同時,雙隨機矩陣等價于對多條殘差流做加權平均,在本質上仍然保留了ResNet的內核,信息可以自由混合,但不會被無限放大。

      mHC架構其實并非紙上談兵,DeepSeek團隊論文之所以有諸多好評,很大程度上也源于他們在工程可行性上的能力。


      算力壓榨到極致

      在原始HC設計中,多殘差流意味著更高的內存占用和訪問成本,顯存帶寬是現代AI芯片最昂貴的資源,如此高昂的成本在大模型時代是很難讓人接受的。

      DeepSeek團隊展現了他們作為頂級AI實驗室的工程素養,他們沒有停留在算法層面,而是深入到了底層的算子優化。

      團隊為此開發了一系列基礎設施優化,他們使用TileLang框架實現了多個融合內核,將原本分散的操作合并執行以減少內存訪問次數。

      針對Sinkhorn-Knopp算法,他們設計了專門的前向和反向內核,在芯片上重新計算中間結果以避免存儲開銷。

      同時,他們還提出了DualPipe并行策略。在大模型訓練中,計算和通信往往是串行的,也就導致了GPU在等待數據傳輸時經常處于閑置狀態。

      DualPipe巧妙地構建了一個雙向流水線,利用前向傳播和反向傳播在時間上的錯位,讓計算任務和通信任務實現了完美重疊。

      在算力、數據和參數規模不斷膨脹的今天,模型性能的提升越來越像一場刷榜游戲。在這樣的背景下,像mHC 這樣直指底層結構的工作,就顯得尤為重要。

      對于用戶來說,mHC或許不如一個新的模型、新的智能體對生活的改變大,但至少讓人們看到了一群死磕AI底層架構的工程師們的執著,這群修補地基的人,或許才是AI時代最稀缺的人才。



      運營編輯 |曹倩審核|孟莎莎




      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      馬斯克批評諾蘭新品選擇黑人飾演古希臘神話美女,引發輿論爭議

      馬斯克批評諾蘭新品選擇黑人飾演古希臘神話美女,引發輿論爭議

      新浪財經
      2026-02-05 11:02:09
      泰軍:查封柬埔寨邊境園區發現大量詐騙證據包括山寨上海公安局

      泰軍:查封柬埔寨邊境園區發現大量詐騙證據包括山寨上海公安局

      環球趣聞分享
      2026-02-04 16:41:58
      至今仍健在的開國將帥只剩一位,今年103歲高齡,身體依舊硬朗

      至今仍健在的開國將帥只剩一位,今年103歲高齡,身體依舊硬朗

      鯨探所長
      2026-02-05 16:41:09
      農民收入上漲,人均24456元言論翻車,專家喊話種芹菜賺200萬!

      農民收入上漲,人均24456元言論翻車,專家喊話種芹菜賺200萬!

      你食不食油餅
      2026-02-04 21:39:44
      劉虎被刑拘,成都引爆了新年第一重大輿情熱點

      劉虎被刑拘,成都引爆了新年第一重大輿情熱點

      清哲木觀察
      2026-02-05 10:47:21
      微博之夜生圖大混戰:有人美到封神,有人土又胖,黃楊鈿甜偷亮相

      微博之夜生圖大混戰:有人美到封神,有人土又胖,黃楊鈿甜偷亮相

      風月得自難尋
      2026-02-05 20:23:56
      諾獎得主質問川普:和談之年為何成為烏克蘭平民災難之年?

      諾獎得主質問川普:和談之年為何成為烏克蘭平民災難之年?

      史政先鋒
      2026-02-05 20:45:50
      被中國刺激到了?法國立下軍令狀:2038年之前,造出核動力航母

      被中國刺激到了?法國立下軍令狀:2038年之前,造出核動力航母

      別吵吵
      2026-02-06 09:08:29
      男子乘飛機挨緊急出口發現前排缺個座位,感嘆空間堪比商務艙,航司回應

      男子乘飛機挨緊急出口發現前排缺個座位,感嘆空間堪比商務艙,航司回應

      極目新聞
      2026-02-05 12:27:59
      微博之夜紅毯:舒淇好美,姚晨裙子看不懂,李宇春難得沒壓軸出場

      微博之夜紅毯:舒淇好美,姚晨裙子看不懂,李宇春難得沒壓軸出場

      八卦先生
      2026-02-05 21:31:30
      恭喜廣東,易建聯終于回歸了,重返球場,新崗位曝光,朱芳雨期待

      恭喜廣東,易建聯終于回歸了,重返球場,新崗位曝光,朱芳雨期待

      萌蘭聊個球
      2026-02-06 09:47:30
      中國3大通血管食物,紅薯排第3,第1名家家都有,很多人卻不愛吃

      中國3大通血管食物,紅薯排第3,第1名家家都有,很多人卻不愛吃

      江江食研社
      2026-02-03 16:30:06
      小玥兒變化好大!身姿挺拔有氣質,廣州東山口探店活脫一個小東家

      小玥兒變化好大!身姿挺拔有氣質,廣州東山口探店活脫一個小東家

      樂悠悠娛樂
      2026-02-06 08:47:37
      問:一個小縣城,年財政收入不過區區三四億

      問:一個小縣城,年財政收入不過區區三四億

      碧翰烽
      2026-02-05 22:24:13
      真愛還是接盤俠?41歲香港艷星現下嫁山東農村,曾不雅照片滿天飛

      真愛還是接盤俠?41歲香港艷星現下嫁山東農村,曾不雅照片滿天飛

      古事尋蹤記
      2026-02-04 07:10:54
      天津市市管干部任前公示

      天津市市管干部任前公示

      黃河新聞網呂梁頻道
      2026-02-06 10:01:34
      反轉了!居然是演的!女博主徹底涼涼

      反轉了!居然是演的!女博主徹底涼涼

      臺州交通廣播
      2026-02-05 14:13:33
      重磅!高市早苗巨大丑聞被爆出

      重磅!高市早苗巨大丑聞被爆出

      能靜居主人
      2026-02-06 06:47:37
      劉強東父親穿的羽絨服價格被扒,兒子這么有錢,不很正常嗎?

      劉強東父親穿的羽絨服價格被扒,兒子這么有錢,不很正常嗎?

      我心縱橫天地間
      2026-02-03 22:44:27
      斯諾克賽程:決出4強,中國或提前奪冠,2場德比,趙心童復仇戰!

      斯諾克賽程:決出4強,中國或提前奪冠,2場德比,趙心童復仇戰!

      劉姚堯的文字城堡
      2026-02-06 07:39:35
      2026-02-06 10:35:00
      搜狐科技 incentive-icons
      搜狐科技
      搜狐科技官方賬號
      4679文章數 9178關注度
      往期回顧 全部

      科技要聞

      馬斯克究竟想干什么?

      頭條要聞

      肖杰被查 曾任"中國最大地級市"市長

      頭條要聞

      肖杰被查 曾任"中國最大地級市"市長

      體育要聞

      奇才:我學生……獨行俠:成交!

      娛樂要聞

      微博之夜卷入座位風波!楊冪超話淪陷

      財經要聞

      三大指數低開 有色金屬等跌幅居前

      汽車要聞

      李想為全新L9預熱 all in AI造更好的車

      態度原創

      親子
      手機
      本地
      房產
      公開課

      親子要聞

      長大之后腸子都得悔青了

      手機要聞

      iQOO 15 Ultra首銷:2026年首款性能Ultra 4999元起

      本地新聞

      圍觀了北京第一屆黑色羽絨服大賽,我笑瘋了

      房產要聞

      新春三亞置業,看過這個熱盤再說!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版