![]()
![]()
出品|搜狐科技
作者|常博碩
編輯| 楊 錦
果然,只要一到假期,DeepSeek就會更新點什么。
這個元旦,DeepSeek發表了一篇新論文《mHC: Manifold-Constrained Hyper-Connections》提出了一種新的架構——流形約束超連接,以解決傳統架構在大模型訓練中的不穩定問題。
更值得關注的是,論文作者最后一位赫然寫著梁文鋒的大名。
![]()
在此之前,梁文鋒幾乎很少在技術論文中署名,最多是掛個通訊作者。這次直接參與論文撰寫,足以可見DeepSeek對這篇論文的重視程度。
而細讀之后才發現,這篇論文可以稱得上是一場革命性的創新,革的正是何愷明們建立的深度學習基石ResNet的命。
作為計算機視覺領域的頂尖科學家,何愷明畢業于清華大學物理系,現任麻省理工學院電氣工程與計算機科學系副教授(終身教職)。其最著名的成就,就是提出了ResNet架構,解決了深度神經網絡中“越深越難訓練”的根本性問題,ResNet也被稱為現代深度學習發展史上的一座里程碑。
![]()
十年未變的“底層共識”被改變
要理解DeepSeek這篇論文分量,我們得回到十年前。如果把那時的神經網絡比喻成一座高塔,在當時,隨著塔的層數堆疊過多,地基傳來的信號往往在半路就消失殆盡,很容易導致塔身崩塌。
直到何愷明等人提出了劃時代的ResNet(殘差網絡),這個問題才被解決。
在 ResNet之前,深度神經網絡有一個致命問題,那就是網絡一深,反而學不會了。原因很簡單,梯度會在層層傳遞中消失或爆炸,前面的信息傳不到后面。
于是當時還在微軟亞洲研究院的何愷明等人就發表了一篇名為《Deep Residual Learning for Image Recognition》的論文,這篇論文也是AI歷史上引用率最高的殿堂級論文之一。
可以這樣理解,原本信息過神經網絡層時會被攔截處理,可以理解為一條高速公路中有很多收費站,導致信號像公路上的車流一樣不停被收費站攔截,運行不暢。
而ResNet相當于在旁邊修了一條直通的“快速通道”,哪怕收費站處理得不好,信息也可以通過快速通道原封不動地傳到下一站,這也被稱為恒等映射(Identity Mapping)。
于是,自2016 年何愷明提出ResNet開始,殘差連接迅速成為深度神經網絡的默認配置。它解決了深層網絡難以訓練的問題,使得模型深度可以從幾十層擴展到上百層,甚至更深。
后來出現的 Transformer,看似是一種全新的架構,但LayerNorm + Residual的基本形式,本質也是繼承了ResNet的思想。ResNet也成為了后來幾乎所有大模型的基石。
然而,隨著模型參數邁向萬億級別,研究者開始覺得單車道的信息吞吐量太小了,它限制了模型思考的廣度。既然單車道不夠用,為什么不把它拓寬成八車道、十六車道?
一種新的架構HC也就應運而生。這種被稱為“超連接”(Hyper-Connections,簡稱HC)的新架構由字節Seed團隊在論文《Hyper-Connections》中提出。
![]()
它試圖打破傳統的束縛,將原本單一的殘差流拓寬數倍,并允許信息在不同的通道間自由穿插、混合。也就是說,原本的高速路加快車單行道直接變成了一個巨大的、沒有紅綠燈的多層立交橋。
在 HC 架構中,模型維護多條并行的殘差流,每一層輸出都是這些殘差流的線性組合。這也就意味著,信息不必被壓縮進單一通道,結果就是網絡的表示能力顯著增強。
在中小規模實驗中,HC的表現確實亮眼,在相同參數量和計算量下,HC模型往往能取得更低的 loss,或者在下游任務上表現更優。
但問題,很快就暴露出來。HC 在大規模模型訓練中,存在系統性的不穩定問題。
這種不穩定并不是偶然的訓練失敗,而是隨著層數和訓練步數增加,幾乎必然發生的結構性風險。
![]()
![]()
mHC掀起架構革命
當模型規模放大,HC就開始“失控”了。在DeepSeek的新論文里認為,從數學角度看,這種失控的問題出在殘差的恒等映射被破壞了。
在 ResNet 中,殘差連接的核心價值不在于加法本身,而在于不論網絡其他部分如何變化,都至少存在一條不被放大的信息通路。
但在 HC 中,每一層的殘差更新,本質上是一個可學習矩陣對多條殘差流的線性變換。當這種矩陣在層與層之間不斷相乘時,就有可能導致梯度在反向傳播中迅速失控,訓練在某個時間點突然崩掉。
論文給出的實驗非常直觀,在 27B 參數規模的模型中,HC 架構在訓練早期看似正常,但在約一萬多步后,出現了突發的損失激增,梯度范數也表現出劇烈波動。
![]()
研究團隊計算了復合映射對信號的放大倍數,在HC架構中,這個值的峰值達到了3000,意味著信號在層間傳播時可能被放大數千倍,也可能直接衰減至幾乎消失。
![]()
換句話說,HC 的問題并不是效果不好,而是它缺乏一個像ResNet那樣的安全底座。
DeepSeek論文的核心思路是將殘差映射矩陣約束到一個特定的流形上,一個由雙隨機矩陣構成的Birkhoff多面體。
他們認為HC的“多車道”思路是對的,但不能讓車亂跑。于是他們在 HC 的基礎上,加了一套嚴格的數學約束也就是雙隨機矩陣。
DeepSeek的工作,可以看作是給這個多車道高速路裝上了智能紅綠燈和導流線,規則是你可以變道,但必須保證出來的總車流量等于進去的總車流量。
這樣既享受了HC帶來的高吞吐量和性能提升,又像ResNet一樣極其穩定,恢復了恒等映射。
具體來看,在mHC中所有用于混合多條殘差流的矩陣,都必須滿足三個條件:每一行元素之和等于1;每一列元素之和等于1;所有元素非負。
這類矩陣被稱為雙隨機矩陣。
乍一看,這是一個非常強的約束,但正是這一約束,帶來了mHC的核心優勢。從穩定性角度看雙隨機矩陣的譜半徑被嚴格限制在1以內,這意味著它不會放大信號,多層相乘后,依然保持有界,梯度既不會爆炸,也不會消失。
同時,雙隨機矩陣等價于對多條殘差流做加權平均,在本質上仍然保留了ResNet的內核,信息可以自由混合,但不會被無限放大。
mHC架構其實并非紙上談兵,DeepSeek團隊論文之所以有諸多好評,很大程度上也源于他們在工程可行性上的能力。
![]()
算力壓榨到極致
在原始HC設計中,多殘差流意味著更高的內存占用和訪問成本,顯存帶寬是現代AI芯片最昂貴的資源,如此高昂的成本在大模型時代是很難讓人接受的。
DeepSeek團隊展現了他們作為頂級AI實驗室的工程素養,他們沒有停留在算法層面,而是深入到了底層的算子優化。
團隊為此開發了一系列基礎設施優化,他們使用TileLang框架實現了多個融合內核,將原本分散的操作合并執行以減少內存訪問次數。
針對Sinkhorn-Knopp算法,他們設計了專門的前向和反向內核,在芯片上重新計算中間結果以避免存儲開銷。
同時,他們還提出了DualPipe并行策略。在大模型訓練中,計算和通信往往是串行的,也就導致了GPU在等待數據傳輸時經常處于閑置狀態。
DualPipe巧妙地構建了一個雙向流水線,利用前向傳播和反向傳播在時間上的錯位,讓計算任務和通信任務實現了完美重疊。
在算力、數據和參數規模不斷膨脹的今天,模型性能的提升越來越像一場刷榜游戲。在這樣的背景下,像mHC 這樣直指底層結構的工作,就顯得尤為重要。
對于用戶來說,mHC或許不如一個新的模型、新的智能體對生活的改變大,但至少讓人們看到了一群死磕AI底層架構的工程師們的執著,這群修補地基的人,或許才是AI時代最稀缺的人才。
![]()
![]()
運營編輯 |曹倩審核|孟莎莎
![]()
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.