![]()
在AI技術迭代的浪潮里,總有一些基礎設計像空氣一樣,重要卻被長期忽視。2015年何愷明提出的殘差連接,就是這樣的存在——它支撐著從ResNet到Transformer的所有深度模型,讓AI能堆到幾十上百層而不 “訓練崩潰”。可就在2026年初,DeepSeek與Kimi先后對它動刀,連馬斯克、Andrej Karpathy都紛紛點贊,一場關于AI信息流動的底層革命,正在悄然發生。
![]()
一、殘差連接:AI的 “信息高速公路”,藏著十年頑疾
要讀懂這場革命,得先搞懂殘差連接到底是什么。
你可以把大模型的Transformer架構,想象成一支幾十人排成的 “傳話小組”:每個人(對應模型的一層)聽完前面所有人的話,自己加工一句,再原封不動傳給下一個人。傳統殘差連接的規則很簡單:輸出=上一層輸入 + 本層加工結果(數學式:hl=hl?1+f(hl?1))。
它的偉大之處,在于解決了深度網絡的 “梯度消失” 難題 —— 就像給信息和糾錯信號修了一條 “高速公路”,讓梯度能直接從輸出層傳回輸入層,不用在層層計算中衰減,讓深層模型訓練成為可能。從ResNet到GPT、Claude,再到國內所有主流大模型,這套設計沿用了整整十年,成了深度學習的 “公理”。
但這套 “等權累加” 的規則,藏著三個致命問題,隨著模型層數越來越多,問題愈發凸顯:
不能挑著聽:每一層只能全盤接收前面所有層的信息,不管有用沒用,無法自主篩選重點;
信息被稀釋:層數越多,前面的關鍵信息越容易被后面的新內容“淹沒”,AI聊著聊著就忘了最初的需求,做復雜推理時更是抓不住核心;
內容越堆越亂:后面的層必須不斷疊加信息,才能讓自己的貢獻被看到,導致信息冗余、訓練容易失控。
過去十年,不是沒人想改。有人調整層歸一化順序(PreNorm),有人嘗試復雜連接(MRLA),但要么沒觸碰到 “等權累加” 的核心,要么設計太復雜、AI跑不動,始終沒能解決根本問題。直到DeepSeek和Kimi先后出手,才真正捅破了這層“窗戶紙”。
二、兩條破局之路:DeepSeek拓寬通道,Kimi賦予篩選權
面對殘差連接的 “稀釋困境”,DeepSeek 和 Kimi 給出了完全不同的解法,一個走 “拓寬通道” 的路線,一個走 “智能篩選” 的路線,卻都戳中了痛點。
1. DeepSeek mHC:多流并行,用數學約束穩住訓練
DeepSeek的思路很直接:信息主干道太擠,那就拓寬多條并行專線。
它提出的mHC(流形約束超連接),把傳統單條殘差流,擴展成多條并行的 “信息專線”,讓模型自己學習每條專線的權重,靈活混合信息。但問題很快出現:無約束的權重矩陣會導致信號爆炸——在270億參數模型中,信號放大倍數可達3000倍,訓練直接崩潰。
于是DeepSeek用了一個精妙的數學解法:雙隨機矩陣約束。通過Sinkhorn-Knop 算法,把權重矩陣限制在 “每行之和為1、每列之和為 1” 的幾何空間里,既保留了多流并行的優勢,又保證信號不會無限放大,徹底解決了深層模型的訓練穩定性問題。
mHC的優勢很明確:主打訓練穩定,基礎能力全面提升。在語言理解、日常閑聊等基礎場景,效果穩定且模型能做得更深。但它的短板也很突出:只能聽到 “混合后的二手信息”,無法直接回溯早期關鍵步驟,在數學推理、代碼生成、長文本理解等復雜任務上,提升非常有限。而且它是 “傷筋動骨” 的大改造,需要把單流架構改成多流并行,老模型幾乎無法直接升級,適配成本極高。
2. Kimi AttnRes:注意力賦能,即插即用的 “智能篩選器”
Kimi的解法更顛覆:信息亂不是因為通道窄,而是因為不能挑重點,那就給每一層 “篩選權”。
它提出的注意力殘差(AttnRes),把注意力機制引入殘差連接 —— 相當于給每個 “傳話工人” 配了一個智能篩選器:不再全盤接收前面的信息,而是能直接聽到前面所有層的 “原聲”,并給每個信息打分,分數高的多聽、分數低的少聽,最后按權重融合,再加工傳遞。
簡單說,傳統殘差是 “一股腦全加”,AttnRes是 “按需挑選、加權融合”。處理數學題時,模型會多聽負責邏輯推理的層;處理聊天時,會多聽負責語氣理解的層,靈活度大幅提升。為了落地,Kimi還推出了 “分塊注意力殘差(Block AttnRes)”,把層分成小組,既保證效果,又控制算力開銷。
![]()
AttnRes的優勢堪稱 “全能”:兼顧訓練穩定與復雜推理,長上下文、邏輯題提升碾壓傳統方案。實驗顯示,它在研究生級專業考試、高等數學推理、代碼生成等硬核任務上,直接實現3-7.5個點的暴漲;還能節約1.25倍算力,訓練額外開銷不到4%,推理延遲增加不到2%。更關鍵的是,它是 “即插即用” 的替換件 —— 只需要把傳統殘差模塊換成Block AttnRes,其他結構、參數全不用動,老模型直接升級就能受益,適配成本極低。
![]()
三、性價比對決:Kimi AttnRes 的工程優勢更突出
從性能到落地,兩家方案的差距一目了然:
能力邊界:mHC擅長基礎場景與訓練穩定,復雜推理乏力;AttnRes兼顧穩定與復雜任務,長上下文、精準回溯能力更強;
落地成本:mHC是 “拆房重蓋”,架構重構、參數重調,適配難度大;AttnRes是 “換門鎖”,即插即用,老模型無縫升級;
算力效率:Kimi的Block AttnRes性能與mHC相當,但讀寫數據量僅為mHC的 1/6,在大規模工程部署中,性價比優勢明顯。
這也是為什么Kimi的方案能獲得馬斯克、Andrej Karpathy的高度認可 —— 它不僅解決了技術問題,更貼合大模型規模化落地的現實需求。
四、底層革命的信號:AI 競爭從 “堆算力” 轉向 “管信息”
DeepSeek與Kimi的先后突破,釋放了一個關鍵信號:當數據紅利逐漸見頂,大模型的競爭邏輯正在改變。
過去十年,AI比拼的是 “誰能堆更多參數、更多算力、更多數據”;而現在,創新開始回歸底層架構與信息流動效率。殘差連接作為Transformer的 “根基”,被重新審視和改造,意味著AI開始從 “粗放式堆規模”,轉向 “精細化管信息”—— 讓每一層信息都能被高效利用,讓模型在有限算力下,實現能力的指數級提升。
這場革命才剛剛開始。Andrej Karpathy已經開始思考:注意力機制還能運用到Transformer的哪些角落?業內也在熱議:那些長期沿用的 “默認配置”,是不是都該被重新審視?
對于普通用戶來說,這場底層革命的影響會逐漸顯現:未來的AI會更 “聰明”—— 記得住長文本、解得了復雜題、寫得出精準代碼,同時訓練和推理成本更低,AI服務會更普惠、更強大。
從何愷明的殘差連接,到DeepSeek的mHC,再到Kimi的AttnRes,AI底層架構的每一次微小突破,都在推動整個行業向前。這場關于 “信息流動” 的革命,或許就是下一代大模型的核心競爭力所在。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.