![]()
作者 | 允毅
連馬斯克、Andrej Karpathy 都紛紛點贊,DeepSeek 和 Kimi 前后腳都盯上的“殘差連接”,到底是什么?
![]()
最近,Kimi 放出一篇重磅新論文,瞄準一個過去十年幾乎沒人動過的 Transformer 底層根基:殘差連接(Residual Connection)。殘差連接由何愷明于 2015 年在 ResNet 論文中提出,此后便成為深度學習領域的標配。
簡單來說,可以把大模型的 Transformer 架構,想象成一支幾十人排成長隊的“傳話小組”,那么殘差連接就像一條規定:每個工人聽完前面所有人的話后,都往里面再補一句,然后原封不動往后傳。
這套規則長這樣:
![]()
但這會帶來一個麻煩:隊尾的工人收到的話,是前面幾十個工人的內容全堆在一起的,越往后話越亂、越長,前面工人說的重點被埋住了,后面工人加的內容也沒人聽得清,AI 就變笨了。這叫“稀釋問題”。
于是,Kimi 想到把“注意力機制”引進來解決這一問題,它提出一個新的規則:“注意力殘差”(Attention Residuals)。如同給工人們配備了“智能篩選器”,不用再全盤收下前面堆出來的大雜燴,可以選擇重點聽前面自己關心的內容。
結果,AI 變得更聰明了。不僅實現了全場景的穩定提升,在研究生級專業考試、高等數學推理、代碼生成、超長文本理解這類真正考驗 AI 硬實力的高難度任務上,更是直接實現了 3-7.5 個點的暴漲。
![]()
而且更省錢了。在 Kimi 自家的大模型架構上驗證顯示可以節約1.25 倍算力,而訓練端到端額外開銷不到 4%,推理延遲增加不到 2%,基本沒什么額外負擔。
![]()
而且它完全適配大模型的縮放定律,模型規模越大,這套規則的優勢越明顯。
Kimi 論文里的精彩關注點
殘差連接之所以能存在這么久,是因為它為 AI 信息的流動開了一條“主干道”,把教 AI 的糾錯信號一路傳下去,從而讓深層網絡更容易訓練,不會把前面的好東西丟掉。
但這有三個致命問題改不了,分別是:
不能挑著聽:不管是負責“抓重點”的工人,還是負責“整理內容”的工人,都只能聽前面堆成一團的話,不能自己選聽誰的
丟了的內容找不回來:前面工人說的重點,一旦被后面的內容蓋住,就再也挖不出來了,AI 聊著聊著就忘了您最開始說的話
內容越堆越多:越往后的工人,必須扯著嗓子喊、加更多內容,才能讓隊尾聽到,不然就被前面的內容蓋住了,教 AI 的時候很容易教亂套
之前也有不少人想要改善這些頑疾,比如 PreNorm 這種,只是調整內容整理的順序,完全不改變殘差的固定累加規則,完全沒改到根子上;或者 MRLA 這類,確實動了規則,但設計太復雜,AI 根本跑不動。
而 Kimi 的靈感,來自于他們發現,“序列維度上的時間問題和深度維度上的曾問題,本質是同一件事”。
當年 AI 讀長句子,只能一個詞一個詞往后傳,前面的內容記不住,后來發明了注意力機制,讓 AI 能自己選句子里哪個詞重要,一下子就解決了。而這和“工人隊伍里傳話的先后順序”,本質上是一樣的。
注意力殘差鏈接的具體做法就是:
1. 每個工人,都能直接聽到前面所有工人的原聲,還能打分,分數高就多聽,分數低就少聽,最后把所有話按分數合起來,再自己加工,傳給下一個人
2. 打分是不固定的:處理數學題的時候,就多聽負責邏輯的工人的話;處理聊天的時候,就多聽負責語氣的工人的話,特別靈活。
而公式也變成了這樣,其中α就是前面所說,智能篩選器給前面每個工人打的“重要性分數”。
![]()
為了讓這一套機制真正落地,Kimi 推出了“省力好用版”的注意力殘差,即“分塊注意力殘差”(Block AttnRes)。
它會把工人分成幾個小組,每個小組內部用標準殘差連接做累加,類似于“小組總結”,而組與組之間再用 Attention 來做選擇性收聽。這樣一來,大大節省了成本開支。
為了進一步優化成本,Kimi 團隊還做了兩項針對性優化:
面向訓練過程的“跨階段緩存”:已經傳過的舊內容直接存在本地不用反復來回發,每次只傳新生成的內容,大幅節省算力、提升訓練效率。
面向推理過程的“兩階段計算策略”:將 AI 生成回復前,先把要用到的歷史內容一次性找齊,再一步步算結果,不用每算一個字都重新翻一遍歷史,響應更快,用戶幾乎感知不到任何延遲。
![]()
最后,Kimi 實際測試了 5 種不同大小的 AI,從 194M 到 528M,分對比了傳統殘差連接、注意力殘差連接和分塊注意力殘差的實際效果。
結果發現:
不管 AI 是大是小,注意力殘差連接都比傳統殘差連接犯錯更少、更聰明
分塊注意力殘差連接,花同樣的錢,能達到傳統殘差連接 1.25 倍算力才能達到的效果
AI 規模越大,分塊版和完整無損版的注意力殘差連接效果越接近,超大 AI 里,兩者幾乎一模一樣
![]()
Kimi 還做了一系列消融實驗,證明注意力殘差連接中的每個設計,都必不可少:
必須用“隨內容變的打分”,如果用固定的分數,效果就很差,甚至不如傳統殘差連接
必須用 softmax 打分,不然 AI 就不會果斷選重點,效果變差
必須先把內容整理通順再打分,不然信息容易蓋住其他人,效果變差
分成 8 個左右的小組,效果最好
Kimi 的新設計給了 OpenAI 大神 Andrej Karpathy 不少啟發,他忍不住深思,“注意力機制”是不是可以運用到更多的地方去?
![]()
有網友直接指出,或許 Transformer 中不少“長期沿用的配置”,都可以動一動了。
![]()
還有網友激動地將 Kimi 奉為“新的 DeepSeek”。
![]()
DeepSeek 與 Kimi 的
解法有什么不同?
雖然都是對殘差連接進行創新,但 DeepSeek 推出的 mHC 卻和 Kimi 的 AttnRes 走出了兩條路。
如果把殘差連接理解成 AI 內部的一套“傳話機制”,那兩家的分歧,首先來自于它們對“問題到底出在哪”的判斷不同。
DeepSeek 的思路是,信息主干道太擠,信息才會亂,那就拓寬多條并行專線,用學習好的規則在專線之間混合、傳遞。
Kimi 的思路則是,信息主干道不能挑重點才會亂,那就給篩選權。
這也帶來了兩者在能力邊界上的關鍵差別,DeepSeek 的做法只能聽到 “混合后的二手內容”,聽不到原版原話,而 Kimi 的做法能直接聽到 “所有前面的原版原話”,想找誰的就找誰的。
兩者都能提升基礎效果,但擅長的領域完全不同,差距主要在復雜任務上。
mHC:主打 “訓練穩定性”,基礎能力有提升,復雜任務乏力
它的核心價值是能把模型做的更深,訓練的時候不會亂套,解決了深層模型訓練崩潰的問題,在基礎的語言理解、閑聊場景有穩定提升。但在需要多步推理、長上下文記憶、精準邏輯回溯的任務上,比如數學、代碼、專業考試、長上下文問答,提升非常有限 。原因正在于它不擅長讓模型“精準找回某個早期關鍵步驟”。
AttnRes:兼顧穩定性 + 復雜推理,長上下文 、邏輯題提升碾壓
它不僅解決了深層模型的訓練穩定性問題,更擅長需要精準回溯、多步推理的高難度任務。
兩者在落地適配性上天差地別。
DeepSeek 的 mHC 更像傷筋動骨的大改造,得把現有 AI 的單流架構完全改成多流并行架構,每層都要加新的流處理模塊,還要重調全套訓練參數,沒法直接替換傳統殘差連接,老模型基本沒法直接升級,跟拆房重蓋沒兩樣,適配成本極高。
而 Kimi 的 AttnRes 是即插即用的替換件,只需要把模型里原來的殘差連接模塊換成 Block AttnRes,其他模型結構、訓練參數全都不用動,老模型直接升級就能拿到效果提升,就像給房子換個好門鎖不用拆墻,適配成本極低。
從已有對比看,Kimi 似乎拿到了更好的“性價比”。
有網友將 Kimi 的 AttnRes 將與 DeepSeek 的 mHC 進行了性能對比,發現在 Kimi 的消融實驗中,Kimi 完整無損版本的 Full AttnRes 性能始終優于 mHC,而 Block AttnRes 的性能與之相當,但 Kimi 的方案需要讀寫的數據量,只有 DeepSeek mHC 的 1/6。
這意味著,在大模型真正走向大規模工程部署的語境下,Kimi 的路線可能具備更強的現實吸引力。
過去十年,Transformer 的大部分創新都集中在注意力、FFN、MoE、位置編碼和訓練數據上。殘差連接則像空氣一樣存在,重要,但過于基礎,以至于幾乎沒人認真去動它。
而現在,DeepSeek 和 Kimi 先后出手,或許正釋放一個信號:當數據紅利逐漸到頂,過去的大模型比拼的是“誰能堆更多算力,那么下一代大模型,或許要開始學會“管信息”來拉開差距。
https://github.com/MoonshotAI/Attention-Residuals/blob/master/Attention_Residuals.pdf
聲明:本文為 AI 前線整理,不代表平臺觀點,未經許可禁止轉載。
會議推薦
OpenClaw 出圈,“養蝦”潮狂熱,開年 Agentic AI 這把火燒得不可謂不旺。在這一熱潮下,自托管 Agent 形態迅速普及:多入口對話、持久記憶、Skills 工具鏈帶來強大生產力。但這背后也暴露了工程化落地的真實難題——權限邊界與隔離運行、Skills 供應鏈安全、可觀測與可追溯、記憶分層與跨場景污染、以及如何把 Agent 納入團隊研發 / 運維流程并形成穩定收益。
針對這一系列挑戰,在 4 月 16-18 日即將舉辦的 QCon 北京站上,我們特別策劃了「OpenClaw 生態實踐」專題,將聚焦一線實踐與踩坑復盤,分享企業如何構建私有 Skills、制定安全護欄、搭建審計與回放機制、建立質量 / 效率指標體系,最終把自托管 Agent 從可用的 Demo 升級為可靠的生產系統。
今日薦文
你也「在看」嗎?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.