網易首頁 > 網易號 > 正文申請入駐

融資 1200億后 Kimi 再扔王牌，新架構爆改 Transformer 老配件，比 DeepSeek 同款還省錢

2026-03-17 15:53:35　來源: AI前線

北京舉報

分享至

作者 | 允毅

連馬斯克、Andrej Karpathy 都紛紛點贊，DeepSeek 和 Kimi 前后腳都盯上的“殘差連接”，到底是什么？

最近，Kimi 放出一篇重磅新論文，瞄準一個過去十年幾乎沒人動過的 Transformer 底層根基：殘差連接（Residual Connection）。殘差連接由何愷明于 2015 年在 ResNet 論文中提出，此后便成為深度學習領域的標配。

簡單來說，可以把大模型的 Transformer 架構，想象成一支幾十人排成長隊的“傳話小組”，那么殘差連接就像一條規定：每個工人聽完前面所有人的話后，都往里面再補一句，然后原封不動往后傳。

這套規則長這樣：

但這會帶來一個麻煩：隊尾的工人收到的話，是前面幾十個工人的內容全堆在一起的，越往后話越亂、越長，前面工人說的重點被埋住了，后面工人加的內容也沒人聽得清，AI 就變笨了。這叫“稀釋問題”。

于是，Kimi 想到把“注意力機制”引進來解決這一問題，它提出一個新的規則：“注意力殘差”（Attention Residuals）。如同給工人們配備了“智能篩選器”，不用再全盤收下前面堆出來的大雜燴，可以選擇重點聽前面自己關心的內容。

結果，AI 變得更聰明了。不僅實現了全場景的穩定提升，在研究生級專業考試、高等數學推理、代碼生成、超長文本理解這類真正考驗 AI 硬實力的高難度任務上，更是直接實現了 3-7.5 個點的暴漲。

而且更省錢了。在 Kimi 自家的大模型架構上驗證顯示可以節約1.25 倍算力，而訓練端到端額外開銷不到 4%，推理延遲增加不到 2%，基本沒什么額外負擔。

而且它完全適配大模型的縮放定律，模型規模越大，這套規則的優勢越明顯。

Kimi 論文里的精彩關注點

殘差連接之所以能存在這么久，是因為它為 AI 信息的流動開了一條“主干道”，把教 AI 的糾錯信號一路傳下去，從而讓深層網絡更容易訓練，不會把前面的好東西丟掉。

但這有三個致命問題改不了，分別是：

不能挑著聽：不管是負責“抓重點”的工人，還是負責“整理內容”的工人，都只能聽前面堆成一團的話，不能自己選聽誰的
丟了的內容找不回來：前面工人說的重點，一旦被后面的內容蓋住，就再也挖不出來了，AI 聊著聊著就忘了您最開始說的話
內容越堆越多：越往后的工人，必須扯著嗓子喊、加更多內容，才能讓隊尾聽到，不然就被前面的內容蓋住了，教 AI 的時候很容易教亂套

之前也有不少人想要改善這些頑疾，比如 PreNorm 這種，只是調整內容整理的順序，完全不改變殘差的固定累加規則，完全沒改到根子上；或者 MRLA 這類，確實動了規則，但設計太復雜，AI 根本跑不動。

而 Kimi 的靈感，來自于他們發現，“序列維度上的時間問題和深度維度上的曾問題，本質是同一件事”。

當年 AI 讀長句子，只能一個詞一個詞往后傳，前面的內容記不住，后來發明了注意力機制，讓 AI 能自己選句子里哪個詞重要，一下子就解決了。而這和“工人隊伍里傳話的先后順序”，本質上是一樣的。

注意力殘差鏈接的具體做法就是：

1. 每個工人，都能直接聽到前面所有工人的原聲，還能打分，分數高就多聽，分數低就少聽，最后把所有話按分數合起來，再自己加工，傳給下一個人

2. 打分是不固定的：處理數學題的時候，就多聽負責邏輯的工人的話；處理聊天的時候，就多聽負責語氣的工人的話，特別靈活。

而公式也變成了這樣，其中α就是前面所說，智能篩選器給前面每個工人打的“重要性分數”。

為了讓這一套機制真正落地，Kimi 推出了“省力好用版”的注意力殘差，即“分塊注意力殘差”（Block AttnRes）。

它會把工人分成幾個小組，每個小組內部用標準殘差連接做累加，類似于“小組總結”，而組與組之間再用 Attention 來做選擇性收聽。這樣一來，大大節省了成本開支。

為了進一步優化成本，Kimi 團隊還做了兩項針對性優化：

面向訓練過程的“跨階段緩存”：已經傳過的舊內容直接存在本地不用反復來回發，每次只傳新生成的內容，大幅節省算力、提升訓練效率。
面向推理過程的“兩階段計算策略”：將 AI 生成回復前，先把要用到的歷史內容一次性找齊，再一步步算結果，不用每算一個字都重新翻一遍歷史，響應更快，用戶幾乎感知不到任何延遲。

最后，Kimi 實際測試了 5 種不同大小的 AI，從 194M 到 528M，分對比了傳統殘差連接、注意力殘差連接和分塊注意力殘差的實際效果。

結果發現：

不管 AI 是大是小，注意力殘差連接都比傳統殘差連接犯錯更少、更聰明
分塊注意力殘差連接，花同樣的錢，能達到傳統殘差連接 1.25 倍算力才能達到的效果
AI 規模越大，分塊版和完整無損版的注意力殘差連接效果越接近，超大 AI 里，兩者幾乎一模一樣

Kimi 還做了一系列消融實驗，證明注意力殘差連接中的每個設計，都必不可少：

必須用“隨內容變的打分”，如果用固定的分數，效果就很差，甚至不如傳統殘差連接
必須用 softmax 打分，不然 AI 就不會果斷選重點，效果變差
必須先把內容整理通順再打分，不然信息容易蓋住其他人，效果變差
分成 8 個左右的小組，效果最好

Kimi 的新設計給了 OpenAI 大神 Andrej Karpathy 不少啟發，他忍不住深思，“注意力機制”是不是可以運用到更多的地方去？

有網友直接指出，或許 Transformer 中不少“長期沿用的配置”，都可以動一動了。

還有網友激動地將 Kimi 奉為“新的 DeepSeek”。

DeepSeek 與 Kimi 的

解法有什么不同？

雖然都是對殘差連接進行創新，但 DeepSeek 推出的 mHC 卻和 Kimi 的 AttnRes 走出了兩條路。

如果把殘差連接理解成 AI 內部的一套“傳話機制”，那兩家的分歧，首先來自于它們對“問題到底出在哪”的判斷不同。

DeepSeek 的思路是，信息主干道太擠，信息才會亂，那就拓寬多條并行專線，用學習好的規則在專線之間混合、傳遞。

Kimi 的思路則是，信息主干道不能挑重點才會亂，那就給篩選權。

這也帶來了兩者在能力邊界上的關鍵差別，DeepSeek 的做法只能聽到 “混合后的二手內容”，聽不到原版原話，而 Kimi 的做法能直接聽到 “所有前面的原版原話”，想找誰的就找誰的。

兩者都能提升基礎效果，但擅長的領域完全不同，差距主要在復雜任務上。

mHC：主打 “訓練穩定性”，基礎能力有提升，復雜任務乏力

它的核心價值是能把模型做的更深，訓練的時候不會亂套，解決了深層模型訓練崩潰的問題，在基礎的語言理解、閑聊場景有穩定提升。但在需要多步推理、長上下文記憶、精準邏輯回溯的任務上，比如數學、代碼、專業考試、長上下文問答，提升非常有限。原因正在于它不擅長讓模型“精準找回某個早期關鍵步驟”。

AttnRes：兼顧穩定性 + 復雜推理，長上下文、邏輯題提升碾壓

它不僅解決了深層模型的訓練穩定性問題，更擅長需要精準回溯、多步推理的高難度任務。

兩者在落地適配性上天差地別。

DeepSeek 的 mHC 更像傷筋動骨的大改造，得把現有 AI 的單流架構完全改成多流并行架構，每層都要加新的流處理模塊，還要重調全套訓練參數，沒法直接替換傳統殘差連接，老模型基本沒法直接升級，跟拆房重蓋沒兩樣，適配成本極高。

而 Kimi 的 AttnRes 是即插即用的替換件，只需要把模型里原來的殘差連接模塊換成 Block AttnRes，其他模型結構、訓練參數全都不用動，老模型直接升級就能拿到效果提升，就像給房子換個好門鎖不用拆墻，適配成本極低。

從已有對比看，Kimi 似乎拿到了更好的“性價比”。

有網友將 Kimi 的 AttnRes 將與 DeepSeek 的 mHC 進行了性能對比，發現在 Kimi 的消融實驗中，Kimi 完整無損版本的 Full AttnRes 性能始終優于 mHC，而 Block AttnRes 的性能與之相當，但 Kimi 的方案需要讀寫的數據量，只有 DeepSeek mHC 的 1/6。

這意味著，在大模型真正走向大規模工程部署的語境下，Kimi 的路線可能具備更強的現實吸引力。

過去十年，Transformer 的大部分創新都集中在注意力、FFN、MoE、位置編碼和訓練數據上。殘差連接則像空氣一樣存在，重要，但過于基礎，以至于幾乎沒人認真去動它。

而現在，DeepSeek 和 Kimi 先后出手，或許正釋放一個信號：當數據紅利逐漸到頂，過去的大模型比拼的是“誰能堆更多算力，那么下一代大模型，或許要開始學會“管信息”來拉開差距。

https://github.com/MoonshotAI/Attention-Residuals/blob/master/Attention_Residuals.pdf

聲明：本文為 AI 前線整理，不代表平臺觀點，未經許可禁止轉載。

會議推薦

OpenClaw 出圈，“養蝦”潮狂熱，開年 Agentic AI 這把火燒得不可謂不旺。在這一熱潮下，自托管 Agent 形態迅速普及：多入口對話、持久記憶、Skills 工具鏈帶來強大生產力。但這背后也暴露了工程化落地的真實難題——權限邊界與隔離運行、Skills 供應鏈安全、可觀測與可追溯、記憶分層與跨場景污染、以及如何把 Agent 納入團隊研發 / 運維流程并形成穩定收益。

針對這一系列挑戰，在 4 月 16-18 日即將舉辦的 QCon 北京站上，我們特別策劃了「OpenClaw 生態實踐」專題，將聚焦一線實踐與踩坑復盤，分享企業如何構建私有 Skills、制定安全護欄、搭建審計與回放機制、建立質量 / 效率指標體系，最終把自托管 Agent 從可用的 Demo 升級為可靠的生產系統。

今日薦文

你也「在看」嗎？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.