網易首頁 > 網易號 > 正文申請入駐

估值1200億！Kimi新架構爆改Transformer，算力成本直降

2026-03-18 09:26:29　來源: 魏家東

北京舉報

分享至

在AI技術迭代的浪潮里，總有一些基礎設計像空氣一樣，重要卻被長期忽視。2015年何愷明提出的殘差連接，就是這樣的存在——它支撐著從ResNet到Transformer的所有深度模型，讓AI能堆到幾十上百層而不 “訓練崩潰”。可就在2026年初，DeepSeek與Kimi先后對它動刀，連馬斯克、Andrej Karpathy都紛紛點贊，一場關于AI信息流動的底層革命，正在悄然發生。

一、殘差連接：AI的 “信息高速公路”，藏著十年頑疾

要讀懂這場革命，得先搞懂殘差連接到底是什么。

你可以把大模型的Transformer架構，想象成一支幾十人排成的 “傳話小組”：每個人（對應模型的一層）聽完前面所有人的話，自己加工一句，再原封不動傳給下一個人。傳統殘差連接的規則很簡單：輸出=上一層輸入 + 本層加工結果（數學式：hl=hl?1+f(hl?1)）。

它的偉大之處，在于解決了深度網絡的 “梯度消失” 難題 —— 就像給信息和糾錯信號修了一條 “高速公路”，讓梯度能直接從輸出層傳回輸入層，不用在層層計算中衰減，讓深層模型訓練成為可能。從ResNet到GPT、Claude，再到國內所有主流大模型，這套設計沿用了整整十年，成了深度學習的 “公理”。

但這套 “等權累加” 的規則，藏著三個致命問題，隨著模型層數越來越多，問題愈發凸顯：

不能挑著聽：每一層只能全盤接收前面所有層的信息，不管有用沒用，無法自主篩選重點；

信息被稀釋：層數越多，前面的關鍵信息越容易被后面的新內容“淹沒”，AI聊著聊著就忘了最初的需求，做復雜推理時更是抓不住核心；

內容越堆越亂：后面的層必須不斷疊加信息，才能讓自己的貢獻被看到，導致信息冗余、訓練容易失控。

過去十年，不是沒人想改。有人調整層歸一化順序（PreNorm），有人嘗試復雜連接（MRLA），但要么沒觸碰到 “等權累加” 的核心，要么設計太復雜、AI跑不動，始終沒能解決根本問題。直到DeepSeek和Kimi先后出手，才真正捅破了這層“窗戶紙”。

二、兩條破局之路：DeepSeek拓寬通道，Kimi賦予篩選權

面對殘差連接的 “稀釋困境”，DeepSeek 和 Kimi 給出了完全不同的解法，一個走 “拓寬通道” 的路線，一個走 “智能篩選” 的路線，卻都戳中了痛點。

1. DeepSeek mHC：多流并行，用數學約束穩住訓練

DeepSeek的思路很直接：信息主干道太擠，那就拓寬多條并行專線。

它提出的mHC（流形約束超連接），把傳統單條殘差流，擴展成多條并行的 “信息專線”，讓模型自己學習每條專線的權重，靈活混合信息。但問題很快出現：無約束的權重矩陣會導致信號爆炸——在270億參數模型中，信號放大倍數可達3000倍，訓練直接崩潰。

于是DeepSeek用了一個精妙的數學解法：雙隨機矩陣約束。通過Sinkhorn-Knop 算法，把權重矩陣限制在 “每行之和為1、每列之和為 1” 的幾何空間里，既保留了多流并行的優勢，又保證信號不會無限放大，徹底解決了深層模型的訓練穩定性問題。

mHC的優勢很明確：主打訓練穩定，基礎能力全面提升。在語言理解、日常閑聊等基礎場景，效果穩定且模型能做得更深。但它的短板也很突出：只能聽到 “混合后的二手信息”，無法直接回溯早期關鍵步驟，在數學推理、代碼生成、長文本理解等復雜任務上，提升非常有限。而且它是 “傷筋動骨” 的大改造，需要把單流架構改成多流并行，老模型幾乎無法直接升級，適配成本極高。

2. Kimi AttnRes：注意力賦能，即插即用的 “智能篩選器”

Kimi的解法更顛覆：信息亂不是因為通道窄，而是因為不能挑重點，那就給每一層 “篩選權”。

它提出的注意力殘差（AttnRes），把注意力機制引入殘差連接 —— 相當于給每個 “傳話工人” 配了一個智能篩選器：不再全盤接收前面的信息，而是能直接聽到前面所有層的 “原聲”，并給每個信息打分，分數高的多聽、分數低的少聽，最后按權重融合，再加工傳遞。

簡單說，傳統殘差是 “一股腦全加”，AttnRes是 “按需挑選、加權融合”。處理數學題時，模型會多聽負責邏輯推理的層；處理聊天時，會多聽負責語氣理解的層，靈活度大幅提升。為了落地，Kimi還推出了 “分塊注意力殘差（Block AttnRes）”，把層分成小組，既保證效果，又控制算力開銷。

AttnRes的優勢堪稱 “全能”：兼顧訓練穩定與復雜推理，長上下文、邏輯題提升碾壓傳統方案。實驗顯示，它在研究生級專業考試、高等數學推理、代碼生成等硬核任務上，直接實現3-7.5個點的暴漲；還能節約1.25倍算力，訓練額外開銷不到4%，推理延遲增加不到2%。更關鍵的是，它是 “即插即用” 的替換件 —— 只需要把傳統殘差模塊換成Block AttnRes，其他結構、參數全不用動，老模型直接升級就能受益，適配成本極低。

三、性價比對決：Kimi AttnRes 的工程優勢更突出

從性能到落地，兩家方案的差距一目了然：

能力邊界：mHC擅長基礎場景與訓練穩定，復雜推理乏力；AttnRes兼顧穩定與復雜任務，長上下文、精準回溯能力更強；

落地成本：mHC是 “拆房重蓋”，架構重構、參數重調，適配難度大；AttnRes是 “換門鎖”，即插即用，老模型無縫升級；

算力效率：Kimi的Block AttnRes性能與mHC相當，但讀寫數據量僅為mHC的 1/6，在大規模工程部署中，性價比優勢明顯。

這也是為什么Kimi的方案能獲得馬斯克、Andrej Karpathy的高度認可 —— 它不僅解決了技術問題，更貼合大模型規模化落地的現實需求。

四、底層革命的信號：AI 競爭從 “堆算力” 轉向 “管信息”

DeepSeek與Kimi的先后突破，釋放了一個關鍵信號：當數據紅利逐漸見頂，大模型的競爭邏輯正在改變。

過去十年，AI比拼的是 “誰能堆更多參數、更多算力、更多數據”；而現在，創新開始回歸底層架構與信息流動效率。殘差連接作為Transformer的 “根基”，被重新審視和改造，意味著AI開始從 “粗放式堆規模”，轉向 “精細化管信息”—— 讓每一層信息都能被高效利用，讓模型在有限算力下，實現能力的指數級提升。

這場革命才剛剛開始。Andrej Karpathy已經開始思考：注意力機制還能運用到Transformer的哪些角落？業內也在熱議：那些長期沿用的 “默認配置”，是不是都該被重新審視？

對于普通用戶來說，這場底層革命的影響會逐漸顯現：未來的AI會更 “聰明”—— 記得住長文本、解得了復雜題、寫得出精準代碼，同時訓練和推理成本更低，AI服務會更普惠、更強大。

從何愷明的殘差連接，到DeepSeek的mHC，再到Kimi的AttnRes，AI底層架構的每一次微小突破，都在推動整個行業向前。這場關于 “信息流動” 的革命，或許就是下一代大模型的核心競爭力所在。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.