![]()
在過去兩年,大語言模型的極限,已經不再是參數量的堆疊,而是推理速度與算力效率的極限。所有模型都在變聰明,但也都變得“太重”——尤其是在長上下文和強化學習場景下,標準的 Softmax 全注意力機制讓模型一次推理就要吃掉海量顯存和時間。
Moonshot 的團隊在這篇論文中,提出了一個讓人眼前一亮的架構:Kimi Linear。它的目標很直接——在不犧牲性能的前提下,讓注意力計算變成“線性”的。
結果是:在公平訓練下,Kimi Linear 不僅在 MMLU、RULER 等主流基準上超過了傳統全注意力模型,還實現了長達 6 倍的解碼加速。
為什么所有人都卡在“注意力”的墻上
Transformer 誕生以來,AI 的爆發式增長正是靠這堵墻撐起來的:它讓模型能“全局看見”,能把一句話、一段代碼、甚至整本書的上下文串聯成連續的理解。但問題也在這里——它太貴、太慢、太重。
所謂“全注意力”,就是每個 token 都要和其他所有 token 計算相似度。數學上這意味著 O(n^2)的復雜度:上下文長度翻十倍,算力需求翻一百倍。模型越聰明,推理成本越像雪球一樣滾大。短短幾千字的對話還好,一旦拉長到幾十萬、上百萬字節,顯卡的顯存就像泄洪的水庫,怎么加都不夠。
更棘手的是記憶開銷。每次生成新 token,模型都要把之前所有的 key 和 value 緩存在顯存里——這就是所謂的 KV cache。它像一列不斷加長的火車,拉得越遠越吃力。到最后,你的顯卡不是在計算,而是在搬數據。于是長上下文、長軌跡、強化學習這些更高層的任務,幾乎都被這堵墻擋住了。
理論上工程手段能挪動一點空間,比如 FlashAttention、張量并行、KV 量化,但這些都是“摳常數”的優化。你再怎么摳,也改變不了平方級復雜度的宿命。這就像在高速公路上修更平的柏油,但車流量已經多到要換立交橋——結構不變,問題不會根本解決。
于是人們把希望寄托在線性注意力(Linear Attention)上。它把復雜度從平方降到線性,用更像 RNN 的記憶方式去近似全注意力。但新的問題又出現了:線性注意力“便宜是便宜”,可記憶力不行。它壓縮信息太狠,短序列還能用,長序列就開始遺忘。尤其是語言、代碼、數學推理這些任務里,模型要能精準地回憶上下文,而線性結構往往記不住關鍵點。
更微妙的一點是位置編碼的錯配。全注意力里,RoPE(旋轉位置編碼)早已成了標準配置,它幫模型理解“前后順序”。可一旦改用線性結構,RoPE 的作用就不再穩定。很多混合模型出現“短期靈敏、長期失真”的問題——短文表現很好,一旦拉長,上下文就斷了。
Kimi 的論文指出了另一個關鍵事實:當 AI 模型進入“長軌跡推理時代”,這些結構性缺陷會被成倍放大。大模型不再只是在寫句子、翻譯,而是在做推理、規劃、甚至多步決策(RL、Agent 場景)。模型的思考路徑被無限拉長,每一步都要記住之前所有動作的狀態。這時,全注意力的平方爆炸、KV 緩存的線性堆積、位置機制的錯配、以及線性注意力表達力的不足,全都交織成一堵墻。
你可以理解為:AI 正在試圖跨越一個“時空瓶頸”。模型既想看得遠、記得久,又要算得快、用得省;但在舊結構下,這四個目標是互相拉扯的。工程手段治標不治本,只有重新發明結構,才能同時滿足“長”“快”“穩”“省”。
這正是 Kimi Linear 誕生的背景。它不是簡單把注意力改成線性,而是重新分工:誰來負責記憶,誰來負責全局,誰來負責位置感知。它用細粒度門控替代粗放遺忘,用高效 DPLR 結構壓縮算子,用 3:1 的混合布局維持全局一致性。結果是在不丟質量的前提下,推理速度提升六倍,KV 占用減掉四分之三。
Kimi Delta Attention:一次“記憶革命”
Kimi Linear 的核心模塊叫Kimi Delta Attention(KDA)。
![]()
它的靈感來自 Gated DeltaNet,但在此基礎上引入了一個關鍵變化:把原本粗粒度的“遺忘門”(forget gate)改成了逐通道可學習的細粒度門控(channel-wise gating)。
以往模型的記憶衰減是“一刀切”的,而 KDA 能讓不同維度的信息以不同速度“遺忘”或“保留”。結果是,模型能在有限狀態下實現更精準的上下文控制——既不會遺忘關鍵信息,也能更快舍棄無關噪聲。
更重要的是,KDA 在底層數學上采用了一種高效的Diagonal-Plus-Low-Rank(DPLR)近似結構,但進行了硬件優化:它移除了冗余矩陣乘法與分塊運算,使內核效率比傳統 DPLR 提升近一倍。
在算子層面,這意味著:Kimi Linear 的核心 attention kernel,能在相同硬件上跑出約 2× 的速度。
混合架構:3:1 的黃金比例
Kimi Linear 不是完全拋棄全注意力,而是采用了混合式結構(Hybrid Architecture)。論文中的設計是一個經驗黃金比:每 3 層 KDA 線性注意力,就插入 1 層全注意力層。
輕量的線性注意力層(Kimi Delta Attention,簡稱 KDA),它速度快、占顯存少,但全局理解力有限;
傳統的全注意力層(Multi-Head Latent Attention,簡稱 MLA),它能建立全局依賴、維持語義一致性,卻在長序列時耗費巨大。
它背后不是簡單的層數搭配,而是一種對“效率”與“理解力”的系統性權衡。Moonshot 團隊花了大量時間在這里做實驗,結果發現——只有在這個比例下,AI 才能既快又穩、既記得住又理解得準。
過去很多研究者嘗試過“混合”這兩種層,結果要么太省導致模型變“短視”,要么太重又回到了原點。Kimi 團隊的做法是:在三層 KDA 后面插入一層全注意力層,形成固定的 3:1 周期。換句話說,每四層中,有三層是“高效工作層”,一層是“全局校準層”。
為什么要這么配比?論文在消融實驗中測了多個比例:1:1、3:1、7:1、純全注意力(0:1),最終發現:
7:1 雖然省了算力,但模型的“記憶力”明顯下滑。訓練時損失下降還不錯,但驗證集性能劣化嚴重,說明模型學到的模式泛化不了。
1:1 雖然穩定,但速度損失太大。解碼時延、顯存占用都幾乎等于傳統 Transformer,沒解決效率問題。
純全注意力(0:1)更不用說,性能和速度都掉隊。
唯獨 3:1 形成了一個“甜點區”:它的訓練損失低、驗證集表現穩、推理速度提升最明顯。在論文的數據里,這個比例讓模型在 1M 上下文長度下達到6× 的解碼加速,同時將KV cache 占用削減 75%。
更關鍵的是,性能指標上,它還超過了全注意力模型——也就是說,這不再是“效率換精度”,而是真正的“雙贏”。
從工程角度講,這個比例還有另一個隱藏好處:系統更容易被優化。
很多混合架構因為線性層和全注意力層混雜在同一層內部(intra-layer hybrid),導致計算路徑復雜,無法很好地分布式并行。Kimi 采用的是inter-layer hybrid——層與層之間分工明確,三層 KDA 用統一算子,一層 MLA 獨立執行,全模型在流水線上運行更順暢。
這讓它能直接兼容現有的推理框架,比如 vLLM,不需要修改緩存機制或調度接口。
同時,Kimi 團隊還發現,3:1 結構與另一項創新——NoPE(無位置編碼)——配合得尤其好。
過去全注意力層用 RoPE(旋轉位置編碼)來維持位置感,但在混合架構中,這種強相對位置信號容易“過度主導”,導致短文本表現好、長文本失真。
而在 3:1 的節奏里,KDA 自身帶有輕量的記憶衰減和位置信號,全注意力層反而可以去掉 RoPE,使用更輕的 NoPE,讓模型的位置偏置在層間自然分布——短程靠線性層感知,長程靠全局層校正。這種分布式的“位置信息調度”,讓 Kimi Linear 在超長上下文任務(如 RULER、RepoQA)中展現了強勁的外推能力。
所以,當論文說這是“黃金比例”,并不是指某個巧合的數字,而是一個深度融合性能、速度、穩定性和工程可落地性的系統平衡點。
它讓 Kimi Linear 同時具備三種優勢:
線性層的高吞吐與低顯存,解決效率問題;
全注意力層的全局對齊與穩健理解,保證語義質量;
統一節奏與模塊化設計,降低工程復雜度、增強擴展性。
在 1.4 萬億 token 的等規模訓練中,Kimi Linear 與傳統全注意力 MLA(Multi-Head Latent Attention)進行了正面對比。結果如下:
![]()
也就是說:Kimi Linear 是第一個在公平條件下全面超過 Full Attention 的線性架構。
Kimi Linear 最令人驚嘆的地方,是它的解碼速度。在 1M token 的上下文下,傳統全注意力模型的每個輸出 token 要花11.48 毫秒,而 Kimi Linear 只需1.84 毫秒。
這不僅是一個“快六倍”的優化,更意味著復雜度從O(n2)降到了接近O(n)的增長律。
在超長推理任務中,比如 Agent 規劃、鏈式思維、多回合對話、代碼生成等場景,吞吐量的提升幾乎是線性的。更重要的是,這種提速不是“犧牲質量”換來的,而是結構上自然帶來的收益。
![]()
行業意義:結構效率成為新戰場
從更高的視角看,這篇論文的重要性,不僅在于一次算法提速,而是注意力結構設計的范式轉向。
過去 5 年,AI 模型的性能主要依賴算力疊加——堆參數、擴算力。而 Kimi Linear 的出現,意味著“結構效率”開始重新被定義。
Moonshot 的團隊讓我們看到:算力的邊際收益在遞減,結構的邊際收益正在回歸。
參考文獻:
[1] https://github.com/MoonshotAI/Kimi-Linear/blob/master/tech_report.pdf
歡迎掃碼加群參與討論
我們相信認知能夠跨越階層,
致力于為年輕人提供高質量的科技和財經內容。
稿件經采用可獲邀進入Z Finance內部社群,優秀者將成為簽約作者,00后更有機會成為Z Finance的早期共創成員。
我們正在招募新一期的實習生
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.