<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      深度|Kimi Linear顛覆注意力架構:1M長文本解碼提速6.3倍,顯存占用驟減75%

      0
      分享至


      在過去兩年,大語言模型的極限,已經不再是參數量的堆疊,而是推理速度與算力效率的極限。所有模型都在變聰明,但也都變得“太重”——尤其是在長上下文和強化學習場景下,標準的 Softmax 全注意力機制讓模型一次推理就要吃掉海量顯存和時間。

      Moonshot 的團隊在這篇論文中,提出了一個讓人眼前一亮的架構:Kimi Linear。它的目標很直接——在不犧牲性能的前提下,讓注意力計算變成“線性”的

      結果是:在公平訓練下,Kimi Linear 不僅在 MMLU、RULER 等主流基準上超過了傳統全注意力模型,還實現了長達 6 倍的解碼加速

      為什么所有人都卡在“注意力”的墻上

      Transformer 誕生以來,AI 的爆發式增長正是靠這堵墻撐起來的:它讓模型能“全局看見”,能把一句話、一段代碼、甚至整本書的上下文串聯成連續的理解。但問題也在這里——它太貴、太慢、太重

      所謂“全注意力”,就是每個 token 都要和其他所有 token 計算相似度。數學上這意味著 O(n^2)的復雜度:上下文長度翻十倍,算力需求翻一百倍。模型越聰明,推理成本越像雪球一樣滾大。短短幾千字的對話還好,一旦拉長到幾十萬、上百萬字節,顯卡的顯存就像泄洪的水庫,怎么加都不夠。

      更棘手的是記憶開銷。每次生成新 token,模型都要把之前所有的 key 和 value 緩存在顯存里——這就是所謂的 KV cache。它像一列不斷加長的火車,拉得越遠越吃力。到最后,你的顯卡不是在計算,而是在搬數據。于是長上下文、長軌跡、強化學習這些更高層的任務,幾乎都被這堵墻擋住了。

      理論上工程手段能挪動一點空間,比如 FlashAttention、張量并行、KV 量化,但這些都是“摳常數”的優化。你再怎么摳,也改變不了平方級復雜度的宿命。這就像在高速公路上修更平的柏油,但車流量已經多到要換立交橋——結構不變,問題不會根本解決。

      于是人們把希望寄托在線性注意力(Linear Attention)上。它把復雜度從平方降到線性,用更像 RNN 的記憶方式去近似全注意力。但新的問題又出現了:線性注意力“便宜是便宜”,可記憶力不行。它壓縮信息太狠,短序列還能用,長序列就開始遺忘。尤其是語言、代碼、數學推理這些任務里,模型要能精準地回憶上下文,而線性結構往往記不住關鍵點。

      更微妙的一點是位置編碼的錯配。全注意力里,RoPE(旋轉位置編碼)早已成了標準配置,它幫模型理解“前后順序”。可一旦改用線性結構,RoPE 的作用就不再穩定。很多混合模型出現“短期靈敏、長期失真”的問題——短文表現很好,一旦拉長,上下文就斷了。

      Kimi 的論文指出了另一個關鍵事實:當 AI 模型進入“長軌跡推理時代”,這些結構性缺陷會被成倍放大。大模型不再只是在寫句子、翻譯,而是在做推理、規劃、甚至多步決策(RL、Agent 場景)。模型的思考路徑被無限拉長,每一步都要記住之前所有動作的狀態。這時,全注意力的平方爆炸、KV 緩存的線性堆積、位置機制的錯配、以及線性注意力表達力的不足,全都交織成一堵墻。

      你可以理解為:AI 正在試圖跨越一個“時空瓶頸”。模型既想看得遠、記得久,又要算得快、用得省;但在舊結構下,這四個目標是互相拉扯的。工程手段治標不治本,只有重新發明結構,才能同時滿足“長”“快”“穩”“省”。

      這正是 Kimi Linear 誕生的背景。它不是簡單把注意力改成線性,而是重新分工:誰來負責記憶,誰來負責全局,誰來負責位置感知。它用細粒度門控替代粗放遺忘,用高效 DPLR 結構壓縮算子,用 3:1 的混合布局維持全局一致性。結果是在不丟質量的前提下,推理速度提升六倍,KV 占用減掉四分之三。

      Kimi Delta Attention:一次“記憶革命”

      Kimi Linear 的核心模塊叫Kimi Delta Attention(KDA)


      它的靈感來自 Gated DeltaNet,但在此基礎上引入了一個關鍵變化:把原本粗粒度的“遺忘門”(forget gate)改成了逐通道可學習的細粒度門控(channel-wise gating)

      以往模型的記憶衰減是“一刀切”的,而 KDA 能讓不同維度的信息以不同速度“遺忘”或“保留”。結果是,模型能在有限狀態下實現更精準的上下文控制——既不會遺忘關鍵信息,也能更快舍棄無關噪聲。

      更重要的是,KDA 在底層數學上采用了一種高效的Diagonal-Plus-Low-Rank(DPLR)近似結構,但進行了硬件優化:它移除了冗余矩陣乘法與分塊運算,使內核效率比傳統 DPLR 提升近一倍。

      在算子層面,這意味著:Kimi Linear 的核心 attention kernel,能在相同硬件上跑出約 2× 的速度。

      混合架構:3:1 的黃金比例

      Kimi Linear 不是完全拋棄全注意力,而是采用了混合式結構(Hybrid Architecture)。論文中的設計是一個經驗黃金比:每 3 層 KDA 線性注意力,就插入 1 層全注意力層

      • 輕量的線性注意力層(Kimi Delta Attention,簡稱 KDA),它速度快、占顯存少,但全局理解力有限;

      • 傳統的全注意力層(Multi-Head Latent Attention,簡稱 MLA),它能建立全局依賴、維持語義一致性,卻在長序列時耗費巨大。

      它背后不是簡單的層數搭配,而是一種對“效率”與“理解力”的系統性權衡。Moonshot 團隊花了大量時間在這里做實驗,結果發現——只有在這個比例下,AI 才能既快又穩、既記得住又理解得準

      過去很多研究者嘗試過“混合”這兩種層,結果要么太省導致模型變“短視”,要么太重又回到了原點。Kimi 團隊的做法是:在三層 KDA 后面插入一層全注意力層,形成固定的 3:1 周期。換句話說,每四層中,有三層是“高效工作層”,一層是“全局校準層”。

      為什么要這么配比?論文在消融實驗中測了多個比例:1:1、3:1、7:1、純全注意力(0:1),最終發現:

      • 7:1 雖然省了算力,但模型的“記憶力”明顯下滑。訓練時損失下降還不錯,但驗證集性能劣化嚴重,說明模型學到的模式泛化不了。

      • 1:1 雖然穩定,但速度損失太大。解碼時延、顯存占用都幾乎等于傳統 Transformer,沒解決效率問題。

      • 純全注意力(0:1)更不用說,性能和速度都掉隊。

      唯獨 3:1 形成了一個“甜點區”:它的訓練損失低、驗證集表現穩、推理速度提升最明顯。在論文的數據里,這個比例讓模型在 1M 上下文長度下達到6× 的解碼加速,同時將KV cache 占用削減 75%。

      更關鍵的是,性能指標上,它還超過了全注意力模型——也就是說,這不再是“效率換精度”,而是真正的“雙贏”。

      從工程角度講,這個比例還有另一個隱藏好處:系統更容易被優化

      很多混合架構因為線性層和全注意力層混雜在同一層內部(intra-layer hybrid),導致計算路徑復雜,無法很好地分布式并行。Kimi 采用的是inter-layer hybrid——層與層之間分工明確,三層 KDA 用統一算子,一層 MLA 獨立執行,全模型在流水線上運行更順暢。

      這讓它能直接兼容現有的推理框架,比如 vLLM,不需要修改緩存機制或調度接口。

      同時,Kimi 團隊還發現,3:1 結構與另一項創新——NoPE(無位置編碼)——配合得尤其好。

      過去全注意力層用 RoPE(旋轉位置編碼)來維持位置感,但在混合架構中,這種強相對位置信號容易“過度主導”,導致短文本表現好、長文本失真。

      而在 3:1 的節奏里,KDA 自身帶有輕量的記憶衰減和位置信號,全注意力層反而可以去掉 RoPE,使用更輕的 NoPE,讓模型的位置偏置在層間自然分布——短程靠線性層感知,長程靠全局層校正。這種分布式的“位置信息調度”,讓 Kimi Linear 在超長上下文任務(如 RULER、RepoQA)中展現了強勁的外推能力。

      所以,當論文說這是“黃金比例”,并不是指某個巧合的數字,而是一個深度融合性能、速度、穩定性和工程可落地性的系統平衡點。
      它讓 Kimi Linear 同時具備三種優勢:

      • 線性層的高吞吐與低顯存,解決效率問題;

      • 全注意力層的全局對齊與穩健理解,保證語義質量;

      • 統一節奏與模塊化設計,降低工程復雜度、增強擴展性。

      性能對比:首次全面超越 Full Attention

      在 1.4 萬億 token 的等規模訓練中,Kimi Linear 與傳統全注意力 MLA(Multi-Head Latent Attention)進行了正面對比。結果如下:


      也就是說:Kimi Linear 是第一個在公平條件下全面超過 Full Attention 的線性架構。

      Kimi Linear 最令人驚嘆的地方,是它的解碼速度。在 1M token 的上下文下,傳統全注意力模型的每個輸出 token 要花11.48 毫秒,而 Kimi Linear 只需1.84 毫秒。

      這不僅是一個“快六倍”的優化,更意味著復雜度從O(n2)降到了接近O(n)的增長律。

      在超長推理任務中,比如 Agent 規劃、鏈式思維、多回合對話、代碼生成等場景,吞吐量的提升幾乎是線性的。更重要的是,這種提速不是“犧牲質量”換來的,而是結構上自然帶來的收益


      行業意義:結構效率成為新戰場

      從更高的視角看,這篇論文的重要性,不僅在于一次算法提速,而是注意力結構設計的范式轉向

      過去 5 年,AI 模型的性能主要依賴算力疊加——堆參數、擴算力。而 Kimi Linear 的出現,意味著“結構效率”開始重新被定義。

      Moonshot 的團隊讓我們看到:算力的邊際收益在遞減,結構的邊際收益正在回歸。


      參考文獻:

      [1] https://github.com/MoonshotAI/Kimi-Linear/blob/master/tech_report.pdf

      歡迎掃碼加群參與討論

      我們相信認知能夠跨越階層,

      致力于為年輕人提供高質量的科技和財經內容。

      稿件經采用可獲邀進入Z Finance內部社群,優秀者將成為簽約作者,00后更有機會成為Z Finance的早期共創成員。

      我們正在招募新一期的實習生

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      “年花費9萬美元,孩子早申拿到耶魯offer,我卻想讓他選全獎的大學”

      “年花費9萬美元,孩子早申拿到耶魯offer,我卻想讓他選全獎的大學”

      戶外阿毽
      2026-02-14 08:55:18
      春節我把老媽從養老院接回家,隔天喊老媽吃飯,推開門我瞬間哽咽

      春節我把老媽從養老院接回家,隔天喊老媽吃飯,推開門我瞬間哽咽

      煙雨洛神生
      2026-02-12 20:09:36
      國家電影局 財政部印發《關于試行開展2026年中央級國家電影事業發展專項資金支持促進電影消費工作的通知》

      國家電影局 財政部印發《關于試行開展2026年中央級國家電影事業發展專項資金支持促進電影消費工作的通知》

      中國電影報
      2026-02-13 11:16:13
      蜜雪冰城墨西哥首店開業,民眾排隊數小時購買,當地華人:比其他奶茶便宜很多,檸檬水8元一杯,口感和國內一樣

      蜜雪冰城墨西哥首店開業,民眾排隊數小時購買,當地華人:比其他奶茶便宜很多,檸檬水8元一杯,口感和國內一樣

      極目新聞
      2026-02-13 17:51:18
      賴清德受訪,“臺獨”本質現形

      賴清德受訪,“臺獨”本質現形

      環球網資訊
      2026-02-13 07:03:10
      太罕見了:臺軍上將排成一排,大陸送上一句話,鄭麗文發現不對勁

      太罕見了:臺軍上將排成一排,大陸送上一句話,鄭麗文發現不對勁

      東極妙嚴
      2026-02-12 11:08:44
      日本綜藝有多變態?看完下面這些,保證你菊花一緊!

      日本綜藝有多變態?看完下面這些,保證你菊花一緊!

      日本窗
      2026-02-02 17:28:30
      王思聰成功和懶懶分手,回國的懶懶被曝變賣奢侈品,網友吐槽太貴

      王思聰成功和懶懶分手,回國的懶懶被曝變賣奢侈品,網友吐槽太貴

      娛樂團長
      2025-11-16 15:45:42
      1990年,90歲張學良在鏡頭前爆料于鳳至不堪隱私,令人難以置信

      1990年,90歲張學良在鏡頭前爆料于鳳至不堪隱私,令人難以置信

      文史達觀
      2026-02-04 20:01:53
      淘寶閃購:千問訂單近半數來自縣城

      淘寶閃購:千問訂單近半數來自縣城

      界面新聞
      2026-02-12 12:47:19
      馬斯克,別去火星了,一起開發亞特蘭蒂斯!

      馬斯克,別去火星了,一起開發亞特蘭蒂斯!

      Thurman在昆明
      2026-02-14 08:50:17
      2100枚核彈24小時待命,張召忠曾發出警告:一旦開戰,將無處可逃

      2100枚核彈24小時待命,張召忠曾發出警告:一旦開戰,將無處可逃

      近史博覽
      2026-01-22 12:52:47
      江西女碩士失蹤,被發現時已在教授實驗室待6年,魔鬼真的存在

      江西女碩士失蹤,被發現時已在教授實驗室待6年,魔鬼真的存在

      燦爛夏天
      2025-02-10 20:20:13
      黃金大遷徙,中國成為世界金庫,美國沒想到這一天來得這么快

      黃金大遷徙,中國成為世界金庫,美國沒想到這一天來得這么快

      無情有思可
      2026-02-12 06:02:50
      央視又一部好劇來襲,2月20號正式開播,演員都是我喜歡的

      央視又一部好劇來襲,2月20號正式開播,演員都是我喜歡的

      小邵說劇
      2026-02-13 21:38:13
      大孤山被熱議,姜育恒被曝是幕后人,大師算卦15個起,只給明星算

      大孤山被熱議,姜育恒被曝是幕后人,大師算卦15個起,只給明星算

      非常先生看娛樂
      2026-02-13 17:21:44
      別被電視劇騙了!這才是賭王4位嬌妻的真容,貨真價實的罕見照片

      別被電視劇騙了!這才是賭王4位嬌妻的真容,貨真價實的罕見照片

      聚焦最新動態
      2026-02-12 22:29:55
      不打了!字母哥正式退出!杜蘭特怒批東契奇和約基奇

      不打了!字母哥正式退出!杜蘭特怒批東契奇和約基奇

      籃球教學論壇
      2026-02-13 18:36:36
      過年期間,這......才是真正的中式恐怖吧!(附反彈攻略)

      過年期間,這......才是真正的中式恐怖吧!(附反彈攻略)

      言安堂
      2026-02-13 07:36:24
      出手了!高市扣押中國漁船,正式向中國示威,但代價日本承擔不起

      出手了!高市扣押中國漁船,正式向中國示威,但代價日本承擔不起

      奇思妙想生活家
      2026-02-14 01:18:59
      2026-02-14 09:28:49
      ZFinance
      ZFinance
      Z世代的一站式AI、科技和財經資訊
      122文章數 2關注度
      往期回顧 全部

      科技要聞

      獨家探訪蔡磊:答不完的卷子 死磕最后一程

      頭條要聞

      37年懸案告破 香港女總督察被認出是昔日TVB女主播

      頭條要聞

      37年懸案告破 香港女總督察被認出是昔日TVB女主播

      體育要聞

      一年怒虧2個億,庫里和安德瑪的“孽緣”

      娛樂要聞

      大衣哥女兒風光出嫁,農村婚禮超樸素

      財經要聞

      華萊士母公司退市 瘋狂擴張下的食安隱憂

      汽車要聞

      星光730新春促銷開啟 80天銷量破2.6萬臺

      態度原創

      房產
      數碼
      藝術
      旅游
      公開課

      房產要聞

      三亞新機場,又傳出新消息!

      數碼要聞

      蘋果將推出銷售培訓應用Sales Coach,為門店員工提供AI助手

      藝術要聞

      石墻上的毛主席詩詞引發熱議,60字作品背后高人是誰?

      旅游要聞

      早安重慶|“龍”游古鎮【2月14日】

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版