<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      MiniMax和Kimi為了“注意力”,隔空交手

      0
      分享至


      作者 | 周一笑
      郵箱 | zhouyixiao@pingwest.com

      10月29日,月之暗面研究員周昕宇(Zhou Xinyu)在X上轉發了MiniMax M2 Tech Blog的推文,并評論道:“Minimax don't worry, Kimi got your back ”。不僅如此,他還在知乎的同一篇博文下留下了同樣的評論,這種帶有調侃意味的公開“示好”,既像挑逗,也像挑釁。


      在M2發布兩天后,MiniMax的預訓練負責人孫浩海(Haohai Sun)在知乎和X發布了一篇技術博客,罕見地坦誠地說明了團隊為什么放棄efficient attention,“為什么不做linear/sparse attention”?“一直在做,但是在工業系統里真的打過Full Attention還有些距離”

      周昕宇的評論顯然有所指,但“got your back”究竟是什么意思?答案在24小時后揭曉。10月30日,月之暗面發布了Kimi Linear,一個48B參數的混合注意力模型,聲稱在長上下文任務中KV Cache減少75%,吞吐量提升6倍。

      技術報告的Abstract寫道:“for the first time, outperforms full attention under fair comparisons across various scenarios”(首次在公平對比下全面超越全注意力)。

      從MiniMax M2發布到Kimi Linear發布,恰好72小時。這種技術路線扽差異是大模型行業在效率與性能之間的路線探索,爭論仍未塵埃落定。

      MiniMax M2:回歸Full Attention

      MiniMax此前的M1 Lightning采用Softmax + MoE的混合式架構,支持百萬級上下文。到了M2,MiniMax選擇了回歸Full Attention。

      M2的定位是Agent和代碼生成,強調"大巧若拙"的產品哲學。在價格上,M2僅為Claude Sonnet 4.5的8%(每百萬Token輸入0.3美元),推理速度快近2倍(TPS約100)。MiniMax在官方發布文章中表示,這是通過"高效的激活參數設計"實現的"智能、速度與成本的最佳平衡"。


      《為什么M2是Full Attention》這篇文章在知乎和X都獲得了不少好評。X上的評論者認為這是“難得的工程視角分享”,“對行業非常有價值”。一位名為@TensorTemplar的評論者說:“難得見到如此詳盡公開分享模型架構的整體工程視角。關于稀疏注意力尾部風險的論述非常精彩!在復雜多輪使用場景中尚未證明其等效性前,我暫不愿稱之為‘高效’。”


      Haohai詳細闡述了三個核心困難。第一個是工程鏈路復雜性爆炸。用他的話說,“需要同時滿足code/math、agent、多模態、Long CoT、RL、低精度運算、緩存、speculative decoding等眾多場景”。翻譯成人話就是,現代大模型不只是做一件事,而是要同時支持十幾種不同的應用場景。每增加一種efficient attention機制,就要在所有這些場景下驗證,工程復雜度呈指數級增長。

      第二個困難是評測體系局限。“小規模實驗的結論無法外推,復雜多跳推理任務的缺陷只在大規模時暴露。”在小模型上測試效果好,不代表在大模型上也好。很多問題只有在訓練到一定規模時才會暴露,但那時候已經投入了大量資源,來不及調整。Haohai在評論區補充說,復雜多跳推理任務可以參考KorBench、BBEH等榜單,以及BBH里的dyck language任務。

      有評論者問“你們是否嘗試過其他線性注意力變體,比如門控Delta Net或Mamba2?"Haohai回復:”GDN混合模型表現尚可,Mamba2 < Mamba2 + qknorm ≈ GDN。但與全注意力模型相比,這些模型在推理密集型基準測試(如BBH)中表現相對較弱。“MiniMax在實際測試中發現了問題。

      第三個困難是基建不完善。“Linear Attention的訓練是訪存bound,推理需要解決低精度存儲、Prefix Cache、投機解碼等問題。”即使理論上linear attention更快,但實際工程中需要解決很多基礎設施問題。訓練時內存帶寬成為瓶頸,推理時需要支持各種優化技術,這些都還沒有成熟的解決方案。

      這篇博客的評論區也透露了一些重要信息。一位名為silicon的開發者評論道:“我自己都開發了近百種Transformer變體了,但‘驗證新變體是否先進’所花的時間遠遠大于開發算法的時間”。Benchmark困境不只是MiniMax的問題,而是整個行業的痛點。

      另一個問題是關于成本和時延的澄清。當有網友問“Agent場景下Full Attention會成為瓶頸嗎”時,Haohai回答是:“GPU的進步非常快,對Full Attention來說目前只有成本問題,沒有時延問題。”也就是說核心矛盾不是速度慢,而是成本高。MiniMax的策略是等待GPU進步解決成本問題,同時通過工程優化(如“高效的激活參數設計”)來平衡性能和成本。

      月暗的“挑逗”和Kimi Linear的發布

      Zhou Xinyu是月之暗面的研究員,也是MoBA(Mixture of Block Attention)論文的核心作者之一,他的“挑逗”背后藏著一個大招。10月30日晚,月之暗面發布了Kimi Linear,一個48B總參數、3B激活參數的MoE模型,訓練數據達5.7T tokens,支持1M tokens的上下文長度。模型權重、代碼和技術報告全部開源。從M2發布到Kimi Linear發布,72小時。


      Kimi Linear有三個值得注意的點。

      第一個是Kimi Delta Attention (KDA)。KDA基于Gated DeltaNet,引入了fine-grained gating機制。具體來說,它從scalar gate(標量門控)升級到channel-wise gate(通道級門控),讓每個特征維度都有獨立的遺忘因子。用人話說,就像給模型裝了更精細的"記憶開關"。傳統的門控機制是一個總開關,要么全記住,要么全忘記。而KDA可以針對不同類型的信息分別控制記憶強度,比如對代碼語法記得牢一點,對臨時變量忘得快一點。這個改進帶來了顯著的性能提升,相比標準DPLR實現,KDA的計算效率提升了約100%。

      第二個是3:1的混合比例。Kimi Linear采用了Hybrid架構,將KDA(線性注意力)和MLA(Multi-head Latent Attention)混合使用。MLA是DeepSeek在V2/V3中使用的技術,通過將注意力輸入壓縮成低維潛在向量,然后在需要計算注意力時映射回高維空間,顯著減少了內存需求。關鍵問題是混合的比例應該是多少?Kimi團隊通過系統性的ablation study找到了答案:3:1,也就是每3層KDA配1層MLA。

      實驗結果顯示,3:1是平衡性能和效率的最佳點。純MLA(0:1)的validation PPL是5.77,3:1是5.65,1:1是5.66,7:1是5.70,15:1是5.82。太多全注意力(1:1)浪費資源,太少(7:1、15:1)影響性能。


      Kimi Linear 模型架構示意圖。該模型由一系列堆疊的模塊組成,每個模塊包含一個 token 混合層(token mixing layer),其后接一個 MoE 通道混合層(channel-mixing layer)。

      第三個是No Position Encoding (NoPE)。Kimi Linear的MLA層不使用位置編碼(如RoPE),所有的位置信息完全由KDA層負責。這個設計帶來三個好處:推理效率更高(MLA可以轉換為更高效的MQA)、訓練更簡單(避免了RoPE參數調整)、長上下文泛化更好。

      Kimi Linear的性能數據很亮眼。技術報告顯示,Kimi Linear"顯著減少了高達75%的KV cache需求",這意味著內存占用降低4倍,直接降低了部署成本。在1M tokens的長上下文場景中,Kimi Linear的解碼吞吐量比MLA(全注意力)快6.3倍。具體數據是TPOT(Time Per Output Token)從11.48ms降到1.84ms。

      在RULER基準測試(128k context)上,Kimi Linear達到84.3的性能,同時速度是MLA的3.98倍。技術報告稱這是"Pareto-optimal",性能和速度都是最優,沒有trade-off。


      Kimi團隊用1.4T tokens的訓練驗證了scaling law。MLA的Loss是2.3092 × C^(-0.0536),Kimi Linear是2.2879 × C^(-0.0527)。技術報告總結:“Kimi Linear achieves ~ 1.16× computational efficiency”。大規模訓練中,Kimi Linear仍然優于Full Attention。

      為了驗證理論正確性,Kimi團隊在三個合成任務上測試了KDA:Palindrome(回文任務)、MQAR(多查詢關聯回憶)、Stack(棧追蹤)。KDA在所有任務上都達到100%準確率,而GDN和Mamba2在長序列上失敗。這些任務測試的正是復雜多跳推理能力。

      這也是Linear attention首次在公平對比下全面超越Full Attention。不是特定任務,而是"across various scenarios"(各種場景),包括short-context、long-context、RL scaling。

      Kimi Linear的工程化成熟度還體現在vLLM集成上。vLLM是UC Berkeley開發的開源LLM推理框架,是全球最主流的推理引擎之一。Kimi Delta Attention(KDA)算子已被vLLM官方整合進主代碼庫。這意味著vLLM用戶只要升級到最新版本,就可以直接使用Kimi的注意力實現。

      MiniMax向左,Kimi向右

      MiniMax和Kimi的選擇,代表了兩種不同的技術路線。整個行業也都在探索,DeepSeek用MLA 改造/壓縮KV-cache,Mistral引入滑動窗口稀疏模式,OpenAI與Anthropic的具體注意力實現未公開,業內普遍認為其以Full Attention的工程化加速為主。

      不同選擇反映了效率與性能的不同權衡。MiniMax選擇Full Attention,核心邏輯是等待GPU進步解決成本問題,同時通過工程優化來平衡性能和成本。Full Attention是經過多年驗證的技術,不需要擔心在某些場景下的隱藏弱點。

      Kimi選擇KDA + MLA,核心邏輯是主動優化架構降低成本,系統性解決工程化問題。這種選擇的優勢是效率更高、成本更低、長期可能競爭力更強,但也面臨更大的工程挑戰,需要在多個場景下驗證穩定性。Kimi Linear的發布證明,至少在月之暗面的技術體系中,他們找到了可能的解決方案。

      兩種選擇都有其合理性。MiniMax的策略是時間換空間,賭GPU進步會解決成本問題。Kimi的策略是空間換時間,通過技術創新主動降低成本。哪種路線更好?目前還沒有定論。

      不過,這種不同路線的探索和公開的技術討論,對整個行業都是一件好事。它讓外界看到了大模型技術演進的真實圖景,沒有正確答案,而是多條路徑的并行探索。MiniMax和Kimi的坦誠和創新,都在推動行業進步。

      但在技術探討之外,兩家公司在實際層面的競爭也不容忽視。月之暗面和MiniMax都定位于中國頭部通用大模型,在長上下文、代碼/Agent、開源推理生態等方面同場競跑。技術路線的選擇不僅關乎技術本身,也關乎資本市場的認可和長期競爭力。

      這是Full Attention和Efficient Attention兩種技術路線的較量,也是MiniMax和Kimi兩家公司的角力,兩件事情都會持續下去。這場關于Attention機制的技術之爭,本身也成了一場“注意力之爭”

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      熱刺、西漢姆聯未來賽程:兩隊均要對陣利茲聯,前十對手各兩個

      熱刺、西漢姆聯未來賽程:兩隊均要對陣利茲聯,前十對手各兩個

      懂球帝
      2026-04-26 00:10:03
      詹皇29+13+6無緣今日最佳,申京33+16也落選,只因塔圖姆刷爆紀錄

      詹皇29+13+6無緣今日最佳,申京33+16也落選,只因塔圖姆刷爆紀錄

      你的籃球頻道
      2026-04-25 13:33:54
      尺度驚艷,網飛制作的3部成人動漫,太過癮了

      尺度驚艷,網飛制作的3部成人動漫,太過癮了

      來看美劇
      2026-04-11 19:40:42
      中日斗法:遍布我國的日本學校,被組成困龍局,749局高人一招化解

      中日斗法:遍布我國的日本學校,被組成困龍局,749局高人一招化解

      天字號野史
      2024-11-29 11:55:59
      中方對兩家航運下達逐客令后,巴拿馬開始報復,故意扣留中國公民

      中方對兩家航運下達逐客令后,巴拿馬開始報復,故意扣留中國公民

      有你的星空
      2026-04-24 21:11:20
      塞爾&科貝:米利唐傷口開裂將接受手術,無緣美加墨世界杯

      塞爾&科貝:米利唐傷口開裂將接受手術,無緣美加墨世界杯

      懂球帝
      2026-04-25 19:54:54
      難怪民進黨氣得跳腳也不敢抓鄭麗文,她背后的保護傘,讓綠營絕望

      難怪民進黨氣得跳腳也不敢抓鄭麗文,她背后的保護傘,讓綠營絕望

      觀星賞月
      2026-04-25 17:56:35
      上海富商花2000萬,讓情人生3個孩子,2019年后得知娃都不是他的

      上海富商花2000萬,讓情人生3個孩子,2019年后得知娃都不是他的

      漢史趣聞
      2026-04-24 18:35:46
      芬蘭女外長發表極端對華言論,公然逼中國二選一!中方硬氣回應!

      芬蘭女外長發表極端對華言論,公然逼中國二選一!中方硬氣回應!

      果媽聊娛樂
      2026-04-25 22:10:02
      陳獨秀之女為避批斗綁桶漂海,漂十余小時登岸遇警,結局出人意料

      陳獨秀之女為避批斗綁桶漂海,漂十余小時登岸遇警,結局出人意料

      磊子講史
      2026-03-31 16:16:18
      竹筍是血壓“殺手”?醫生反復提醒:高血壓患者少吃5種食物

      竹筍是血壓“殺手”?醫生反復提醒:高血壓患者少吃5種食物

      新時代的兩性情感
      2026-04-26 00:49:23
      情侶在酒店購買避孕套,翻云覆雨后才發現,避孕套已過期2個月

      情侶在酒店購買避孕套,翻云覆雨后才發現,避孕套已過期2個月

      丫頭舫
      2026-03-07 11:49:45
      天都塌了!浙江多地中小學五一假期連放10天安排,有家長陷入焦慮

      天都塌了!浙江多地中小學五一假期連放10天安排,有家長陷入焦慮

      火山詩話
      2026-04-25 09:33:12
      高德地圖“越禁越火”?臺灣民意“一邊倒”,民進黨當局起內訌

      高德地圖“越禁越火”?臺灣民意“一邊倒”,民進黨當局起內訌

      中國青年報
      2026-04-25 16:23:15
      美美的阿姨

      美美的阿姨

      動物奇奇怪怪
      2026-04-26 01:10:08
      斯諾克世錦賽26日凌晨!世界冠軍被淘汰,3連鞭,趙心童9-7丁俊暉

      斯諾克世錦賽26日凌晨!世界冠軍被淘汰,3連鞭,趙心童9-7丁俊暉

      帛河體育
      2026-04-26 00:44:20
      世乒賽僅剩4天!40天封訓國乒1天收隊!馬龍樊振東雙雙現身惹人淚目

      世乒賽僅剩4天!40天封訓國乒1天收隊!馬龍樊振東雙雙現身惹人淚目

      好乒乓
      2026-04-25 11:39:45
      最新消息:一狼剛剛將一艘三十年前退役 的

      最新消息:一狼剛剛將一艘三十年前退役 的

      黃先生斜杠青年
      2026-04-25 06:22:50
      莫氏雞煲熱度過了?曾一票難求,現隨到隨吃

      莫氏雞煲熱度過了?曾一票難求,現隨到隨吃

      廣州生活美食圈
      2026-04-25 11:41:13
      一周最少8次,54歲女子肛裂住院,丈夫哭訴:怎么勸她就是不聽!

      一周最少8次,54歲女子肛裂住院,丈夫哭訴:怎么勸她就是不聽!

      健康之光
      2026-04-13 09:01:59
      2026-04-26 02:12:49
      硅星GenAI incentive-icons
      硅星GenAI
      比一部分人更先進入GenAl。
      274文章數 38關注度
      往期回顧 全部

      科技要聞

      DeepSeek V4發布!黃仁勛預言的"災難"降臨

      頭條要聞

      媒體:美軍在中東罕見高密度集結 伊朗開始調整戰術

      頭條要聞

      媒體:美軍在中東罕見高密度集結 伊朗開始調整戰術

      體育要聞

      那一刻開始,兩支球隊的命運悄然改變了

      娛樂要聞

      《我們的爸爸2》第一季完美爸爸翻車了

      財經要聞

      90%訂單消失,中東旺季沒了

      汽車要聞

      2026款樂道L90亮相北京車展 樂道L80正式官宣

      態度原創

      本地
      數碼
      手機
      公開課
      軍事航空

      本地新聞

      云游中國|逛世界風箏都 留學生探秘中國傳統文化

      數碼要聞

      聯發科亮相2026北京車展:主動式智能體座艙解決方案

      手機要聞

      iPhone Ultra機模上手:11mm厚、無長焦,蘋果第一折就這?

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美防長:戰事不會“沒完沒了”

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产精品一二三中文字幕| 果冻传媒色av国产在线播放| 最新的国产成人精品2020| 大桥未久亚洲无AV码在线| 99久久精品国产免费看| 多人乱p视频在线免费观看| 亚洲中文字幕av无码区| 91久久性奴调教国产免费| 国产欧美日韩一区二区三区在线| 无码h黄肉3d动漫在线观看| 日韩精品社区| 国产成人无码区免费内射一片色欲| 日韩视频在线观看网址| 亚洲欧美日韩国产精品一区| 国产成人精品一区二区不卡| 中国极品少妇videossexhd| 99久久精品久久久久久婷婷 | 亚洲国产精久久久久久久春色| 美女视频黄的全免费视频| 91狠狠| 欧美激情a∨在线视频播放| 国产国产乱老熟女视频网站97| 天天日夜夜| 国产午夜人做人免费视频中文| 潮喷在线播放| 无码不卡av东京热毛片| 欧美A视频| 县级市| 精品无码国产自产野外拍在线| 国产97人人超碰CAO蜜芽PROM| 精品人妻一区二区三区四区视频不卡| 性做久久久久久久久| 亚洲美腿丝袜福利一区| 日本体内she精高潮| 国产在线观看不卡免费| 国产av麻豆mag剧集| 撸撸狠| 久操国产| 国产黄色免费看| 国产精品天堂蜜av在线播放 | 日韩码无第15页|