<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      MiniMax M2采用“Full Attention”是開倒車?

      0
      分享至

      本文轉載自「MiniMax稀宇科技」

      為什么M2是Full Attention? Guixianren,公眾號:MiniMax 稀宇科技

      作為MiniMax M2預訓練的負責人,我收到了很多來自社區的詢問:“為什么你們在MiniMax M2上開倒車,采用了 Full Attention 機制?” 在一次又一次的聊天中解釋了背后的故事后,我覺得是時候在一篇blog里寫下我們的心路歷程。

      我可以花一整個下午來討論為什么應該構建應該做 Linear/Sparse Attention。同樣,我也可以反過來花一整個下午來討論為什么不應該去做。但所有這些紙上談兵又有什么意義呢?回到實際情況里,我們要不要做呢?

      先說結論:我們一直在研究它。但在一個現實的工業系統中,Efficient Attention想要打敗Full Attention還有些距離。LLM發展到今天,整個鏈路越來越復雜,服務的場景越來越多,結構設計上需要考慮的點也爆炸式增長;Code/Math場景效果咋樣、Agent場景下效果怎么樣、多模態是什么表現、Long CoT行不行、RL能不能Scale上去、低精度運算下有沒有坑、Interleaved Thinking怎么弄、線上怎么做cache、怎么做Speculative Decoding等等。

      簡而言之,現實與理論存在著較大差異,要為 Linear/Sparse Attention 正名,就要在滿足了條件1到條件n,并解決了問題1到問題n之后。

      為什么要做Efficient Attention?

      如果你有無限算力,你會選擇研究Linear Attention或者Sparse Attention嗎?也許有人會說infinite context場景下,Softmax Attention的Attention Score會oversmoothing....但誰知道呢?在目前算力bound的前提下,還沒有哪個模型真的把Softmax Attention打到能力上限。因此,從實際應用的角度來看,目前大家做Linear Attention或者Sparse Attention都是奔著省算力去的。

      有沒有可能奔著省token去呢——達到同樣效果,需要的token量更少。如果你相信Scaling Law,想達到這個目的,應該不會選擇走Efficient Attention這條路,而是其他途徑。

      說穿了就是,算力有限,我們需要有一個更省算力的結構,同算力消耗下(training compute and inference compute)有更好的效果。

      需要解決的問題

      我們希望做一個能被商用的模型,我們必須從用戶所關心的問題出發:效果、速度(TPS)和價格。效果是底線,一個效果差的模型,即便免費也毫無價值。那么,怎么做一個效果足夠好的Linear/Sparse/Hybrid Attention模型呢?這里最大的問題不是結構設計,而是評測的局限性。速度和價格受推理系統影響,當然優秀的模型自然有優秀的工程師來幫忙優化。

      1.觀測局限性

      “只要你把bench建出來,我自然能找到辦法打上去。”

      縱觀大模型發展的幾年,榜單分數提升的速度是驚人的,不管多難的榜,就算榜單剛出來的時候SOTA只有個位數分數,只要入了各家的法眼,總能在幾版迭代后刷爆。

      怎么建一個全面、真能反應模型能力差異的評測鏈路?這是一個很難的課題,也是大模型迭代的重中之重。這個問題在模型結構,特別是Attention迭代中,將變得更加嚴峻。

      • Benchmark不夠全面

      “沒有免費的午餐”,把attention的復雜度降下去,付出的代價是什么?

      在做MiniMax-Text-01的時候,大家還普遍在看MMLU/BBH/Math/LongBench這類的榜單(現在已經被刷爆了)。以一年多前的視角來看,Ligntning Attention + Full Attention完全能打全Full Attention,畢竟這些榜單上都不差(我們端到端訓了個Hybrid架構的小模型來驗證)。

      難道真有免費午餐?其實不然。這個代價在更大的模型上暴露出來了:復雜多跳推理任務有明顯缺陷。

      當問題暴露出來就好辦了,對代理指標迭代優化!經過幾輪迭代,代理指標看起來能打MHA了。但是scale上去后,代理指標和下游實際場景還能match上嗎?還有其他的問題嗎?誰知道呢,還沒實驗到這里。

      模型越進步,評測越難做。但這是必經之路,加油評測人!

      • 觀測成本高

      針對復雜多跳推理任務,我們能找到訓練更早期可以被觀測的代理指標,但并不是所有任務在預訓練階段都可以被觀測(起碼現在還不行)。同時隨著任務越來越難,想要到對應指標觀測的置信區間,需要付出的算力代價也越來越大,這也導致了實驗迭代比較緩慢(算力不夠才來研究這玩意,研究這玩意吃算力也不少)。

      除了評測榜單,還有模型優化問題,不scale上去,永遠不知道會發生什么,很多問題在小規模試驗中無法暴露。看過M1論文的朋友應該會發現M1 RL訓練過程中有嚴重的精度問題,不做到這一步確實很難發現這個雷。基于這個現象再回過頭去對Lightning Attention做數值收斂性分析,要怎么解決真的很通透了。發現問題,真的比解決問題要難得的多的多。

      • 其他變量

      訓練模型的變量太多太多,不同結構在不同數據分布下的表現大相徑庭,不同結構適配的優化器也差異巨大。在數據高速迭代的周期里,用一個月前的數據做實驗可能會得完全相反的結論。

      我們很難做完備的觀測,但在試圖找更靠譜的實驗策略。

      2.Efficient Attention的基建

      相比Full Attention,Linear Attention和Sparse Attention的基建要差的多,想要真的拿到收益,要補不少課。

      以Linear Attention的基建問題為例:如果對現在已有的線性結構做計算強度分析,會發現不少結構都是訪存bound(沒錯,訓練的時候)。如果不能做極致的IO優化,從GPU算力利用來講是吃虧的。

      把視角再轉到推理,這里需要解決的問題比訓練要多不少了:如何提供一個真正更快更便宜的推理服務?Linear Attention的優勢體現在線性計算強度,常數顯存占用。那么和Full Attention的計算消耗和顯存消耗必然存在一個交點,通常這個交點理論值在幾K的大小,對于今天的大模型,這個長度并不長。但是注意,這里是理論值,我們需要解決下面幾個問題來逼近這個數值:

      • States的低精度存儲:當前Linear Attention對精度要求比Full Attention高得多;

      • 如何解決Prefix Cache:正常業務命中Cache的概率是很高的;

      • 如何優化Linear Attention上的投機解碼

      幸好,這些問題目前看起來都是可以解決的。

      下一步是什么

      Scaling這件事依舊是主旋律,Context Length是其中的關鍵之一,不管是Pretrain還是PostTrain,Context Length增長的趨勢越來越明顯。當GPU算力的增速慢于Data長度增長帶來的算力壓力增加的時候,Linear/Sparse Attention的收益會被逐漸釋放。我們需要提前準備些東西:

      • 更多模態、信息更加豐富的長文數據

      • 更合理的評測體系和實驗范式,幫助更快的迭代

      • 更完善的訓推基建,榨干GPU的潛力

      補充

      開源推理代碼swa的實現忘記刪掉了,看到有人問為什么最后沒有用。這里也簡單回復下:當然是效果不行

      這個地方實驗的比較早,當時GPT-OSS還沒有開源,看到GPT-OSS結構長這樣還挺吃驚的。這里可以簡單講講我們的一些失敗經驗。我們是CPT范式變成Hybrid SWA的思路,這里考慮了做層間混合和層內混合兩種,做層內混合的出發點是這樣層間的計算強度是均衡的,不管是訓練做PP策略,還是推理的時候做PP或者AFD分離都更友好。

      當然都沒work,具體表現為Context越長性能下降越顯著,這在Agent場景是不太能接受的。

      在我們的分析里,這里有很多Global Attention Pattern(如retrieval head和induction head)在前期預訓練階段已經形成,通過CPT很難調整這些Attention Pattern。如果構建數據探針去檢索對應的head并將其保留為Full Attention能極大的緩解對應問題,但是不幸的是,根據人類先驗很難把這些Pattern全部探出來。

      另外,這個問題和Attention sink沒有關系。

      如果大家對這種思路感興趣的話,GPT-OSS、CWM、Gemma的性能大家可以分析下,特別是長文。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      48歲范曉萱現身陜西,打扮一言難盡!一頭綠毛,臉好腫,狀態好差

      48歲范曉萱現身陜西,打扮一言難盡!一頭綠毛,臉好腫,狀態好差

      小娛樂悠悠
      2025-12-18 10:12:41
      湖南三甲醫院突緊急辟謠:從未與柬埔寨生命科學院合作!

      湖南三甲醫院突緊急辟謠:從未與柬埔寨生命科學院合作!

      凡知
      2025-12-18 16:05:54
      杜蘭特:2019年總決賽沒人提醒我帶傷打會跟腱斷裂,不然我可能不會上

      杜蘭特:2019年總決賽沒人提醒我帶傷打會跟腱斷裂,不然我可能不會上

      懂球帝
      2025-12-18 11:18:56
      中美俄雷達差距太大!俄預警6000公里,美5500公里,中國令人意外

      中美俄雷達差距太大!俄預警6000公里,美5500公里,中國令人意外

      蜉蝣說
      2025-12-18 14:44:00
      網友:許亞軍祖宗18代都要感謝何晴,她生了一個“男版的自己”

      網友:許亞軍祖宗18代都要感謝何晴,她生了一個“男版的自己”

      小丸子的娛樂圈
      2025-12-18 18:09:07
      張學友陳奕迅演唱會現場,2人受賄放行126名無票粉絲,判了

      張學友陳奕迅演唱會現場,2人受賄放行126名無票粉絲,判了

      大風新聞
      2025-12-17 21:35:03
      當聽泉鑒寶直播的“博物館一件,我一件”玩笑話成為現實

      當聽泉鑒寶直播的“博物館一件,我一件”玩笑話成為現實

      總在茶余后
      2025-12-18 06:00:09
      邱毅:流傳的屠殺中國人的日本軍官照片是高市早苗祖父高市利彥!

      邱毅:流傳的屠殺中國人的日本軍官照片是高市早苗祖父高市利彥!

      南權先生
      2025-12-16 16:22:32
      央視曝光套路貸陷阱:借款13萬滾到1300萬!結局來了

      央視曝光套路貸陷阱:借款13萬滾到1300萬!結局來了

      法老不說教
      2025-12-18 16:10:59
      重大突破!美國發明世界最小機器人,僅細胞大小,7分錢一個!

      重大突破!美國發明世界最小機器人,僅細胞大小,7分錢一個!

      徐德文科學頻道
      2025-12-17 21:01:47
      不裝了!公開支持保羅+曝光快船混亂內幕,科林斯,你大膽啊

      不裝了!公開支持保羅+曝光快船混亂內幕,科林斯,你大膽啊

      球童無忌
      2025-12-18 22:56:00
      CBA最差教練!球隊開賽3連敗,有好球員不用,球迷:快下課

      CBA最差教練!球隊開賽3連敗,有好球員不用,球迷:快下課

      籃球專區
      2025-12-18 23:19:32
      美國封鎖4年,中國偷偷造出"國之重器"!深圳實驗室打破全球壟斷

      美國封鎖4年,中國偷偷造出"國之重器"!深圳實驗室打破全球壟斷

      戧詞奪理
      2025-12-18 22:28:09
      網友在餐廳點了一只螃蟹引發熱議 專家:是正直愛潔蟹,有毒不能吃

      網友在餐廳點了一只螃蟹引發熱議 專家:是正直愛潔蟹,有毒不能吃

      封面新聞
      2025-12-18 18:47:04
      奧迪:我們只能造出熱效率38%的發動機,你們是怎么做到45%的?

      奧迪:我們只能造出熱效率38%的發動機,你們是怎么做到45%的?

      少數派報告Report
      2025-12-17 07:32:02
      英王室三小只久違露面氣質大變?夏洛特一身紅裙氣場變更強,弟弟路易已是小帥哥模樣!

      英王室三小只久違露面氣質大變?夏洛特一身紅裙氣場變更強,弟弟路易已是小帥哥模樣!

      英國報姐
      2025-12-17 21:42:13
      1948年大決戰前夕,毛主席突然下令槍斃手下大將,明令:“任何人不準求情”

      1948年大決戰前夕,毛主席突然下令槍斃手下大將,明令:“任何人不準求情”

      史海孤雁
      2025-12-18 20:43:13
      "崩老頭"火了!年輕女性在網上釣中年男性,索要小額紅包節日大紅包

      "崩老頭"火了!年輕女性在網上釣中年男性,索要小額紅包節日大紅包

      互聯網大觀
      2025-12-12 15:14:03
      天才空降騰訊,27 歲姚順雨擔任騰訊首席AI科學家,履歷非常亮眼

      天才空降騰訊,27 歲姚順雨擔任騰訊首席AI科學家,履歷非常亮眼

      凱旋學長
      2025-12-18 17:49:43
      轟動全國的游戲軍費貪污案,欠鋪路民工80,沒有萬

      轟動全國的游戲軍費貪污案,欠鋪路民工80,沒有萬

      遠方青木
      2025-12-16 23:38:18
      2025-12-18 23:36:49
      開源中國 incentive-icons
      開源中國
      每天為開發者推送最新技術資訊
      7505文章數 34487關注度
      往期回顧 全部

      科技要聞

      2025新一代人工智能創業大賽總決賽收官

      頭條要聞

      在野黨參議員問了句日本"存亡危機" 高市早苗瞬間冷臉

      頭條要聞

      在野黨參議員問了句日本"存亡危機" 高市早苗瞬間冷臉

      體育要聞

      紐約尼克斯,板正的球隊

      娛樂要聞

      絲芭放大招了!實名舉報鞠婧祎經濟犯罪

      財經要聞

      尹艷林:呼吁加快2.5億新市民落戶進程

      汽車要聞

      在零下30℃的考場里 凡爾賽C5 X和508L拿到了"穩"的證明

      態度原創

      旅游
      教育
      數碼
      本地
      公開課

      旅游要聞

      (年終特稿)免簽再擴圈 中外人員往來迎新利好

      教育要聞

      所謂教育,不過是三分說,七分等

      數碼要聞

      豪威集團發布超低功耗單芯片全彩場序微顯示器賦能新一代智能眼鏡

      本地新聞

      云游安徽|決戰烽火照古今,千秋一脈看宿州

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日韩亚洲国产中文字幕欧美| 欧美天堂在线| 亚洲av网站| 国产偷国产偷亚洲清高网站| 久久久久久久久熟女AV| 欧美一区二区三区在线观看| 91丨日韩丨精品丨乱码| 波多野42部无码喷潮| 国产精品 视频一区 二区三区| 无码中文字幕av免费放| 九色视频丨PORNY丨丝袜| 欧美成aⅴ人高清免费| 亚洲国产精品va在线看黑人| 97se亚洲综合自在线| 538精品在线观看| 男女性杂交内射女bbwxz| 中文字幕av无码不卡| 亚洲无码电影在线观看| 延安市| 日韩一区二区三区无码影院| 国产成人精品综合在线观看| 国产成人做爰A片免费胖人| 灌阳县| 风间由美性色一区二区三区| 亚洲精品国产suv| 午夜成人福利| 河津市| 亚洲日韩成人av无码网站| 四虎永久免费高清视频| 9191久久| 91狠| 乱中年女人伦| 色综合天天综合天天综| 免费在线观看A| 亚洲无线一二三四区手机| 色婷婷av| 国产乱码一区二区三区| 亚洲无码AAA| 在线 | 国产精品99传媒a| 放荡的少妇2欧美版| 久久熟女|