<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      MiniMax M2.5 發布:10B 激活參數,打進頭部模型

      0
      分享至

      今天這篇本來早上就該發的

      MiniMax 凌晨發了 M2.5,一看數據就知道得寫,但這兩天實在有點累,拖到晚上才弄出來。先跟 MiniMax 的朋友們說一句,恭喜,這次發的東西確實硬

      有個事情官方沒說:M2.5 為 229B,激活只有 10B


      https://huggingface.co/MiniMaxAI/MiniMax-M2.5/blob/main/config.json

      但在SWE-Bench Verified 80.2%,Multi-SWE-Bench 51.3%(第一),BrowseComp 76.3%。編程跟 Opus 4.6 基本持平,多語言編程直接拿了全行業最高。搜索和工具調用也到了頂尖水平


      M2.5 核心 benchmark 一覽

      第一梯隊里參數規模最小的旗艦模型。10B 激活參數打到了跟 Opus 4.6 一個級別。做私有化部署的朋友可以品品這個顯存占用和推理能效比

      看看經濟賬:M2.5 有兩個版本,能力完全一樣,速度和價格不同

      快的叫 M2.5-Lightning,100 TPS,每百萬 token 輸入 0.3 美金、輸出 2.4 美金。
      慢的叫 M2.5,50 TPS,價格再砍一半,每百萬 token 輸入 0.3 美金、輸出 1.2 美金。

      兩個版本都支持緩存,按輸出價格算,M2.5 是 Opus、Gemini 3 Pro、GPT-5 的 1/10 到 1/20


      換成更具象的數字:在以每秒輸出 100 個 token 的情況下,連續工作一小時只需要 1 美金,而在每秒輸出 50 個 token 的情況下,只需要 0.3 美金。

      1 萬美金,夠一個 Agent 連續跑 4 年

      這個賬算得過來之后,很多之前「舍不得讓 Agent 長時間跑」的場景就打開了。跑完一整套 SWE-Bench Verified 評測,M2.5 單任務的總成本只有 Opus 4.6 的 10%

      編程
      編程 benchmark

      有個細節挺有意思。M2.5 在訓練過程中自己演化出了一個「寫 Spec」的行為,動手寫代碼之前會先從架構師視角把功能、結構、UI 設計全部拆解規劃一遍。這個行為是涌現出來的,不是手動設計的

      訓練覆蓋了 10 多種語言(Go、C、C++、TypeScript、Rust、Kotlin、Python、Java、JS、PHP、Lua、Dart、Ruby),在超過 20 萬個真實環境上跑

      能力不只是修 bug,從 0 到 1 的系統設計、1 到 10 的開發、10 到 90 的功能迭代、90 到 100 的 code review 和系統測試,全流程都能接。覆蓋 Web、Android、iOS、Windows 的全棧項目,包含 Server 端 API、業務邏輯、數據庫

      MiniMax 把 VIBE benchmark 升級了一個 Pro 版,任務復雜度和領域覆蓋度都拉高了不少。在 VIBE Pro 上,M2.5 跟 Opus 4.5 表現相當


      VIBE Pro 對比

      腳手架泛化性也驗過了。在 Droid 上跑 SWE-Bench,M2.5 是 79.7,Opus 4.6 是 78.9。在 OpenCode 上,M2.5 是 76.1,Opus 4.6 是 75.9。換了腳手架照樣打

      搜索和工具調用
      搜索 benchmark

      MiniMax 自建了一個評測集叫 RISE(Realistic Interactive Search Evaluation),專門測真實專業任務上的搜索能力。邏輯是這樣的:人類專家做搜索任務的時候,用搜索引擎本身只占一小部分,大量工作是在專業網頁里深度探索。M2.5 在這類場景上表現很強

      比上一代還省。在 BrowseComp、Wide Search、RISE 多項任務上,M2.5 用更少的搜索輪次拿到了更好的結果,輪次消耗比 M2.1 少了大約 20%

      模型學會了用更短的路徑逼近答案

      辦公
      辦公場景對比

      這塊 MiniMax 找了金融、法律、社科領域的資深從業者一起做訓練數據,把行業的隱性知識帶進了模型訓練。Word 排版、PPT 編輯、Excel 金融建模這些場景上有明顯提升

      他們內部的 GDPval-MM 評測框架會同時評交付質量和 Agent 執行軌跡的專業性,還監控全流程 token 成本。對比主流模型平均勝率 59.0%

      速度

      M2.5 比 M2.1 完成 SWE-Bench 任務快了 37%

      具體來說:端到端運行時間從平均 31.3 分鐘降到 22.8 分鐘,跟 Opus 4.6 的 22.9 分鐘幾乎一樣。每個任務的 token 消耗從 3.72M 降到了 3.52M

      變快了,還變省了

      迭代速度

      108 天,M2、M2.1、M2.5 三個版本

      在 SWE-Bench Verified 上,M2 系列的進步曲線斜率比 Claude、GPT、Gemini 系列都陡


      M2 系列 vs 同行的進步速度,自己看斜率

      MiniMax 說「行業最快的進步速度」,從這張圖看,不虛

      Agent RL

      技術層面簡單記幾個點

      M2.5 的核心訓練框架叫 Forge,原生 Agent RL 框架。通過引入中間層完全解耦了訓推引擎和 Agent,支持任意 Agent 腳手架接入。這讓模型在不同編程工具和 Agent 環境之間的泛化性很強


      Forge 架構

      算法上用的是他們去年初提出的 CISPO 算法保障 MoE 模型訓練穩定性,加上 Process Reward 做全鏈路監控,再用真實任務耗時作為 Reward 來平衡效果和速度。訓練側通過樹狀合并樣本實現了大約 40 倍加速


      Agent RL 算法與 Reward 設計

      MiniMax 說后續會單獨發一篇技術博客詳細講 RL scaling,到時候可以再看看

      MiniMax 內部在用

      MiniMax 內部已經全面上線 M2.5,覆蓋研發、產品、銷售、HR、財務
      整體任務的 30% 由 M2.5 自主完成,編程場景里新提交代碼的 80% 由模型生成

      產品側,MiniMax Agent 做了一套標準化的 Office Skills,在 MAX 模式下會根據文件類型自動加載對應能力。用戶還可以把 Office Skills 和行業經驗結合起來創建可復用的「專家」(Expert),目前平臺上已經有超過 1 萬個用戶創建的 Expert

      模型權重會在 HuggingFace 開源,支持本地部署


      更多 benchmark 還沒完...但先碎覺

      這兩天,國產模型扎堆發布,GLM-5、DeepSeek 更新、M2.5,春節前的密度有點離譜

      以及....這些 AI 廠的春節發布,還沒完

      然后...晚安...碎覺...

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      油價大降1.73元/升,汽油降至6.7元后全漲起來,下次調價變漲中

      油價大降1.73元/升,汽油降至6.7元后全漲起來,下次調價變漲中

      豬友巴巴
      2026-04-02 16:35:03
      “項王故里”景區招募項羽扮演者 要求身高185cm以上 日薪按身高10倍計算

      “項王故里”景區招募項羽扮演者 要求身高185cm以上 日薪按身高10倍計算

      閃電新聞
      2026-04-02 11:12:54
      上市公司突發,董事長失聯

      上市公司突發,董事長失聯

      第一財經資訊
      2026-04-03 14:29:12
      浙江東陽,33 歲的男子,在母親長眠的公墓旁,在車里結束了生命

      浙江東陽,33 歲的男子,在母親長眠的公墓旁,在車里結束了生命

      魔都姐姐雜談
      2026-03-30 19:25:57
      浪姐7大翻車!主持人開黃腔,杜海濤媽媽搶話,黃燦燦揭謝娜老底

      浪姐7大翻車!主持人開黃腔,杜海濤媽媽搶話,黃燦燦揭謝娜老底

      阿傖說事
      2026-04-03 11:55:00
      4月醫保新政:家有高血壓、糖尿病、心臟病的,趕緊辦

      4月醫保新政:家有高血壓、糖尿病、心臟病的,趕緊辦

      小談食刻美食
      2026-04-03 10:10:23
      他判刑13年至死未平反,10萬人送行墓前立百碑,百姓說不能忘了他

      他判刑13年至死未平反,10萬人送行墓前立百碑,百姓說不能忘了他

      小嵩
      2026-04-03 14:01:17
      繼續跌跌跌!2026年3月29日 - 飛天茅臺和生肖酒每日行情價格

      繼續跌跌跌!2026年3月29日 - 飛天茅臺和生肖酒每日行情價格

      阿天愛旅行
      2026-03-31 14:31:55
      亞洲最貴11人陣容:“亞洲一哥”仍舊領銜,曼城中衛價格最高

      亞洲最貴11人陣容:“亞洲一哥”仍舊領銜,曼城中衛價格最高

      里芃芃體育
      2026-04-03 11:30:13
      朝鮮男人煙不離手,金正恩抽什么牌子的香煙?一包煙的價格是多少

      朝鮮男人煙不離手,金正恩抽什么牌子的香煙?一包煙的價格是多少

      大千世界觀
      2025-04-06 08:14:26
      被免去廳長職務半年后,夏智倫主動投案

      被免去廳長職務半年后,夏智倫主動投案

      新浪財經
      2026-04-03 15:21:39
      馬斯克:西方不搞電車,集體擁抱氫能,中國電動車錯了嗎?

      馬斯克:西方不搞電車,集體擁抱氫能,中國電動車錯了嗎?

      杰絲聊古今
      2026-04-03 05:33:28
      澳門世界杯:8強誕生!德日潰不成軍,小莫開啟暴走 王楚欽遇鬼才

      澳門世界杯:8強誕生!德日潰不成軍,小莫開啟暴走 王楚欽遇鬼才

      桃葉渡春
      2026-04-03 10:34:53
      英媒:中國在美伊沖突問題上遵循“不打斷敵人犯錯”原則

      英媒:中國在美伊沖突問題上遵循“不打斷敵人犯錯”原則

      俄羅斯衛星通訊社
      2026-04-03 15:14:10
      場均23+5,湖人打算給2.4億合同!佩林卡別犯渾,他不是爭冠拼圖

      場均23+5,湖人打算給2.4億合同!佩林卡別犯渾,他不是爭冠拼圖

      你的籃球頻道
      2026-04-03 13:41:26
      日本九州大學的中國交換生辦完合約手機,沒有按契約進行還款,拿著手機回中國了……

      日本九州大學的中國交換生辦完合約手機,沒有按契約進行還款,拿著手機回中國了……

      日本物語
      2026-04-02 20:39:33
      坦白備好壽衣和遺照3個月后,張柏芝近況曝光,謝霆鋒媽媽沒說謊

      坦白備好壽衣和遺照3個月后,張柏芝近況曝光,謝霆鋒媽媽沒說謊

      潮鹿逐夢
      2026-04-01 11:14:27
      火箭一口氣獲4大喜訊!提前鎖前6直通季后賽 杜蘭特獲月最佳提名

      火箭一口氣獲4大喜訊!提前鎖前6直通季后賽 杜蘭特獲月最佳提名

      鍋子籃球
      2026-04-03 12:08:01
      美國宣布:4月2日重返月球!尷尬的是:美國目前沒有載人登月能力

      美國宣布:4月2日重返月球!尷尬的是:美國目前沒有載人登月能力

      粵語音樂噴泉
      2026-04-01 13:11:23
      4月2日俄烏:特朗普又放“狠話”,俄軍損失突破130萬

      4月2日俄烏:特朗普又放“狠話”,俄軍損失突破130萬

      山河路口
      2026-04-02 17:16:01
      2026-04-03 16:03:00
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      357文章數 50關注度
      往期回顧 全部

      數碼要聞

      充電寶新國標正式發布!OPPO官宣新品已通過驗收:包括針刺、擠壓等

      頭條要聞

      小米宣布部分手機調價 盧偉冰、魏思琪:望大家理解

      頭條要聞

      小米宣布部分手機調價 盧偉冰、魏思琪:望大家理解

      體育要聞

      沖擊世界杯失敗,80歲老帥一氣之下病倒了

      娛樂要聞

      《浪姐7》最新人氣TOP 曾沛慈斷層第一

      財經要聞

      專家稱長期攝入“飄香劑”存在健康隱患

      科技要聞

      5萬輛庫存車,給了特斯拉一記重拳

      汽車要聞

      你介意和遠房親戚長得很像嗎?

      態度原創

      數碼
      家居
      本地
      時尚
      公開課

      數碼要聞

      同一塊主板連“殺”三顆銳龍7 用戶稱華擎B850M已成“連環殺手”

      家居要聞

      溫馨多元 愛的具象化

      本地新聞

      跟著歌聲游安徽,聽古村回響

      怎么她們都穿成18世紀的粉彩畫?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版