今天這篇本來早上就該發(fā)的
MiniMax 凌晨發(fā)了 M2.5,一看數(shù)據(jù)就知道得寫,但這兩天實在有點累,拖到晚上才弄出來。先跟 MiniMax 的朋友們說一句,恭喜,這次發(fā)的東西確實硬
有個事情官方?jīng)]說:M2.5 為 229B,激活只有 10B
![]()
https://huggingface.co/MiniMaxAI/MiniMax-M2.5/blob/main/config.json
但在SWE-Bench Verified 80.2%,Multi-SWE-Bench 51.3%(第一),BrowseComp 76.3%。編程跟 Opus 4.6 基本持平,多語言編程直接拿了全行業(yè)最高。搜索和工具調(diào)用也到了頂尖水平
![]()
M2.5 核心 benchmark 一覽
第一梯隊里參數(shù)規(guī)模最小的旗艦模型。10B 激活參數(shù)打到了跟 Opus 4.6 一個級別。做私有化部署的朋友可以品品這個顯存占用和推理能效比
看看經(jīng)濟賬:M2.5 有兩個版本,能力完全一樣,速度和價格不同
快的叫 M2.5-Lightning,100 TPS,每百萬 token 輸入 0.3 美金、輸出 2.4 美金。
慢的叫 M2.5,50 TPS,價格再砍一半,每百萬 token 輸入 0.3 美金、輸出 1.2 美金。
兩個版本都支持緩存,按輸出價格算,M2.5 是 Opus、Gemini 3 Pro、GPT-5 的 1/10 到 1/20
![]()
換成更具象的數(shù)字:在以每秒輸出 100 個 token 的情況下,連續(xù)工作一小時只需要 1 美金,而在每秒輸出 50 個 token 的情況下,只需要 0.3 美金。
1 萬美金,夠一個 Agent 連續(xù)跑 4 年
這個賬算得過來之后,很多之前「舍不得讓 Agent 長時間跑」的場景就打開了。跑完一整套 SWE-Bench Verified 評測,M2.5 單任務(wù)的總成本只有 Opus 4.6 的 10%
編程 ![]()
編程 benchmark
有個細節(jié)挺有意思。M2.5 在訓練過程中自己演化出了一個「寫 Spec」的行為,動手寫代碼之前會先從架構(gòu)師視角把功能、結(jié)構(gòu)、UI 設(shè)計全部拆解規(guī)劃一遍。這個行為是涌現(xiàn)出來的,不是手動設(shè)計的
訓練覆蓋了 10 多種語言(Go、C、C++、TypeScript、Rust、Kotlin、Python、Java、JS、PHP、Lua、Dart、Ruby),在超過 20 萬個真實環(huán)境上跑
能力不只是修 bug,從 0 到 1 的系統(tǒng)設(shè)計、1 到 10 的開發(fā)、10 到 90 的功能迭代、90 到 100 的 code review 和系統(tǒng)測試,全流程都能接。覆蓋 Web、Android、iOS、Windows 的全棧項目,包含 Server 端 API、業(yè)務(wù)邏輯、數(shù)據(jù)庫
MiniMax 把 VIBE benchmark 升級了一個 Pro 版,任務(wù)復雜度和領(lǐng)域覆蓋度都拉高了不少。在 VIBE Pro 上,M2.5 跟 Opus 4.5 表現(xiàn)相當
![]()
VIBE Pro 對比
腳手架泛化性也驗過了。在 Droid 上跑 SWE-Bench,M2.5 是 79.7,Opus 4.6 是 78.9。在 OpenCode 上,M2.5 是 76.1,Opus 4.6 是 75.9。換了腳手架照樣打
搜索和工具調(diào)用 ![]()
搜索 benchmark
MiniMax 自建了一個評測集叫 RISE(Realistic Interactive Search Evaluation),專門測真實專業(yè)任務(wù)上的搜索能力。邏輯是這樣的:人類專家做搜索任務(wù)的時候,用搜索引擎本身只占一小部分,大量工作是在專業(yè)網(wǎng)頁里深度探索。M2.5 在這類場景上表現(xiàn)很強
比上一代還省。在 BrowseComp、Wide Search、RISE 多項任務(wù)上,M2.5 用更少的搜索輪次拿到了更好的結(jié)果,輪次消耗比 M2.1 少了大約 20%
模型學會了用更短的路徑逼近答案
辦公 ![]()
辦公場景對比
這塊 MiniMax 找了金融、法律、社科領(lǐng)域的資深從業(yè)者一起做訓練數(shù)據(jù),把行業(yè)的隱性知識帶進了模型訓練。Word 排版、PPT 編輯、Excel 金融建模這些場景上有明顯提升
他們內(nèi)部的 GDPval-MM 評測框架會同時評交付質(zhì)量和 Agent 執(zhí)行軌跡的專業(yè)性,還監(jiān)控全流程 token 成本。對比主流模型平均勝率 59.0%
速度
M2.5 比 M2.1 完成 SWE-Bench 任務(wù)快了 37%
具體來說:端到端運行時間從平均 31.3 分鐘降到 22.8 分鐘,跟 Opus 4.6 的 22.9 分鐘幾乎一樣。每個任務(wù)的 token 消耗從 3.72M 降到了 3.52M
變快了,還變省了
迭代速度
108 天,M2、M2.1、M2.5 三個版本
在 SWE-Bench Verified 上,M2 系列的進步曲線斜率比 Claude、GPT、Gemini 系列都陡
![]()
M2 系列 vs 同行的進步速度,自己看斜率
MiniMax 說「行業(yè)最快的進步速度」,從這張圖看,不虛
Agent RL
技術(shù)層面簡單記幾個點
M2.5 的核心訓練框架叫 Forge,原生 Agent RL 框架。通過引入中間層完全解耦了訓推引擎和 Agent,支持任意 Agent 腳手架接入。這讓模型在不同編程工具和 Agent 環(huán)境之間的泛化性很強
![]()
Forge 架構(gòu)
算法上用的是他們?nèi)ツ瓿跆岢龅?CISPO 算法保障 MoE 模型訓練穩(wěn)定性,加上 Process Reward 做全鏈路監(jiān)控,再用真實任務(wù)耗時作為 Reward 來平衡效果和速度。訓練側(cè)通過樹狀合并樣本實現(xiàn)了大約 40 倍加速
![]()
Agent RL 算法與 Reward 設(shè)計
MiniMax 說后續(xù)會單獨發(fā)一篇技術(shù)博客詳細講 RL scaling,到時候可以再看看
MiniMax 內(nèi)部在用
MiniMax 內(nèi)部已經(jīng)全面上線 M2.5,覆蓋研發(fā)、產(chǎn)品、銷售、HR、財務(wù)
整體任務(wù)的 30% 由 M2.5 自主完成,編程場景里新提交代碼的 80% 由模型生成
產(chǎn)品側(cè),MiniMax Agent 做了一套標準化的 Office Skills,在 MAX 模式下會根據(jù)文件類型自動加載對應能力。用戶還可以把 Office Skills 和行業(yè)經(jīng)驗結(jié)合起來創(chuàng)建可復用的「專家」(Expert),目前平臺上已經(jīng)有超過 1 萬個用戶創(chuàng)建的 Expert
模型權(quán)重會在 HuggingFace 開源,支持本地部署
![]()
更多 benchmark 還沒完...但先碎覺
這兩天,國產(chǎn)模型扎堆發(fā)布,GLM-5、DeepSeek 更新、M2.5,春節(jié)前的密度有點離譜
以及....這些 AI 廠的春節(jié)發(fā)布,還沒完
然后...晚安...碎覺...
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.