網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

MiniMax M2.5 發(fā)布：10B 激活參數(shù)，打進頭部模型

2026-02-13 23:33:24　來源: 賽博禪心

北京舉報

分享至

今天這篇本來早上就該發(fā)的

MiniMax 凌晨發(fā)了 M2.5，一看數(shù)據(jù)就知道得寫，但這兩天實在有點累，拖到晚上才弄出來。先跟 MiniMax 的朋友們說一句，恭喜，這次發(fā)的東西確實硬

有個事情官方?jīng)]說：M2.5 為 229B，激活只有 10B

https://huggingface.co/MiniMaxAI/MiniMax-M2.5/blob/main/config.json

但在SWE-Bench Verified 80.2%，Multi-SWE-Bench 51.3%（第一），BrowseComp 76.3%。編程跟 Opus 4.6 基本持平，多語言編程直接拿了全行業(yè)最高。搜索和工具調(diào)用也到了頂尖水平

M2.5 核心 benchmark 一覽

第一梯隊里參數(shù)規(guī)模最小的旗艦模型。10B 激活參數(shù)打到了跟 Opus 4.6 一個級別。做私有化部署的朋友可以品品這個顯存占用和推理能效比

看看經(jīng)濟賬：M2.5 有兩個版本，能力完全一樣，速度和價格不同

快的叫 M2.5-Lightning，100 TPS，每百萬 token 輸入 0.3 美金、輸出 2.4 美金。
慢的叫 M2.5，50 TPS，價格再砍一半，每百萬 token 輸入 0.3 美金、輸出 1.2 美金。

兩個版本都支持緩存，按輸出價格算，M2.5 是 Opus、Gemini 3 Pro、GPT-5 的 1/10 到 1/20

換成更具象的數(shù)字：在以每秒輸出 100 個 token 的情況下，連續(xù)工作一小時只需要 1 美金，而在每秒輸出 50 個 token 的情況下，只需要 0.3 美金。

1 萬美金，夠一個 Agent 連續(xù)跑 4 年

這個賬算得過來之后，很多之前「舍不得讓 Agent 長時間跑」的場景就打開了。跑完一整套 SWE-Bench Verified 評測，M2.5 單任務(wù)的總成本只有 Opus 4.6 的 10%

編程
編程 benchmark

有個細節(jié)挺有意思。M2.5 在訓練過程中自己演化出了一個「寫 Spec」的行為，動手寫代碼之前會先從架構(gòu)師視角把功能、結(jié)構(gòu)、UI 設(shè)計全部拆解規(guī)劃一遍。這個行為是涌現(xiàn)出來的，不是手動設(shè)計的

訓練覆蓋了 10 多種語言（Go、C、C++、TypeScript、Rust、Kotlin、Python、Java、JS、PHP、Lua、Dart、Ruby），在超過 20 萬個真實環(huán)境上跑

能力不只是修 bug，從 0 到 1 的系統(tǒng)設(shè)計、1 到 10 的開發(fā)、10 到 90 的功能迭代、90 到 100 的 code review 和系統(tǒng)測試，全流程都能接。覆蓋 Web、Android、iOS、Windows 的全棧項目，包含 Server 端 API、業(yè)務(wù)邏輯、數(shù)據(jù)庫

MiniMax 把 VIBE benchmark 升級了一個 Pro 版，任務(wù)復雜度和領(lǐng)域覆蓋度都拉高了不少。在 VIBE Pro 上，M2.5 跟 Opus 4.5 表現(xiàn)相當

VIBE Pro 對比

腳手架泛化性也驗過了。在 Droid 上跑 SWE-Bench，M2.5 是 79.7，Opus 4.6 是 78.9。在 OpenCode 上，M2.5 是 76.1，Opus 4.6 是 75.9。換了腳手架照樣打

搜索和工具調(diào)用
搜索 benchmark

MiniMax 自建了一個評測集叫 RISE（Realistic Interactive Search Evaluation），專門測真實專業(yè)任務(wù)上的搜索能力。邏輯是這樣的：人類專家做搜索任務(wù)的時候，用搜索引擎本身只占一小部分，大量工作是在專業(yè)網(wǎng)頁里深度探索。M2.5 在這類場景上表現(xiàn)很強

比上一代還省。在 BrowseComp、Wide Search、RISE 多項任務(wù)上，M2.5 用更少的搜索輪次拿到了更好的結(jié)果，輪次消耗比 M2.1 少了大約 20%

模型學會了用更短的路徑逼近答案

辦公
辦公場景對比

這塊 MiniMax 找了金融、法律、社科領(lǐng)域的資深從業(yè)者一起做訓練數(shù)據(jù)，把行業(yè)的隱性知識帶進了模型訓練。Word 排版、PPT 編輯、Excel 金融建模這些場景上有明顯提升

他們內(nèi)部的 GDPval-MM 評測框架會同時評交付質(zhì)量和 Agent 執(zhí)行軌跡的專業(yè)性，還監(jiān)控全流程 token 成本。對比主流模型平均勝率 59.0%

速度

M2.5 比 M2.1 完成 SWE-Bench 任務(wù)快了 37%

具體來說：端到端運行時間從平均 31.3 分鐘降到 22.8 分鐘，跟 Opus 4.6 的 22.9 分鐘幾乎一樣。每個任務(wù)的 token 消耗從 3.72M 降到了 3.52M

變快了，還變省了

迭代速度

108 天，M2、M2.1、M2.5 三個版本

在 SWE-Bench Verified 上，M2 系列的進步曲線斜率比 Claude、GPT、Gemini 系列都陡

M2 系列 vs 同行的進步速度，自己看斜率

MiniMax 說「行業(yè)最快的進步速度」，從這張圖看，不虛

Agent RL

技術(shù)層面簡單記幾個點

M2.5 的核心訓練框架叫 Forge，原生 Agent RL 框架。通過引入中間層完全解耦了訓推引擎和 Agent，支持任意 Agent 腳手架接入。這讓模型在不同編程工具和 Agent 環(huán)境之間的泛化性很強

Forge 架構(gòu)

算法上用的是他們?nèi)ツ瓿跆岢龅?CISPO 算法保障 MoE 模型訓練穩(wěn)定性，加上 Process Reward 做全鏈路監(jiān)控，再用真實任務(wù)耗時作為 Reward 來平衡效果和速度。訓練側(cè)通過樹狀合并樣本實現(xiàn)了大約 40 倍加速

Agent RL 算法與 Reward 設(shè)計

MiniMax 說后續(xù)會單獨發(fā)一篇技術(shù)博客詳細講 RL scaling，到時候可以再看看

MiniMax 內(nèi)部在用

MiniMax 內(nèi)部已經(jīng)全面上線 M2.5，覆蓋研發(fā)、產(chǎn)品、銷售、HR、財務(wù)
整體任務(wù)的 30% 由 M2.5 自主完成，編程場景里新提交代碼的 80% 由模型生成

產(chǎn)品側(cè)，MiniMax Agent 做了一套標準化的 Office Skills，在 MAX 模式下會根據(jù)文件類型自動加載對應能力。用戶還可以把 Office Skills 和行業(yè)經(jīng)驗結(jié)合起來創(chuàng)建可復用的「專家」（Expert），目前平臺上已經(jīng)有超過 1 萬個用戶創(chuàng)建的 Expert

模型權(quán)重會在 HuggingFace 開源，支持本地部署

更多 benchmark 還沒完...但先碎覺

這兩天，國產(chǎn)模型扎堆發(fā)布，GLM-5、DeepSeek 更新、M2.5，春節(jié)前的密度有點離譜

以及....這些 AI 廠的春節(jié)發(fā)布，還沒完

然后...晚安...碎覺...

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.