![]()
編輯|張倩、Panda
Anthropic 的 Opus 4.6 剛發(fā)布,智商確實高到讓人頭皮發(fā)麻,但看著那個價格表,我的錢包也開始發(fā)麻了。
這就很尷尬了。Opus 4.6 的出現(xiàn),直接在開發(fā)者圈子里制造了一場「智力焦慮」:模型好用是真好用,貴也是真貴。原版價格紋絲不動就算了,那個號稱「極速版」的家伙,每百萬輸出 Token 的成本居然從 25 美元直接飆到了 150 美元。
整整 6 倍的漲幅!看著 Token 計費表像風(fēng)一樣自由地狂奔,本來想用 AI 釋放生產(chǎn)力的我,現(xiàn)在按回車鍵之前都得先在心里過一遍賬單。這哪里是請了個助手,簡直是供了個「吞金獸」。
這種「生產(chǎn)力稅」的存在,逼得打工人不得不進(jìn)入一種尷尬的模式:一邊渴望頂級智力帶來的效率,一邊在按回車鍵時反復(fù)權(quán)衡賬單。難道高智力和高性價比,真的像魚和熊掌一樣不可兼得?難道我們這些普通打工人,就不配擁有「智力自由」?
就在大家捂著錢包嘆氣的時候,MiniMax 反手甩出了一個王炸:MiniMax M2.5
這個模型相當(dāng)能打,無論是 coding 還是 agent 能力,都能與 Claude Opus 4.6 掰掰手腕,甚至在某些維度上掰贏了。
數(shù)據(jù)不會說謊:M2.5 在多語言任務(wù) Multi-SWE-Bench 上拿下了行業(yè)第一;而在 SWE-Bench Verified 評測集上,基于 Droid 和 OpenCode 的實戰(zhàn)測試中,它的通過率(79.7% / 76.1%)更是雙雙反超了 Opus 4.6。
![]()
在 BrowseComp、Wide Search 等搜索和工具調(diào)用榜單的評測中,M2.5 也達(dá)到了行業(yè)頂尖的水平。
![]()
更具沖擊力的是它在 MiniMax 內(nèi)部的真實表現(xiàn):在 MiniMax 內(nèi)部業(yè)務(wù)場景中,整體任務(wù)的 30% 由 M2.5 自主完成;而在編程場景中,M2.5 生成的代碼已占新提交代碼的 80%。
它不僅 Coding 和 Agent 能力硬剛 Claude Opus 4.6 不落下風(fēng),在專業(yè)的辦公領(lǐng)域更是「偷偷補過課」。為了讓模型真正懂行,MiniMax 拉來了金融、法律、社會科學(xué)等領(lǐng)域的資深從業(yè)者當(dāng)「教官」,把行業(yè)隱性知識灌進(jìn)模型。
在內(nèi)部嚴(yán)苛的 Cowork Agent 評測(GDPval-MM) 中,M2.5 在 Word 排版、Excel 金融建模等高階場景下,對主流模型拿下了 59.0% 的平均勝率。這意味著它交付的不再是簡單的草稿,而是具備專業(yè)水準(zhǔn)的「半成品」。
![]()
但最離譜的是,這樣一個全能選手,居然參數(shù)量只有 10B,是第一梯隊中參數(shù)規(guī)模最小的旗艦?zāi)P停恍枰嘿F的設(shè)備就能私有化部署。
好家伙,這哪是輔助駕駛啊,這分明是搶方向盤來了!
MiniMax M2.5 表現(xiàn)卓越,也為這家剛上市一個多月的公司的股價帶來了一波強勁上漲:
![]()
1 美元時薪的頂級打工人
這么小的體積,再加上「思考」鏈路的深度優(yōu)化,M2.5 的吞吐量可以達(dá)到 100 TPS,推理速度可以達(dá)到 Opus 4.6 的 2 倍。在 SWE-Bench Verified 測試中,M2.5 的端到端任務(wù)運行耗時從平均 31.3 分鐘減少到了 22.8 分鐘,這一速度與 Claude Opus 4.6 基本持平。
在需要即時反饋的場景里,這種「跟手」的感覺簡直太爽了。更爽的是,你完全不需要有「每按一次回車就少喝一杯奶茶」的心理負(fù)擔(dān)。來看看這個顛覆性的定價:
在每秒輸出 100 個 token 的情況下,連續(xù)工作一小時只需要 1 美元,而在每秒輸出 50 個 token 的情況下,只需要 0.3 美元。
1 美元就能雇傭一個頂級專家給你干一小時苦力!換算一下,1 萬美金可以讓 4 個 Agent 連續(xù)工作一年
這就很有意思了。以前我們不敢跑復(fù)雜 Agent,是因為怕跑著跑著就破產(chǎn)了;現(xiàn)在有了 M2.5,我們終于實現(xiàn)了 Agent 自由;讓 AI 24 小時持續(xù)上工,也不再是有余糧的地主家才能有的奢侈。
目前,M2.5 的 Vibe Coding 支持 PC 端、App 端、RN/Flutter 跨端甚至帶數(shù)據(jù)庫的前后端全棧開發(fā),用起來非常方便,普通打工人可以隨時上手。
為了驗證這個「10B 戰(zhàn)神」是不是真的能在性能比肩旗艦的同時,把生產(chǎn)力成本打下來,我們準(zhǔn)備了幾個真實的使用 Case。下面直接進(jìn)入實測。
一手實測
MiniMax M2.5 真能成為打工人的得力助手嗎?
作為苦逼的媒體人,我們最怕的就是在那堆長達(dá)幾小時的圓桌論壇速記里「淘金」。大佬們聊嗨了往往也是車轱轆話來回說,我們要想提煉點干貨,眼睛都得看瞎。
這種臟活累活,我是不敢交給 Opus 的,太貴。但現(xiàn)在既然 M2.5 這么便宜,那就不客氣了。
我們決定搞個破壞性測試:直接把一堆巨大的 HTML 格式的速記文件「喂」給它,讓它不僅要提煉觀點,還要分析趨勢、找分歧,甚至還要做橫向?qū)Ρ取?/p>
你是一個專業(yè)的行業(yè)圓桌論壇速讀分析師。我會逐個上傳論壇速記 / 紀(jì)要文件,你的任務(wù)是:1)提取核心觀點,用 bullet points 列出每位發(fā)言人的關(guān)鍵論斷和論據(jù);2)識別趨勢信號(正在形成共識的方向)和分歧點(存在爭議的立場或預(yù)測);3)標(biāo)注任何提及的具體數(shù)據(jù)、產(chǎn)品名或時間節(jié)點。每處理完一篇,輸出一份結(jié)構(gòu)化摘要。待我告知 "全部結(jié)束" 后,綜合所有文件,輸出一份總覽:橫向?qū)Ρ雀鲌稣搲闹貜?fù)主題與獨特視角,提煉出 3-5 條跨論壇的強趨勢,以及 2-3 個值得持續(xù)觀察的核心分歧。保持簡潔,避免泛化總結(jié),優(yōu)先引用發(fā)言人原話或具體案例。
MiniMax M2.5 接到任務(wù)后,絲毫沒有「消化不良」。面對超大文件,它甚至自作主張地啟動了多個 Agent 并行開工(頗有一種「兄弟們一起上」的既視感):
![]()
15 分鐘后,幾十萬 Token 跑完,一份高質(zhì)量報告出爐:
![]()
搞定了閱讀,再來試試寫代碼。
作為小編,我們每天都要跟排版做斗爭。雖然我們的排版規(guī)則不復(fù)雜(正文 15px、特定顏色加粗、版權(quán)信息居中……),但每次手動調(diào)也很煩。
既然官方宣稱 M2.5 具備「架構(gòu)師思維」,能原生 Spec 行為。也就是說,不同于普通模型上來就盲目堆代碼,M2.5 在動手前會先像資深架構(gòu)師一樣做規(guī)劃,主動拆解功能、結(jié)構(gòu)和 UI。無論是 Rust、C++ 還是 Python,從 0-1 的系統(tǒng)設(shè)計到最后的 Code Review,它都能像老手一樣 Hold 住全場。那我們就讓它手搓一個「微信公眾號 Markdown 編輯器」。
需求很簡單:復(fù)制進(jìn)來 →自動格式化 → 支持微調(diào) → 一鍵復(fù)制帶樣式。
第一步,為了防止它「聽不懂人話」,我們先讓它把我的需求翻譯成更專業(yè)的提示詞。
![]()
可以看到,MiniMax M2.5 大體上正確地理解了我們的需求,但在版權(quán)信息處出現(xiàn)了一點幻覺,輕松修改后,我們只需一句提示詞就能實現(xiàn)它:「讀取 微信公眾號 Markdown 編輯器開發(fā)提示詞.md 文件并實現(xiàn)它」。
![]()
生成時長 2 分半,接杯水的功夫,M2.5 輕輕松松就實現(xiàn)了這個實用小工具。找篇文章試試效果:
![]()
仔細(xì)檢查了一下,我們給出的需求都得到了滿足。
作為一家專業(yè)的 AI 媒體,日常收集 AI 社區(qū)名人觀點的素材也是工作的一部分,但問題是有時候只顧著收集,并沒有真正將這些素材用起來,它們都沉睡在我們的資料庫中。借助 MiniMax M2.5 + Claude Code,我們可以輕松地挖掘我們的知識倉庫,真正利用起塵封的知識。
首先,打開我們的選題庫,發(fā)現(xiàn)早期的文件和最近的文件命名格式不統(tǒng)一,而 M2.5 可以輕松解決這個問題,就一句話的事兒:
![]()
接下來,M2.5 還可以為我們將這些 docx 文檔轉(zhuǎn)換成兼容 Obsidian 的 Markdown 格式。這里我們可以引入 Obsidian 創(chuàng)始人 Steph Ango 親自開源的 obsidian-skills,給 M2.5 一個參考手冊。我們的提示詞也很簡單:
基于 Skills,將文件夾中的所有文件都轉(zhuǎn)換成符合 Obsidian 規(guī)范的 Markdown 文件。
![]()
接下來我們可以將轉(zhuǎn)換好的文件放入一個 Obsidian 倉庫來進(jìn)行管理,而 MiniMax M2.5 也可以跟隨我們一起。比如這里,我們可以讓 M2.5 提取選題中所有與 Andrej Karpathy 和吳恩達(dá)相關(guān)的選題:
![]()
可以看到,M2.5 找到了 5 個與 Andrej Karpathy 相關(guān)的選題,找到了 14 個與吳恩達(dá)相關(guān)的選題,并對選題進(jìn)行了總結(jié)同時還標(biāo)記了出處,而得益于 M2.5 10B 的輕量級參數(shù)規(guī)模,整個過程耗時不到 1 分鐘。
最后,我們還讓 M2.5 基于我們的選題文檔總結(jié)了近幾個月 AI 領(lǐng)域的發(fā)展趨勢,大家可以看看總結(jié)得是否正確:
![]()
M2.5 背后
108 天極速進(jìn)化的秘密
在前面的測評中,M2.5 已經(jīng)表現(xiàn)出明顯不同于普通模型的智能體能力。但比單次測評成績更令人細(xì)思極恐的,是 MiniMax 展現(xiàn)出的「進(jìn)化速度」。
在過去短短 108 天里,MiniMax 陸續(xù)更新了 M2、M2.1 和 M2.5 三個版本!
![]()
這讓 M2 系列模型在編程領(lǐng)域最具代表性的 SWE-Bench Verified 榜單上,相比 Claude、GPT 和 Gemini 等頂級模型系列,保持了行業(yè)最快的進(jìn)步速度 —— 這從上圖折線的斜率也能看出。
這種超越預(yù)期的迭代效率不是憑空出現(xiàn)的,也不是單純靠堆算力堆出來的。要理解它為什么能跑得這么快,就得看一眼它背后的訓(xùn)練體系:原生 Agent RL 框架 Forge
![]()
智能體訓(xùn)練的第一道坎,在于「語言模型」和「任務(wù)執(zhí)行者」這兩個身份之間的鴻溝。大模型原生是自回歸 Token 預(yù)測器,它可以模擬很多形式,但并不是為持續(xù)交互和工具調(diào)用而生。為了解決這一問題,MiniMax 引入了 Forge 原生 Agent RL 框架。
Forge 在設(shè)計上通過引入中間層完全解耦了底層訓(xùn)推引擎與 Agent,把「模型只負(fù)責(zé)處理 Token」這件事做到了極致。模型訓(xùn)練和推理看到的都是同一種 Token 形態(tài),不去理解什么工具調(diào)用、環(huán)境狀態(tài)這些復(fù)雜結(jié)構(gòu)。而 Agent 那一側(cè)則通過標(biāo)準(zhǔn)的 OpenAI 接口和模型通信,專心處理環(huán)境交互和上下文管理。
這種徹底解耦的好處是:模型能力不會被綁定在某一個具體 Agent 產(chǎn)品上,它可以接入不同的工具體系和腳手架,實現(xiàn)更強的泛化。
更大的難題是長鏈路下的信用分配(Credit Assignment)。任務(wù)執(zhí)行幾十步后才知道結(jié)果,模型很難回溯究竟是哪一步導(dǎo)致了失敗。MiniMax M2.5 引入了過程獎勵機制(Process Reward),對生成質(zhì)量進(jìn)行全鏈路監(jiān)控,而不僅看最終成敗。同時,為對齊真實用戶體驗,他們將任務(wù)完成耗時也納入獎勵函數(shù)。這套獎勵設(shè)計讓模型在智能度與響應(yīng)速度之間實現(xiàn)了可量化的最優(yōu)權(quán)衡。
![]()
這些算法創(chuàng)新要真正跑起來,還得過工程這一關(guān)。智能體數(shù)據(jù)天然有大量公共前綴,如果每條樣本獨立訓(xùn)練,同一段系統(tǒng)提示要反復(fù)計算數(shù)十遍。M2.5 將多條前綴相同的樣本合并為一棵前綴樹,通過樹狀合并訓(xùn)練樣本策略,實現(xiàn)了約 40 倍的訓(xùn)練加速。
另一項優(yōu)化是強化學(xué)習(xí)的調(diào)度策略:智能體任務(wù)耗時差異巨大,簡單任務(wù)秒回,復(fù)雜任務(wù)需等待。MiniMax 優(yōu)化了異步調(diào)度策略,平衡系統(tǒng)吞吐和樣本的 off-policyness,最終在系統(tǒng)吞吐量與訓(xùn)練效率之間達(dá)成了平衡。
Intelligence with Everyone
回到開頭 Claude Opus 4.6 的定價話題。極速版 Opus 4.6 高達(dá) 150 美元的輸出價格足以說明,在真正的生產(chǎn)力環(huán)境中,值錢的不只是智力本身,速度等影響效率的因素如今也變得舉足輕重。打工人真正需要的,是一個智力、速度等各方面都優(yōu)秀的「六邊形戰(zhàn)士」。
然而,頂級智力的高昂溢價正在制造一場隱形的技術(shù)分層:預(yù)算決定了你的 AI 助理是「滿血」還是「殘血」,是極速還是降速。在這一背景下,MiniMax M2.5 憑借 10B 級的輕巧規(guī)模承載了同級別的旗艦智力,不僅是當(dāng)前市場的性價比標(biāo)桿,更是將高階智能從「奢侈品」拉回到了「生產(chǎn)力工具」的范疇。
這更像是一場技術(shù)普惠,而非針對少數(shù)人的技術(shù)特權(quán)。此刻,MiniMax 所堅持的「服務(wù)普通人的 AI」「Intelligence with Everyone」具像化了。
如果把 M2.5 和 MiniMax 前段時間發(fā)布的桌面端 Agent 放在一起看,它的價值就更具像化了:一個是可以本地部署的超強大腦,一個是包含本地文件系統(tǒng)訪問、瀏覽器控制、代碼編輯器集成、后臺常駐運行等完善功能的腳手架。二者強強聯(lián)合,有望成為白領(lǐng)與程序員手中那個隨時待命、不計成本的「主力機」。
這種頂級智力的全民普惠,才是整個社會生產(chǎn)力提升的最強動力。
文中視頻鏈接:https://mp.weixin.qq.com/s/5zxoNnuxUfQk6dg4VsHFPw
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.