一夜暴漲至2100億！開源新王MiniMax M2.5，革了Opus 4.6的命

2026-02-13 14:53:32　來源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：Aeneas 艾倫

【新智元導(dǎo)讀】開源模型新王 MiniMax M2.5 震撼降臨：M2.5 編碼性能逼平 Claude Opus 4.6，價格卻只有 1/20；1 美金 / 小時，這種尺寸和性能的模型，才能在算力短缺的時代不降智不卡頓，持續(xù)提供最好體驗(yàn)，成為最終王者！

國產(chǎn) AI 春節(jié)檔，徹底炸了。

就在昨夜，MiniMax M2.5 重磅登場。

就在今天，MiniMax 已經(jīng)暴漲 16.2 %，總市值一度達(dá)到 2108 億港元，漲至歷史新高。

在關(guān)鍵的編碼基準(zhǔn)測試中，M2.5 幾乎已完全縮小與 Claude Opus 4.6 這類全球最頂尖大模型的差距！

發(fā)布后，全球開發(fā)者社區(qū)再次震撼了。

它不光性能媲美 Opus 4.6，還是第一個超越 Claude Sonnet 的開源模型。

連 OpenClaw 之父，都趕來盛贊 MiniMax。

大家紛紛驚呼：MiniMax M2.5 性能跟 Claude Opus 4.6 幾乎相當(dāng)，價格卻砍到了后者的 1/20，這個性價比，絕了！

M2.5，徹底打穿了模型的價格底線，只花 1 美元，就能以 100 TPS (Tokens Per Second) 運(yùn)行 1 小時。

MiniMax M2.5 一擊斃命，前端開發(fā)者的時代結(jié)束了！

開放權(quán)重模型和專有模型之間的差距，已經(jīng)徹底消失！MiniMax M2.5 的性能已經(jīng)和 SOTA 不相上下。

為什么 M2.5 這么強(qiáng)？

首先，它的智能體原生架構(gòu)，是專為智能體生態(tài)深度優(yōu)化。

另外，它還有極致的推理效率，得益于對思考鏈路的深度優(yōu)化，它能支持 100 TPS 的超高吞吐量，推理速度達(dá)到 Claude Opus 4.6 的三倍。

可以說，直接刷新了全行業(yè)最優(yōu)的性價比，打造了同性能級別模型中的價格標(biāo)桿！

有人對比了 Claude Opus 4.6 和 MiniMax M2.5 的辦公速度，驚呼 M2.5 性能太強(qiáng)

不僅如此，在Excel、深度搜索、長文檔摘要核心生產(chǎn)力場景，都處于SOTA地位。

另外，因?yàn)榧せ顓?shù)量僅為 10B，它作為第一梯隊(duì)中參數(shù)最小的旗艦?zāi)Ｐ停谒接谢渴稹@存占用及推理能效比上具有壓倒性優(yōu)勢。

因?yàn)?M2.5 太火，為避免限速卡頓體驗(yàn)，MiniMax 團(tuán)隊(duì)火速擴(kuò)容！

實(shí)測：代碼、辦公、深度搜索

全方位出色

我們實(shí)測后可以發(fā)現(xiàn)，MiniMax M2.5 在各類開發(fā)者工具中適配度都很高，在 Claude Code、Trae、VS Code 等 IDE 中都可簡單上手。

在代碼生成、調(diào)試協(xié)助、多輪上下文理解上，都能與現(xiàn)有開發(fā)流程輕松融合。

我們先來直接問一個最近很火的「洗車」難題，已經(jīng)難倒了一眾國內(nèi)外旗艦?zāi)Ｐ汀ｈb于這個問題太火了，為了避免模型已經(jīng)被特意教會了這個邏輯陷阱的標(biāo)準(zhǔn)答案，我們采取了一個原創(chuàng)的變種問題：

我要去遛馬，大草原離我家蒙古包只有 5 米，我應(yīng)該自己走著去大草原還是騎馬去？

據(jù)稱邏輯能力最強(qiáng)的新旗艦?zāi)Ｐ?Claude Opus 4.6，在這個新問題上還是折戟了。

而 MiniMax M2.5 則僅用 3 秒鐘就給出了正確答案，同時思路也是正確的，還令人忍俊不禁。

洗車測試，通過?

在將 MiniMax M2.5 API 接入 Claude Code 后，回答是相似的，同樣順利通過了「洗車測試」。

代碼實(shí)測

在 Claude Code 中，MiniMax M2.5 對代碼結(jié)構(gòu)和工程上下文的理解非常穩(wěn)定，能夠準(zhǔn)確把握函數(shù)依賴、模塊邊界以及已有代碼風(fēng)格，生成的補(bǔ)全和修改建議可直接落地，幾乎不需要額外返工。

對于復(fù)雜邏輯的拆解和重構(gòu)場景，模型給出的思路也更加工程化，貼近真實(shí)開發(fā)者的使用習(xí)慣。

先用一道 LeetCode Hard 算法題熱熱手，看看最基本的編程能力咋樣。

給定兩個大小分別為 m 和 n 的正序（從小到大）數(shù)組 nums1 和 nums2 。請你找出并返回這兩個正序數(shù)組的中位數(shù) 。

算法的時間復(fù)雜度應(yīng)該為 O(log (m+n)) 。

直接將題面輸入給MiniMax M2.5。

僅僅 20 秒，MiniMax M2.5 就直接給出了答案。

MiniMax M2.5 手拿把掐，20 秒直接一發(fā) AC，給出了時間復(fù)雜度最低的算法，并給出了解題思路，完全可以勝任編程學(xué)習(xí)路上的熱心學(xué)長助教！

而 Claude Opus 4.6 盡管也在極短時間內(nèi)就給出了答案，但算法的時間復(fù)雜度和空間復(fù)雜度均要高于 MiniMax M2.5 給出的算法。

在 Trae 等 IDE 中，MiniMax M2.5 的表現(xiàn)同樣令人驚喜。

無論是需求理解、功能拆解，還是快速生成可運(yùn)行的代碼原型，整體響應(yīng)都非常流暢，配合工具鏈?zhǔn)褂脮r幾乎沒有明顯「割裂感」。

這也意味著，開發(fā)者無需為適配模型額外調(diào)整工作方式，就可以直接將其納入現(xiàn)有生產(chǎn)流程。

比如，試著讓它生成一個高端預(yù)訂網(wǎng)站，展示一家豪華太空旅游機(jī)構(gòu)，要求展示一段從平流層緩慢移動的高清地球曲率視頻。

接下來，下面展示 MiniMax M2.5 和 Claude Opus 4.6 在同一提示詞下生成的網(wǎng)站，你能猜出來分別是誰做的嗎？

在 3D 開發(fā)上，MiniMax M2.5 也很令人驚艷，它在僅用一個 HTML 文件的前提下，就實(shí)現(xiàn)了完整的 3D 卡丁車競速體驗(yàn)，本身就非常高級，結(jié)構(gòu)清晰，邏輯完整。

視覺上,它有那種經(jīng)典街機(jī)賽車的味道——賽道比例舒服、鏡頭跟隨自然、漂移時的動態(tài)反饋很帶感，沖刺的節(jié)奏爽快。

整體風(fēng)格雖然簡潔，但配色和場景層次感做得很好。作為瀏覽器原生3DF游戲來說，完成度和表現(xiàn)力都相當(dāng)出色。

注意，如果只跑常規(guī)算法題，是測不出模型的工具級泛化能力的。為此，我們專門是設(shè)計(jì)了幾道不像刷題、但極像真實(shí)開發(fā)的代碼測試題。

比如下面這道題中，我們給了 M2.5 一段已有代碼，然后連續(xù)給了它三個任務(wù)——

在這個任務(wù)中，需要對同一段代碼連續(xù)進(jìn)行代碼審查、代碼重構(gòu)和架構(gòu)設(shè)計(jì)，如果是弱泛化的模型，往往就往后的問題上就會跑偏。

可以看到，M2.5 讀完代碼后，敏銳地一眼看出這是 Java 的 Counter 類問題——count++ 操作不是原子的。

同時它也分析出，Python parse_logs 函數(shù)缺少錯誤處理、沒有類型提示、沒有驗(yàn)證輸入等。

接著，它重構(gòu)了代碼，還給出了日志規(guī)模擴(kuò)大100倍的系統(tǒng)優(yōu)化思路。

在我們的要求下，它實(shí)現(xiàn)了完整的優(yōu)化代碼。

總的來說，整體使用下來的感受是：MiniMax M2.5 不只是「能寫代碼」，而是真正適合嵌入開發(fā)者工具體系中的模型。

這種對不同 IDE、代碼助手和開發(fā)平臺的良好適配能力，使其在真實(shí)開發(fā)場景中的實(shí)用價值進(jìn)一步放大，也為其在 To B 和開發(fā)者生態(tài)中的落地提供了扎實(shí)基礎(chǔ)。

而且在使用中，它表現(xiàn)出了極強(qiáng)的泛化能力，在不同任務(wù)類型之間切換時，并不會明顯依賴場景約束，而是快速理解任務(wù)本身的核心目標(biāo)。

在復(fù)雜問題拆解、多步驟推理場景中表現(xiàn)尤為突出，這種泛化能力，直接提升了模型在真實(shí)生產(chǎn)環(huán)境中的價值。

而且，10B 的小參數(shù)加上旗艦級的能力，讓每個人都能在本地跑一個旗艦級分析師。

辦公場景絲滑拿捏

除了編程能力比肩 Claude Opus 4.6 之外，MiniMax M2.5 在數(shù)字化辦公場景下，也有極強(qiáng)的應(yīng)用能力。

比如，我們給它一份某公司按地區(qū)劃分的銷售額數(shù)據(jù)的表格，這個 Excel 可是個高難度版，存在不少隱藏坑和臟數(shù)據(jù)，比如日期格式不統(tǒng)一，銷售數(shù)量缺失或?yàn)樨?fù)數(shù)，單價缺失，退貨訂單未自動清零等等。

我們把這張 Excel 表格直接丟給模型，請它完成數(shù)據(jù)清洗，進(jìn)行跨表關(guān)聯(lián)，還要進(jìn)行一系列分析匯總。

可以看到，M2.5 按照要求依次完成了數(shù)據(jù)清洗，解決了日期不一致、重復(fù)訂單、銷售數(shù)據(jù)異常、單價缺失等問題，然后完成了跨表關(guān)聯(lián)。

然后，它按要求計(jì)算出了銷售額和毛利，按地區(qū)、產(chǎn)品類別進(jìn)行了匯總，給出毛利率最低的產(chǎn)品類別，還判斷出這個 Excel 表格不適合直接用于管理層匯報(bào)。

可以看到，這次測評中，模型完整、準(zhǔn)確地完成了提示詞給出的任務(wù)，表現(xiàn)出扎實(shí)且系統(tǒng)化的 Excel 辦公能力。

更重要的是，它的分析結(jié)果具備明確的業(yè)務(wù)解釋與風(fēng)險意識，說明 M2.5 對 Excel 的理解并非停留在函數(shù)記憶層面，而是真正具備貼近實(shí)際辦公與數(shù)據(jù)分析場景的綜合能力。

能清洗臟數(shù)據(jù)后給出合理建議，就意味著 AI 不再僅僅是工具，也開始成為負(fù)責(zé)任的數(shù)字化勞動力。

接下來是第二個Excel測試任務(wù)：

請它列出 2019 年至 2024 年(包括 2024 年)福布斯全球億萬富翁排名中每年排名前十的個人，需要用 Excel 表格呈現(xiàn)。

最終，M2.5 準(zhǔn)確完成了這個任務(wù)，給出了如下這個 Excel。

要知道，很多人「會用 Excel」，但真正精通函數(shù)嵌套、VBA、Power Query、復(fù)雜財(cái)務(wù)模型的人比例并不高。

如果模型可以完成高階的 Excel 任務(wù)，就相當(dāng)于給每個人配備了一個「高級數(shù)據(jù)分析師」。

這將大大降低專業(yè)門檻，實(shí)現(xiàn)生產(chǎn)力的躍升，甚至實(shí)現(xiàn)軟件生態(tài)的升級。

深度研究

接下來，我們測試 MiniMax M2.5 的深度研究能力。

我們要求它對最近大火的 OpenClaw 進(jìn)行一次深度研究，要解釋清楚核心概念、技術(shù)細(xì)節(jié)，并且從前沿性、工程可行性、生態(tài)影響等多個角度進(jìn)行評估。

在提示詞中我們特別強(qiáng)調(diào)，不允許編造事實(shí)，信息不足時要敢于承認(rèn)。

要知道，這樣一個提示詞，會強(qiáng)制模型暴露出不確定性處理能力、推理鏈條和技術(shù)判斷，從而真正區(qū)分「會查資料的模型」和「會研究的模型」。

首先，模型進(jìn)行了一番思考。

然后，它生成一份內(nèi)容詳實(shí)、邏輯清晰的調(diào)查報(bào)告，讓人對OpenClaw的各方面情況一目了然。

可以看出，M2.5 在做深度研究時，不僅僅給出的是一種查資料型回答（信息密集，卻缺乏邏輯推進(jìn)），而是體現(xiàn)出了一種研究型回答的特征——有問題意識、有分析路徑、有邏輯遞進(jìn)。

很明顯，它建立了一個概念圖譜，進(jìn)行結(jié)構(gòu)化拆解后，構(gòu)建了一個因果推理鏈。這種因果推理能力和批判性思考能力，都體現(xiàn)了這是一個真正「會研究」的模型。

可以預(yù)見，M2.5 如此強(qiáng)的深度研究能力，將讓每個人的研究效率指數(shù)級放大，改變整個知識生產(chǎn)節(jié)奏。

長文本研究

長文本處理能力已成為衡量 LLM 綜合實(shí)力的關(guān)鍵維度之一。

從早期的 4K、8K 上下文窗口，到如今動輒百萬 Token 級別的上下文支持，模型在「能裝多少」這件事上突飛猛進(jìn)——但「裝得下」和「用得好」之間，依然存在巨大鴻溝。

我們選擇了讓 MiniMax M2.5 解讀著名高難度數(shù)學(xué)分析教材《數(shù)學(xué)分析原理》（Rudin 著，全書約 300 頁）來測試它的長文本研究能力。

教材精讀與直覺化改寫是一類對 LLM 綜合能力要求極高的任務(wù)：模型需要讀懂專業(yè)內(nèi)容的數(shù)學(xué)本質(zhì)，再用通俗語言重新表達(dá)——既不能丟失精度，也不能堆砌術(shù)語。

我們要求模型為每章提煉核心概念、給出直覺類比、指出常見誤區(qū)，輸出風(fēng)格要求「像學(xué)長在咖啡館講課」。

提示詞：

你是一位擅長用直覺和類比來解釋數(shù)學(xué)的老師。我會給你一本數(shù)學(xué)分析教材（《數(shù)學(xué)分析原理》（Rudin 著））。

請你完成以下任務(wù)：

1. 找出每一章最核心的 1-3 個概念（不是羅列所有知識點(diǎn)，而是找到「如果只能記住一件事，應(yīng)該記住什么」的那個東西）。

2. 用「說人話」的方式解釋每個核心概念：

- 先用一句大白話說清楚它到底在干什么、為什么要有它

- 再用一個日常生活的類比或畫面感的例子幫我建立直覺

- 最后用一兩句話點(diǎn)明它和前后章節(jié)的關(guān)系（它從哪里來，往哪里去）

3. 指出一個最常見的誤解或容易踩的坑。

要求：

假設(shè)讀者是剛接觸數(shù)學(xué)分析的大一學(xué)生，有高中數(shù)學(xué)基礎(chǔ)；

不要堆砌定義和定理，重點(diǎn)是「為什么」和「直覺是什么」；

如果涉及公式，先解釋公式在"說什么故事"，再寫公式本身；

語言風(fēng)格：像一個很會講課的學(xué)長在咖啡館里給你講明白，而不是念教科書。

完整輸出結(jié)果如下：

MiniMax M2.5 展現(xiàn)了扎實(shí)的長文檔理解能力和不錯的科普寫作水平。

其一，數(shù)學(xué)內(nèi)容的準(zhǔn)確性與核心概念的提煉能力：每章核心概念的選取精準(zhǔn)地抓住了 Rudin 全書主線，且能指出「調(diào)和級數(shù)發(fā)散」「偏導(dǎo)數(shù)存在不等于可微」等教學(xué)中反復(fù)強(qiáng)調(diào)的經(jīng)典陷阱，說明模型確實(shí)理解了內(nèi)容而非簡單摘抄。

其二，「說人話」的能力：「閱兵式」類比一致收斂、「按面額分類數(shù)錢」類比勒貝格積分等堪稱教科書級的好類比，既形象又未丟失數(shù)學(xué)要義，能切實(shí)幫助初學(xué)者跨越從直覺到嚴(yán)格定義的鴻溝。

其三，結(jié)構(gòu)完整性與風(fēng)格一致性：嚴(yán)格覆蓋了提示詞要求的五個模塊且語言風(fēng)格始終保持「學(xué)長講課」的輕松感，末尾的全書邏輯鏈條總結(jié)圖更是有效地幫初學(xué)者建立了全局觀。

當(dāng)然，我們經(jīng)過仔細(xì)檢查也發(fā)現(xiàn)其中有極少數(shù)小錯誤，如：

f(x)=1/x 在 (0,1] 上沒有原函數(shù).

模型仍存在進(jìn)步空間。盡管如此，瑕不掩瑜。

它成功地從一本以嚴(yán)謹(jǐn)著稱的數(shù)學(xué)教材中提煉出了主線脈絡(luò)，并用較為準(zhǔn)確的類比傳達(dá)了核心直覺。

對于「幫數(shù)學(xué)系大一新生建立全書的知識地圖進(jìn)而輔助學(xué)習(xí)」這一目標(biāo)，MiniMax M2.5 現(xiàn)在完全能夠勝任。

技術(shù)突破關(guān)鍵：Agent RL

為什么 MiniMax M2.5 會這么強(qiáng)？這是因?yàn)閳F(tuán)隊(duì)圍繞著 Agent RL（智能體強(qiáng)化學(xué)習(xí)），構(gòu)建了一整套完整的技術(shù)體系。

首先，在框架層面，團(tuán)隊(duì)提出了原生 Agent RL 架構(gòu)。

Forge 作為一個原生 Agent RL 框架，在設(shè)計(jì)上通過引入中間層完全解耦了底層訓(xùn)推引擎與 Agent，支持任意 Agent 的接入，從而優(yōu)化了模型在 Agent 腳手架和工具上的泛化。此外，還實(shí)現(xiàn)了約 40 倍的訓(xùn)練加速。

在算法層面，團(tuán)隊(duì)沿用了 MiniMax M1 提出的 CISPO 算法，以保障 MoE 模型在大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練中的穩(wěn)定性。

針對 Agent 場景長上下文帶來的信用分配難題，團(tuán)隊(duì)引入了過程獎勵機(jī)制對完成質(zhì)量進(jìn)行全鏈路監(jiān)控。此外，為深度對齊用戶體驗(yàn)，團(tuán)隊(duì)直接估計(jì)任務(wù)在真實(shí)環(huán)境下的耗時并作為獎勵函數(shù)，在模型效果與響應(yīng)速度之間實(shí)現(xiàn)了更好的平衡。

整體來看，這套 Agent RL 技術(shù)體系不僅解決了長上下文強(qiáng)化學(xué)習(xí)中的穩(wěn)定性與效率問題，更在架構(gòu)、算法與工程層面形成閉環(huán)。

正是在這些技術(shù)基礎(chǔ)上，M2.5 實(shí)現(xiàn)了以上的驚艷表現(xiàn)。

當(dāng) M2.5 在各項(xiàng)核心任務(wù)上都能全面對齊 Claude Opus 4.6，這已經(jīng)不再是一次簡單的「模型升級」，而是一個行業(yè)信號——頂級能力正在去稀缺化。

當(dāng)能力趨同，真正拉開差距的，將是系統(tǒng)整合能力、產(chǎn)品化能力，以及對真實(shí)場景的理解深度。

對于行業(yè)來說，這是一個能力平權(quán)的時代；

對于企業(yè)來說，這是一個重新定義效率邊界的窗口；

對于開發(fā)者來說，這是一次前所未有的機(jī)會期。

參考資料：

MiniMax M2.5 發(fā)布：1美金/小時，真實(shí)世界工作王者

（MiniMax Agent 體驗(yàn) M2.5）https://agent.minimaxi.com/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.