![]()
新智元報(bào)道
編輯:Aeneas 艾倫
【新智元導(dǎo)讀】開源模型新王 MiniMax M2.5 震撼降臨:M2.5 編碼性能逼平 Claude Opus 4.6,價格卻只有 1/20;1 美金 / 小時,這種尺寸和性能的模型,才能在算力短缺的時代不降智不卡頓,持續(xù)提供最好體驗(yàn),成為最終王者!
國產(chǎn) AI 春節(jié)檔,徹底炸了。
就在昨夜,MiniMax M2.5 重磅登場。
就在今天,MiniMax 已經(jīng)暴漲 16.2 %,總市值一度達(dá)到 2108 億港元,漲至歷史新高。
![]()
在關(guān)鍵的編碼基準(zhǔn)測試中,M2.5 幾乎已完全縮小與 Claude Opus 4.6 這類全球最頂尖大模型的差距!
![]()
發(fā)布后,全球開發(fā)者社區(qū)再次震撼了。
![]()
它不光性能媲美 Opus 4.6,還是第一個超越 Claude Sonnet 的開源模型。
![]()
連 OpenClaw 之父,都趕來盛贊 MiniMax。
![]()
大家紛紛驚呼:MiniMax M2.5 性能跟 Claude Opus 4.6 幾乎相當(dāng),價格卻砍到了后者的 1/20,這個性價比,絕了!
![]()
M2.5,徹底打穿了模型的價格底線,只花 1 美元,就能以 100 TPS (Tokens Per Second) 運(yùn)行 1 小時。
MiniMax M2.5 一擊斃命,前端開發(fā)者的時代結(jié)束了!
![]()
開放權(quán)重模型和專有模型之間的差距,已經(jīng)徹底消失!MiniMax M2.5 的性能已經(jīng)和 SOTA 不相上下。
![]()
為什么 M2.5 這么強(qiáng)?
首先,它的智能體原生架構(gòu),是專為智能體生態(tài)深度優(yōu)化。
另外,它還有極致的推理效率,得益于對思考鏈路的深度優(yōu)化,它能支持 100 TPS 的超高吞吐量,推理速度達(dá)到 Claude Opus 4.6 的三倍。
可以說,直接刷新了全行業(yè)最優(yōu)的性價比,打造了同性能級別模型中的價格標(biāo)桿!

有人對比了 Claude Opus 4.6 和 MiniMax M2.5 的辦公速度,驚呼 M2.5 性能太強(qiáng)
不僅如此,在Excel、深度搜索、長文檔摘要核心生產(chǎn)力場景,都處于SOTA地位。
另外,因?yàn)榧せ顓?shù)量僅為 10B,它作為第一梯隊(duì)中參數(shù)最小的旗艦?zāi)P停谒接谢渴稹@存占用及推理能效比上具有壓倒性優(yōu)勢。
![]()
因?yàn)?M2.5 太火,為避免限速卡頓體驗(yàn),MiniMax 團(tuán)隊(duì)火速擴(kuò)容!
![]()
實(shí)測:代碼、辦公、深度搜索
全方位出色
我們實(shí)測后可以發(fā)現(xiàn),MiniMax M2.5 在各類開發(fā)者工具中適配度都很高,在 Claude Code、Trae、VS Code 等 IDE 中都可簡單上手。
在代碼生成、調(diào)試協(xié)助、多輪上下文理解上,都能與現(xiàn)有開發(fā)流程輕松融合。
我們先來直接問一個最近很火的「洗車」難題,已經(jīng)難倒了一眾國內(nèi)外旗艦?zāi)P汀hb于這個問題太火了,為了避免模型已經(jīng)被特意教會了這個邏輯陷阱的標(biāo)準(zhǔn)答案,我們采取了一個原創(chuàng)的變種問題:
我要去遛馬,大草原離我家蒙古包只有 5 米,我應(yīng)該自己走著去大草原還是騎馬去?
據(jù)稱邏輯能力最強(qiáng)的新旗艦?zāi)P?Claude Opus 4.6,在這個新問題上還是折戟了。
![]()
而 MiniMax M2.5 則僅用 3 秒鐘就給出了正確答案,同時思路也是正確的,還令人忍俊不禁。
![]()
洗車測試,通過?
在將 MiniMax M2.5 API 接入 Claude Code 后,回答是相似的,同樣順利通過了「洗車測試」。
![]()
代碼實(shí)測
在 Claude Code 中,MiniMax M2.5 對代碼結(jié)構(gòu)和工程上下文的理解非常穩(wěn)定,能夠準(zhǔn)確把握函數(shù)依賴、模塊邊界以及已有代碼風(fēng)格,生成的補(bǔ)全和修改建議可直接落地,幾乎不需要額外返工。
對于復(fù)雜邏輯的拆解和重構(gòu)場景,模型給出的思路也更加工程化,貼近真實(shí)開發(fā)者的使用習(xí)慣。
先用一道 LeetCode Hard 算法題熱熱手,看看最基本的編程能力咋樣。
給定兩個大小分別為 m 和 n 的正序(從小到大)數(shù)組 nums1 和 nums2 。請你找出并返回這兩個正序數(shù)組的 中位數(shù) 。
算法的時間復(fù)雜度應(yīng)該為 O(log (m+n)) 。
直接將題面輸入給MiniMax M2.5。
![]()
僅僅 20 秒,MiniMax M2.5 就直接給出了答案。
![]()
MiniMax M2.5 手拿把掐,20 秒直接一發(fā) AC,給出了時間復(fù)雜度最低的算法,并給出了解題思路,完全可以勝任編程學(xué)習(xí)路上的熱心學(xué)長助教!
![]()
而 Claude Opus 4.6 盡管也在極短時間內(nèi)就給出了答案,但算法的時間復(fù)雜度和空間復(fù)雜度均要高于 MiniMax M2.5 給出的算法。
![]()
![]()
在 Trae 等 IDE 中,MiniMax M2.5 的表現(xiàn)同樣令人驚喜。
無論是需求理解、功能拆解,還是快速生成可運(yùn)行的代碼原型,整體響應(yīng)都非常流暢,配合工具鏈?zhǔn)褂脮r幾乎沒有明顯「割裂感」。
這也意味著,開發(fā)者無需為適配模型額外調(diào)整工作方式,就可以直接將其納入現(xiàn)有生產(chǎn)流程。
比如,試著讓它生成一個高端預(yù)訂網(wǎng)站,展示一家豪華太空旅游機(jī)構(gòu),要求展示一段從平流層緩慢移動的高清地球曲率視頻。
![]()
接下來,下面展示 MiniMax M2.5 和 Claude Opus 4.6 在同一提示詞下生成的網(wǎng)站,你能猜出來分別是誰做的嗎?


在 3D 開發(fā)上,MiniMax M2.5 也很令人驚艷,它在僅用一個 HTML 文件的前提下,就實(shí)現(xiàn)了完整的 3D 卡丁車競速體驗(yàn),本身就非常高級,結(jié)構(gòu)清晰,邏輯完整。
視覺上,它有那種經(jīng)典街機(jī)賽車的味道——賽道比例舒服、鏡頭跟隨自然、漂移時的動態(tài)反饋很帶感,沖刺的節(jié)奏爽快。
整體風(fēng)格雖然簡潔,但配色和場景層次感做得很好。作為瀏覽器原生3DF游戲來說,完成度和表現(xiàn)力都相當(dāng)出色。

注意,如果只跑常規(guī)算法題,是測不出模型的工具級泛化能力的。為此,我們專門是設(shè)計(jì)了幾道不像刷題、但極像真實(shí)開發(fā)的代碼測試題。
比如下面這道題中,我們給了 M2.5 一段已有代碼,然后連續(xù)給了它三個任務(wù)——
![]()
在這個任務(wù)中,需要對同一段代碼連續(xù)進(jìn)行代碼審查、代碼重構(gòu)和架構(gòu)設(shè)計(jì),如果是弱泛化的模型,往往就往后的問題上就會跑偏。
可以看到,M2.5 讀完代碼后,敏銳地一眼看出這是 Java 的 Counter 類問題——count++ 操作不是原子的。
同時它也分析出,Python parse_logs 函數(shù)缺少錯誤處理、沒有類型提示、沒有驗(yàn)證輸入等。
接著,它重構(gòu)了代碼,還給出了日志規(guī)模擴(kuò)大100倍的系統(tǒng)優(yōu)化思路。
![]()
在我們的要求下,它實(shí)現(xiàn)了完整的優(yōu)化代碼。

總的來說,整體使用下來的感受是:MiniMax M2.5 不只是「能寫代碼」,而是真正適合嵌入開發(fā)者工具體系中的模型。
這種對不同 IDE、代碼助手和開發(fā)平臺的良好適配能力,使其在真實(shí)開發(fā)場景中的實(shí)用價值進(jìn)一步放大,也為其在 To B 和開發(fā)者生態(tài)中的落地提供了扎實(shí)基礎(chǔ)。
而且在使用中,它表現(xiàn)出了極強(qiáng)的泛化能力,在不同任務(wù)類型之間切換時,并不會明顯依賴場景約束,而是快速理解任務(wù)本身的核心目標(biāo)。
在復(fù)雜問題拆解、多步驟推理場景中表現(xiàn)尤為突出,這種泛化能力,直接提升了模型在真實(shí)生產(chǎn)環(huán)境中的價值。
而且,10B 的小參數(shù)加上旗艦級的能力,讓每個人都能在本地跑一個旗艦級分析師。
辦公場景絲滑拿捏
除了編程能力比肩 Claude Opus 4.6 之外,MiniMax M2.5 在數(shù)字化辦公場景下,也有極強(qiáng)的應(yīng)用能力。
比如,我們給它一份某公司按地區(qū)劃分的銷售額數(shù)據(jù)的表格,這個 Excel 可是個高難度版,存在不少隱藏坑和臟數(shù)據(jù),比如日期格式不統(tǒng)一,銷售數(shù)量缺失或?yàn)樨?fù)數(shù),單價缺失,退貨訂單未自動清零等等。
我們把這張 Excel 表格直接丟給模型,請它完成數(shù)據(jù)清洗,進(jìn)行跨表關(guān)聯(lián),還要進(jìn)行一系列分析匯總。
![]()
可以看到,M2.5 按照要求依次完成了數(shù)據(jù)清洗,解決了日期不一致、重復(fù)訂單、銷售數(shù)據(jù)異常、單價缺失等問題,然后完成了跨表關(guān)聯(lián)。
然后,它按要求計(jì)算出了銷售額和毛利,按地區(qū)、產(chǎn)品類別進(jìn)行了匯總,給出毛利率最低的產(chǎn)品類別,還判斷出這個 Excel 表格不適合直接用于管理層匯報(bào)。

可以看到,這次測評中,模型完整、準(zhǔn)確地完成了提示詞給出的任務(wù),表現(xiàn)出扎實(shí)且系統(tǒng)化的 Excel 辦公能力。
更重要的是,它的分析結(jié)果具備明確的業(yè)務(wù)解釋與風(fēng)險意識,說明 M2.5 對 Excel 的理解并非停留在函數(shù)記憶層面,而是真正具備貼近實(shí)際辦公與數(shù)據(jù)分析場景的綜合能力。
能清洗臟數(shù)據(jù)后給出合理建議,就意味著 AI 不再僅僅是工具,也開始成為負(fù)責(zé)任的數(shù)字化勞動力。
接下來是第二個Excel測試任務(wù):
請它列出 2019 年至 2024 年(包括 2024 年)福布斯全球億萬富翁排名中每年排名前十的個人,需要用 Excel 表格呈現(xiàn)。
![]()
最終,M2.5 準(zhǔn)確完成了這個任務(wù),給出了如下這個 Excel。
![]()
要知道,很多人「會用 Excel」,但真正精通函數(shù)嵌套、VBA、Power Query、復(fù)雜財(cái)務(wù)模型的人比例并不高。
如果模型可以完成高階的 Excel 任務(wù),就相當(dāng)于給每個人配備了一個「高級數(shù)據(jù)分析師」。
這將大大降低專業(yè)門檻,實(shí)現(xiàn)生產(chǎn)力的躍升,甚至實(shí)現(xiàn)軟件生態(tài)的升級。
深度研究
接下來,我們測試 MiniMax M2.5 的深度研究能力。
我們要求它對最近大火的 OpenClaw 進(jìn)行一次深度研究,要解釋清楚核心概念、技術(shù)細(xì)節(jié),并且從前沿性、工程可行性、生態(tài)影響等多個角度進(jìn)行評估。
在提示詞中我們特別強(qiáng)調(diào),不允許編造事實(shí),信息不足時要敢于承認(rèn)。
![]()
要知道,這樣一個提示詞,會強(qiáng)制模型暴露出不確定性處理能力、推理鏈條和技術(shù)判斷,從而真正區(qū)分「會查資料的模型」和「會研究的模型」。
首先,模型進(jìn)行了一番思考。
![]()
然后,它生成一份內(nèi)容詳實(shí)、邏輯清晰的調(diào)查報(bào)告,讓人對OpenClaw的各方面情況一目了然。

可以看出,M2.5 在做深度研究時,不僅僅給出的是一種查資料型回答(信息密集,卻缺乏邏輯推進(jìn)),而是體現(xiàn)出了一種研究型回答的特征——有問題意識、有分析路徑、有邏輯遞進(jìn)。
很明顯,它建立了一個概念圖譜,進(jìn)行結(jié)構(gòu)化拆解后,構(gòu)建了一個因果推理鏈。這種因果推理能力和批判性思考能力,都體現(xiàn)了這是一個真正「會研究」的模型。
可以預(yù)見,M2.5 如此強(qiáng)的深度研究能力,將讓每個人的研究效率指數(shù)級放大,改變整個知識生產(chǎn)節(jié)奏。
長文本研究
長文本處理能力已成為衡量 LLM 綜合實(shí)力的關(guān)鍵維度之一。
從早期的 4K、8K 上下文窗口,到如今動輒百萬 Token 級別的上下文支持,模型在「能裝多少」這件事上突飛猛進(jìn)——但「裝得下」和「用得好」之間,依然存在巨大鴻溝。
我們選擇了讓 MiniMax M2.5 解讀著名高難度數(shù)學(xué)分析教材《數(shù)學(xué)分析原理》(Rudin 著,全書約 300 頁)來測試它的長文本研究能力。
教材精讀與直覺化改寫是一類對 LLM 綜合能力要求極高的任務(wù):模型需要讀懂專業(yè)內(nèi)容的數(shù)學(xué)本質(zhì),再用通俗語言重新表達(dá)——既不能丟失精度,也不能堆砌術(shù)語。
我們要求模型為每章提煉核心概念、給出直覺類比、指出常見誤區(qū),輸出風(fēng)格要求「像學(xué)長在咖啡館講課」。
提示詞:
你是一位擅長用直覺和類比來解釋數(shù)學(xué)的老師。我會給你一本數(shù)學(xué)分析教材(《數(shù)學(xué)分析原理》(Rudin 著))。
請你完成以下任務(wù):
1. 找出每一章最核心的 1-3 個概念(不是羅列所有知識點(diǎn),而是找到「如果只能記住一件事,應(yīng)該記住什么」的那個東西)。
2. 用「說人話」的方式解釋每個核心概念:
- 先用一句大白話說清楚它到底在干什么、為什么要有它
- 再用一個日常生活的類比或畫面感的例子幫我建立直覺
- 最后用一兩句話點(diǎn)明它和前后章節(jié)的關(guān)系(它從哪里來,往哪里去)
3. 指出一個最常見的誤解或容易踩的坑。
要求:
假設(shè)讀者是剛接觸數(shù)學(xué)分析的大一學(xué)生,有高中數(shù)學(xué)基礎(chǔ);
不要堆砌定義和定理,重點(diǎn)是「為什么」和「直覺是什么」;
如果涉及公式,先解釋公式在"說什么故事",再寫公式本身;
語言風(fēng)格:像一個很會講課的學(xué)長在咖啡館里給你講明白,而不是念教科書。
完整輸出結(jié)果如下:

MiniMax M2.5 展現(xiàn)了扎實(shí)的長文檔理解能力和不錯的科普寫作水平。
其一,數(shù)學(xué)內(nèi)容的準(zhǔn)確性與核心概念的提煉能力:每章核心概念的選取精準(zhǔn)地抓住了 Rudin 全書主線,且能指出「調(diào)和級數(shù)發(fā)散」「偏導(dǎo)數(shù)存在不等于可微」等教學(xué)中反復(fù)強(qiáng)調(diào)的經(jīng)典陷阱,說明模型確實(shí)理解了內(nèi)容而非簡單摘抄。
其二,「說人話」的能力:「閱兵式」類比一致收斂、「按面額分類數(shù)錢」類比勒貝格積分等堪稱教科書級的好類比,既形象又未丟失數(shù)學(xué)要義,能切實(shí)幫助初學(xué)者跨越從直覺到嚴(yán)格定義的鴻溝。
其三,結(jié)構(gòu)完整性與風(fēng)格一致性:嚴(yán)格覆蓋了提示詞要求的五個模塊且語言風(fēng)格始終保持「學(xué)長講課」的輕松感,末尾的全書邏輯鏈條總結(jié)圖更是有效地幫初學(xué)者建立了全局觀。
當(dāng)然,我們經(jīng)過仔細(xì)檢查也發(fā)現(xiàn)其中有極少數(shù)小錯誤,如:
f(x)=1/x 在 (0,1] 上沒有原函數(shù).模型仍存在進(jìn)步空間。盡管如此,瑕不掩瑜。
它成功地從一本以嚴(yán)謹(jǐn)著稱的數(shù)學(xué)教材中提煉出了主線脈絡(luò),并用較為準(zhǔn)確的類比傳達(dá)了核心直覺。
對于「幫數(shù)學(xué)系大一新生建立全書的知識地圖進(jìn)而輔助學(xué)習(xí)」這一目標(biāo),MiniMax M2.5 現(xiàn)在完全能夠勝任。
技術(shù)突破關(guān)鍵:Agent RL
為什么 MiniMax M2.5 會這么強(qiáng)?這是因?yàn)閳F(tuán)隊(duì)圍繞著 Agent RL(智能體強(qiáng)化學(xué)習(xí)),構(gòu)建了一整套完整的技術(shù)體系。
首先,在框架層面,團(tuán)隊(duì)提出了原生 Agent RL 架構(gòu)。
Forge 作為一個原生 Agent RL 框架,在設(shè)計(jì)上通過引入中間層完全解耦了底層訓(xùn)推引擎與 Agent,支持任意 Agent 的接入,從而優(yōu)化了模型在 Agent 腳手架和工具上的泛化。此外,還實(shí)現(xiàn)了約 40 倍的訓(xùn)練加速。
![]()
在算法層面,團(tuán)隊(duì)沿用了 MiniMax M1 提出的 CISPO 算法,以保障 MoE 模型在大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練中的穩(wěn)定性。
針對 Agent 場景長上下文帶來的信用分配難題,團(tuán)隊(duì)引入了過程獎勵機(jī)制對完成質(zhì)量進(jìn)行全鏈路監(jiān)控。此外,為深度對齊用戶體驗(yàn),團(tuán)隊(duì)直接估計(jì)任務(wù)在真實(shí)環(huán)境下的耗時并作為獎勵函數(shù),在模型效果與響應(yīng)速度之間實(shí)現(xiàn)了更好的平衡。
![]()
整體來看,這套 Agent RL 技術(shù)體系不僅解決了長上下文強(qiáng)化學(xué)習(xí)中的穩(wěn)定性與效率問題,更在架構(gòu)、算法與工程層面形成閉環(huán)。
正是在這些技術(shù)基礎(chǔ)上,M2.5 實(shí)現(xiàn)了以上的驚艷表現(xiàn)。
當(dāng) M2.5 在各項(xiàng)核心任務(wù)上都能全面對齊 Claude Opus 4.6,這已經(jīng)不再是一次簡單的「模型升級」,而是一個行業(yè)信號——頂級能力正在去稀缺化。
當(dāng)能力趨同,真正拉開差距的,將是系統(tǒng)整合能力、產(chǎn)品化能力,以及對真實(shí)場景的理解深度。
對于行業(yè)來說,這是一個能力平權(quán)的時代;
對于企業(yè)來說,這是一個重新定義效率邊界的窗口;
對于開發(fā)者來說,這是一次前所未有的機(jī)會期。
參考資料:
MiniMax M2.5 發(fā)布:1美金/小時,真實(shí)世界工作王者
(MiniMax Agent 體驗(yàn) M2.5)https://agent.minimaxi.com/
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.