![]()
新智元報道
編輯:Aeneas 艾倫
【新智元導讀】開源模型新王 MiniMax M2.5 震撼降臨:M2.5 編碼性能逼平 Claude Opus 4.6,價格卻只有 1/20;1 美金 / 小時,這種尺寸和性能的模型,才能在算力短缺的時代不降智不卡頓,持續提供最好體驗,成為最終王者!
國產 AI 春節檔,徹底炸了。
就在昨夜,MiniMax M2.5 重磅登場。
就在今天,MiniMax 已經暴漲 16.2 %,總市值一度達到 2108 億港元,漲至歷史新高。
![]()
在關鍵的編碼基準測試中,M2.5 幾乎已完全縮小與 Claude Opus 4.6 這類全球最頂尖大模型的差距!
![]()
發布后,全球開發者社區再次震撼了。
![]()
它不光性能媲美 Opus 4.6,還是第一個超越 Claude Sonnet 的開源模型。
![]()
連 OpenClaw 之父,都趕來盛贊 MiniMax。
![]()
大家紛紛驚呼:MiniMax M2.5 性能跟 Claude Opus 4.6 幾乎相當,價格卻砍到了后者的 1/20,這個性價比,絕了!
![]()
M2.5,徹底打穿了模型的價格底線,只花 1 美元,就能以 100 TPS (Tokens Per Second) 運行 1 小時。
MiniMax M2.5 一擊斃命,前端開發者的時代結束了!
![]()
開放權重模型和專有模型之間的差距,已經徹底消失!MiniMax M2.5 的性能已經和 SOTA 不相上下。
![]()
為什么 M2.5 這么強?
首先,它的智能體原生架構,是專為智能體生態深度優化。
另外,它還有極致的推理效率,得益于對思考鏈路的深度優化,它能支持 100 TPS 的超高吞吐量,推理速度達到 Claude Opus 4.6 的三倍。
可以說,直接刷新了全行業最優的性價比,打造了同性能級別模型中的價格標桿!

有人對比了 Claude Opus 4.6 和 MiniMax M2.5 的辦公速度,驚呼 M2.5 性能太強
不僅如此,在Excel、深度搜索、長文檔摘要核心生產力場景,都處于SOTA地位。
另外,因為激活參數量僅為 10B,它作為第一梯隊中參數最小的旗艦模型,在私有化部署、顯存占用及推理能效比上具有壓倒性優勢。
![]()
因為 M2.5 太火,為避免限速卡頓體驗,MiniMax 團隊火速擴容!
![]()
實測:代碼、辦公、深度搜索
全方位出色
我們實測后可以發現,MiniMax M2.5 在各類開發者工具中適配度都很高,在 Claude Code、Trae、VS Code 等 IDE 中都可簡單上手。
在代碼生成、調試協助、多輪上下文理解上,都能與現有開發流程輕松融合。
我們先來直接問一個最近很火的「洗車」難題,已經難倒了一眾國內外旗艦模型。鑒于這個問題太火了,為了避免模型已經被特意教會了這個邏輯陷阱的標準答案,我們采取了一個原創的變種問題:
我要去遛馬,大草原離我家蒙古包只有 5 米,我應該自己走著去大草原還是騎馬去?
據稱邏輯能力最強的新旗艦模型 Claude Opus 4.6,在這個新問題上還是折戟了。
![]()
而 MiniMax M2.5 則僅用 3 秒鐘就給出了正確答案,同時思路也是正確的,還令人忍俊不禁。
![]()
洗車測試,通過?
在將 MiniMax M2.5 API 接入 Claude Code 后,回答是相似的,同樣順利通過了「洗車測試」。
![]()
代碼實測
在 Claude Code 中,MiniMax M2.5 對代碼結構和工程上下文的理解非常穩定,能夠準確把握函數依賴、模塊邊界以及已有代碼風格,生成的補全和修改建議可直接落地,幾乎不需要額外返工。
對于復雜邏輯的拆解和重構場景,模型給出的思路也更加工程化,貼近真實開發者的使用習慣。
先用一道 LeetCode Hard 算法題熱熱手,看看最基本的編程能力咋樣。
給定兩個大小分別為 m 和 n 的正序(從小到大)數組 nums1 和 nums2 。請你找出并返回這兩個正序數組的 中位數 。
算法的時間復雜度應該為 O(log (m+n)) 。
直接將題面輸入給MiniMax M2.5。
![]()
僅僅 20 秒,MiniMax M2.5 就直接給出了答案。
![]()
MiniMax M2.5 手拿把掐,20 秒直接一發 AC,給出了時間復雜度最低的算法,并給出了解題思路,完全可以勝任編程學習路上的熱心學長助教!
![]()
而 Claude Opus 4.6 盡管也在極短時間內就給出了答案,但算法的時間復雜度和空間復雜度均要高于 MiniMax M2.5 給出的算法。
![]()
![]()
在 Trae 等 IDE 中,MiniMax M2.5 的表現同樣令人驚喜。
無論是需求理解、功能拆解,還是快速生成可運行的代碼原型,整體響應都非常流暢,配合工具鏈使用時幾乎沒有明顯「割裂感」。
這也意味著,開發者無需為適配模型額外調整工作方式,就可以直接將其納入現有生產流程。
比如,試著讓它生成一個高端預訂網站,展示一家豪華太空旅游機構,要求展示一段從平流層緩慢移動的高清地球曲率視頻。
![]()
接下來,下面展示 MiniMax M2.5 和 Claude Opus 4.6 在同一提示詞下生成的網站,你能猜出來分別是誰做的嗎?


在 3D 開發上,MiniMax M2.5 也很令人驚艷,它在僅用一個 HTML 文件的前提下,就實現了完整的 3D 卡丁車競速體驗,本身就非常高級,結構清晰,邏輯完整。
視覺上,它有那種經典街機賽車的味道——賽道比例舒服、鏡頭跟隨自然、漂移時的動態反饋很帶感,沖刺的節奏爽快。
整體風格雖然簡潔,但配色和場景層次感做得很好。作為瀏覽器原生3DF游戲來說,完成度和表現力都相當出色。

注意,如果只跑常規算法題,是測不出模型的工具級泛化能力的。為此,我們專門是設計了幾道不像刷題、但極像真實開發的代碼測試題。
比如下面這道題中,我們給了 M2.5 一段已有代碼,然后連續給了它三個任務——
![]()
在這個任務中,需要對同一段代碼連續進行代碼審查、代碼重構和架構設計,如果是弱泛化的模型,往往就往后的問題上就會跑偏。
可以看到,M2.5 讀完代碼后,敏銳地一眼看出這是 Java 的 Counter 類問題——count++ 操作不是原子的。
同時它也分析出,Python parse_logs 函數缺少錯誤處理、沒有類型提示、沒有驗證輸入等。
接著,它重構了代碼,還給出了日志規模擴大100倍的系統優化思路。
![]()
在我們的要求下,它實現了完整的優化代碼。

總的來說,整體使用下來的感受是:MiniMax M2.5 不只是「能寫代碼」,而是真正適合嵌入開發者工具體系中的模型。
這種對不同 IDE、代碼助手和開發平臺的良好適配能力,使其在真實開發場景中的實用價值進一步放大,也為其在 To B 和開發者生態中的落地提供了扎實基礎。
而且在使用中,它表現出了極強的泛化能力,在不同任務類型之間切換時,并不會明顯依賴場景約束,而是快速理解任務本身的核心目標。
在復雜問題拆解、多步驟推理場景中表現尤為突出,這種泛化能力,直接提升了模型在真實生產環境中的價值。
而且,10B 的小參數加上旗艦級的能力,讓每個人都能在本地跑一個旗艦級分析師。
辦公場景絲滑拿捏
除了編程能力比肩 Claude Opus 4.6 之外,MiniMax M2.5 在數字化辦公場景下,也有極強的應用能力。
比如,我們給它一份某公司按地區劃分的銷售額數據的表格,這個 Excel 可是個高難度版,存在不少隱藏坑和臟數據,比如日期格式不統一,銷售數量缺失或為負數,單價缺失,退貨訂單未自動清零等等。
我們把這張 Excel 表格直接丟給模型,請它完成數據清洗,進行跨表關聯,還要進行一系列分析匯總。
![]()
可以看到,M2.5 按照要求依次完成了數據清洗,解決了日期不一致、重復訂單、銷售數據異常、單價缺失等問題,然后完成了跨表關聯。
然后,它按要求計算出了銷售額和毛利,按地區、產品類別進行了匯總,給出毛利率最低的產品類別,還判斷出這個 Excel 表格不適合直接用于管理層匯報。

可以看到,這次測評中,模型完整、準確地完成了提示詞給出的任務,表現出扎實且系統化的 Excel 辦公能力。
更重要的是,它的分析結果具備明確的業務解釋與風險意識,說明 M2.5 對 Excel 的理解并非停留在函數記憶層面,而是真正具備貼近實際辦公與數據分析場景的綜合能力。
能清洗臟數據后給出合理建議,就意味著 AI 不再僅僅是工具,也開始成為負責任的數字化勞動力。
接下來是第二個Excel測試任務:
請它列出 2019 年至 2024 年(包括 2024 年)福布斯全球億萬富翁排名中每年排名前十的個人,需要用 Excel 表格呈現。
![]()
最終,M2.5 準確完成了這個任務,給出了如下這個 Excel。
![]()
要知道,很多人「會用 Excel」,但真正精通函數嵌套、VBA、Power Query、復雜財務模型的人比例并不高。
如果模型可以完成高階的 Excel 任務,就相當于給每個人配備了一個「高級數據分析師」。
這將大大降低專業門檻,實現生產力的躍升,甚至實現軟件生態的升級。
深度研究
接下來,我們測試 MiniMax M2.5 的深度研究能力。
我們要求它對最近大火的 OpenClaw 進行一次深度研究,要解釋清楚核心概念、技術細節,并且從前沿性、工程可行性、生態影響等多個角度進行評估。
在提示詞中我們特別強調,不允許編造事實,信息不足時要敢于承認。
![]()
要知道,這樣一個提示詞,會強制模型暴露出不確定性處理能力、推理鏈條和技術判斷,從而真正區分「會查資料的模型」和「會研究的模型」。
首先,模型進行了一番思考。
![]()
然后,它生成一份內容詳實、邏輯清晰的調查報告,讓人對OpenClaw的各方面情況一目了然。

可以看出,M2.5 在做深度研究時,不僅僅給出的是一種查資料型回答(信息密集,卻缺乏邏輯推進),而是體現出了一種研究型回答的特征——有問題意識、有分析路徑、有邏輯遞進。
很明顯,它建立了一個概念圖譜,進行結構化拆解后,構建了一個因果推理鏈。這種因果推理能力和批判性思考能力,都體現了這是一個真正「會研究」的模型。
可以預見,M2.5 如此強的深度研究能力,將讓每個人的研究效率指數級放大,改變整個知識生產節奏。
長文本研究
長文本處理能力已成為衡量 LLM 綜合實力的關鍵維度之一。
從早期的 4K、8K 上下文窗口,到如今動輒百萬 Token 級別的上下文支持,模型在「能裝多少」這件事上突飛猛進——但「裝得下」和「用得好」之間,依然存在巨大鴻溝。
我們選擇了讓 MiniMax M2.5 解讀著名高難度數學分析教材《數學分析原理》(Rudin 著,全書約 300 頁)來測試它的長文本研究能力。
教材精讀與直覺化改寫是一類對 LLM 綜合能力要求極高的任務:模型需要讀懂專業內容的數學本質,再用通俗語言重新表達——既不能丟失精度,也不能堆砌術語。
我們要求模型為每章提煉核心概念、給出直覺類比、指出常見誤區,輸出風格要求「像學長在咖啡館講課」。
提示詞:
你是一位擅長用直覺和類比來解釋數學的老師。我會給你一本數學分析教材(《數學分析原理》(Rudin 著))。
請你完成以下任務:
1. 找出每一章最核心的 1-3 個概念(不是羅列所有知識點,而是找到「如果只能記住一件事,應該記住什么」的那個東西)。
2. 用「說人話」的方式解釋每個核心概念:
- 先用一句大白話說清楚它到底在干什么、為什么要有它
- 再用一個日常生活的類比或畫面感的例子幫我建立直覺
- 最后用一兩句話點明它和前后章節的關系(它從哪里來,往哪里去)
3. 指出一個最常見的誤解或容易踩的坑。
要求:
假設讀者是剛接觸數學分析的大一學生,有高中數學基礎;
不要堆砌定義和定理,重點是「為什么」和「直覺是什么」;
如果涉及公式,先解釋公式在"說什么故事",再寫公式本身;
語言風格:像一個很會講課的學長在咖啡館里給你講明白,而不是念教科書。
完整輸出結果如下:

MiniMax M2.5 展現了扎實的長文檔理解能力和不錯的科普寫作水平。
其一,數學內容的準確性與核心概念的提煉能力:每章核心概念的選取精準地抓住了 Rudin 全書主線,且能指出「調和級數發散」「偏導數存在不等于可微」等教學中反復強調的經典陷阱,說明模型確實理解了內容而非簡單摘抄。
其二,「說人話」的能力:「閱兵式」類比一致收斂、「按面額分類數錢」類比勒貝格積分等堪稱教科書級的好類比,既形象又未丟失數學要義,能切實幫助初學者跨越從直覺到嚴格定義的鴻溝。
其三,結構完整性與風格一致性:嚴格覆蓋了提示詞要求的五個模塊且語言風格始終保持「學長講課」的輕松感,末尾的全書邏輯鏈條總結圖更是有效地幫初學者建立了全局觀。
當然,我們經過仔細檢查也發現其中有極少數小錯誤,如:
f(x)=1/x 在 (0,1] 上沒有原函數.模型仍存在進步空間。盡管如此,瑕不掩瑜。
它成功地從一本以嚴謹著稱的數學教材中提煉出了主線脈絡,并用較為準確的類比傳達了核心直覺。
對于「幫數學系大一新生建立全書的知識地圖進而輔助學習」這一目標,MiniMax M2.5 現在完全能夠勝任。
技術突破關鍵:Agent RL
為什么 MiniMax M2.5 會這么強?這是因為團隊圍繞著 Agent RL(智能體強化學習),構建了一整套完整的技術體系。
首先,在框架層面,團隊提出了原生 Agent RL 架構。
Forge 作為一個原生 Agent RL 框架,在設計上通過引入中間層完全解耦了底層訓推引擎與 Agent,支持任意 Agent 的接入,從而優化了模型在 Agent 腳手架和工具上的泛化。此外,還實現了約 40 倍的訓練加速。
![]()
在算法層面,團隊沿用了 MiniMax M1 提出的 CISPO 算法,以保障 MoE 模型在大規模強化學習訓練中的穩定性。
針對 Agent 場景長上下文帶來的信用分配難題,團隊引入了過程獎勵機制對完成質量進行全鏈路監控。此外,為深度對齊用戶體驗,團隊直接估計任務在真實環境下的耗時并作為獎勵函數,在模型效果與響應速度之間實現了更好的平衡。
![]()
整體來看,這套 Agent RL 技術體系不僅解決了長上下文強化學習中的穩定性與效率問題,更在架構、算法與工程層面形成閉環。
正是在這些技術基礎上,M2.5 實現了以上的驚艷表現。
當 M2.5 在各項核心任務上都能全面對齊 Claude Opus 4.6,這已經不再是一次簡單的「模型升級」,而是一個行業信號——頂級能力正在去稀缺化。
當能力趨同,真正拉開差距的,將是系統整合能力、產品化能力,以及對真實場景的理解深度。
對于行業來說,這是一個能力平權的時代;
對于企業來說,這是一個重新定義效率邊界的窗口;
對于開發者來說,這是一次前所未有的機會期。
參考資料:
MiniMax M2.5 發布:1美金/小時,真實世界工作王者
(MiniMax Agent 體驗 M2.5)https://agent.minimaxi.com/
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.