MiniMax推出了其最新迭代的M2.5系列模型,在保持行業領先性能的同時,大幅降低了推理成本,試圖解決復雜Agent應用在經濟上不可行的痛點,并宣稱其在編程、工具調用及辦公場景中已達到或刷新了行業SOTA(當前最佳)水平。
2月13日,MiniMax公布的數據顯示,M2.5展現了顯著的價格優勢。在每秒輸出50個token的版本下,其價格僅為Claude Opus、Gemini 3 Pro以及GPT-5等主流模型的1/10至1/20。
在每秒輸出100個token的高速運行環境下,M2.5連續工作一小時的成本僅需1美元,若降至50 token/秒,成本進一步下探至0.3美元。這意味著1萬美元的預算足以支撐4個Agent連續工作一年,極大地降低了構建和運營大規模Agent集群的門檻。
在性能維度,M2.5在核心編程測試中表現強勁,并在多語言任務Multi-SWE-Bench上取得第一,整體水平比肩Claude Opus系列。同時,模型優化了對復雜任務的拆解能力,在SWE-Bench Verified測試中,完成任務的速度較上一代M2.1提升了37%,端到端運行時間縮短至22.8分鐘,與Claude Opus 4.6持平
目前,MiniMax內部業務已率先驗證了該模型的能力。數據顯示,其內部30%的整體任務已由M2.5自主完成,覆蓋研發、產品、銷售等核心職能。特別是在編程場景中,M2.5生成的代碼已占據新提交代碼的80%,顯示出該模型在真實生產環境中的高滲透率和可用性。
擊穿成本底線:無限運行Agent的經濟可行性
M2.5的設計初衷是消除運行復雜Agent的成本約束。MiniMax通過優化推理速度和token效率實現了這一目標。模型提供100 TPS(每秒傳輸事務處理量)的推理速度,約為當前主流模型的兩倍。
除了單純的算力成本降低,M2.5通過更高效的任務拆解和決策邏輯,減少了完成任務所需的token總量。
在SWE-Bench Verified評測中,M2.5平均每個任務消耗3.52M token,低于M2.1的3.72M。
速度與效率的雙重提升,使得企業在經濟上幾乎可以無限制地構建和運營Agent,將競爭焦點從成本轉移至模型能力的迭代速度上。
編程能力進階:像架構師一樣思考與構建
在編程領域,M2.5不僅關注代碼生成,更強調系統設計能力。模型演化出了原生的Spec(規格說明書)行為,能夠以架構師視角在編碼前主動拆解功能、結構和UI設計。
該模型在超過10種編程語言(包括GO、C++、Rust、Python等)和數十萬個真實環境中進行了訓練。
測試顯示,M2.5能勝任從系統設計(0-1)、開發(1-10)到功能迭代(10-90)及最終代碼審查(90-100)的全流程。
為了驗證其在不同開發環境下的泛化性,MiniMax在Droid和OpenCode等編程腳手架上進行了測試。
結果顯示,M2.5在Droid上的通過率為79.7,在OpenCode上為76.1,均優于上一代模型及Claude Opus 4.6。
![]()
復雜任務處理:更高效的搜索與專業交付
在搜索和工具調用方面,M2.5展示了更高的決策成熟度,不再單純追求“做對”,而是尋求以更精簡的路徑解決問題。
在BrowseComp、Wide Search和RISE等多項任務中,M2.5相較于前代節省了約20%的輪次消耗,以更優的token效率逼近結果。
![]()
針對辦公場景,MiniMax通過與金融、法律等領域資深從業者合作,將行業隱性知識融入模型訓練。
在內部構建的Cowork Agent評測框架(GDPval-MM)中,M2.5在與主流模型的兩兩對比中取得了59.0%的平均勝率,能夠輸出符合行業標準的Word研報、PPT及復雜的Excel財務模型,而非簡單的文本生成。
![]()
![]()
技術底座:原生Agent RL框架驅動線性提升
M2.5性能提升的核心驅動力來自于大規模強化學習(RL)。
MiniMax采用了名為Forge的原生Agent RL框架,通過引入中間層解耦了底層訓推引擎與Agent,支持任意腳手架的接入。
在算法層面,MiniMax沿用了CISPO算法以保障MoE模型在大規模訓練中的穩定性,并針對Agent長上下文帶來的信用分配難題,引入了過程獎勵機制(Process Reward)。
此外,工程團隊優化了異步調度策略和樹狀合并訓練樣本策略,實現了約40倍的訓練加速,驗證了模型能力隨算力和任務數增加呈現近線性提升的趨勢。
![]()
目前,M2.5已在MiniMax Agent、API及Coding Plan中全量上線,其模型權重也將在HuggingFace開源,支持本地部署。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.