網易首頁 > 網易號 > 正文申請入駐

熱度第一、Tokens周調用破3T，MiniMax這個春節殺瘋了

2026-02-23 18:46:36　來源: 機器之心Pro

北京舉報

分享至

編輯｜楊文

這個春節，MiniMax 殺瘋了。

2 月 20 日，港股馬年首個交易日，MiniMax 收盤股價報漲 14.52%，市值一度沖破 3042 億港元。

這輪上漲并非只是資本市場的情緒宣泄。

過去兩年，AI 行業的敘事幾乎集中在供給側，比如更強的模型、更快的芯片、更大的數據中心。然而，制約 AI 產業規模化落地的，除了供給側的能力上限外，還有大量長期憋著、始終未能真正釋放的需求。

春節假期前后，MiniMax 發布新一代模型 M2.5，這些被壓制的需求終于找到了一個出口。

M2.5 發布后 12 小時內登頂 OpenRouter 熱度榜，一周內登頂調用量榜首，周調用量暴漲至 3.07T tokens，超過 Kimi K2.5、GLM-5 與 DeepSeek V3.2 三家的總和。

這還不是故事的全部。OpenRouter 整體調用量也在同步攀升。官方隨后確認，M2.5 帶動了 100K 至 1M 長文本區間的增量調用需求，而這個區間正是 Agent 工作流的典型消耗場景。

此前因為找不到能力和成本同時過關的模型，大量開發者手里攥著現成的工作流卻遲遲無法啟動。Agent 任務的 token 消耗遠比普通對話密集，需求一旦被激活，帶動的調用增量自然相當可觀。

硅谷在用什么，已經悄悄變了

早在 MiniMax 推出 M2.1 模型時，被公認為 Cursor 最強挑戰者的硅谷新貴 Kilo Code 就已表態。這家可調用全球超過 500 種模型的 AI 編程工具，在核心產品的默認模型位置上，曾高調宣布首選 MiniMax M2.1。

Kilo 聯合創始人兼 CEO Breitenother 給出的理由簡單粗暴：在開發者直接評判的真實編碼工作流程中，M2.1 能夠與前沿模型相媲美。

此次 M2.5 發布后隨即全面開源，模型權重在 HuggingFace 上發布，支持本地部署，Kilo 再次宣布接入。與此同時，OpenCode、OpenClaw、Fireworks、Factory、TRAE、Cline、OpenHands、Roo Code，以及 Ollama、vLLM、SGLang、Dify、魔搭社區等國內外知名開源 Agent 應用、開源工具平臺，也在第一時間接入

Kilo 代表新一代 AI 編程工具的方向，OpenClaw 代表最新的 AgentOS，它們在底層模型的選擇上極為挑剔，M2.5 能夠成為這類產品的優先推薦，意味著在真實生產環境中對于模型的認可。

在編程領域最具代表性的 SWE-Bench Verified 評測中，M2.5 以 80.2% 的通過率達到了與 Claude Opus 系列相當的水平，在多語言任務 Multi-SWE-Bench 上排名第一。

知名技術博主 Simon Willison 使用 mini-swe-agent 對當前主流模型進行了獨立測評，結果顯示 M2.5 排名第三，僅次于 Claude Opus 4.5 和 Gemini 3 Flash，且是開源模型中的第一名

執行效率也有實質性提升。研究機構 SemiAnalysis 實測顯示，在 8 張 H200 顯卡上，M2.5 在合理首 token 延遲范圍內能夠持續達到每 GPU 每秒約 2500 個 token 的吞吐量，即便在嚴格要求每用戶每秒 20 個 token 交互性的條件下，處理超過 1 萬個 token 的上下文時仍能維持穩定的解碼速度。

開源 Agent 社區的密集接入同樣說明問題。對于需要長時間運行、高頻調用工具的 Agent 框架來說，模型的定價直接決定了產品能否跑通商業邏輯。

M2.5 的價格區間恰好落在這批產品真正能接受的范圍里。它提供兩個版本：100 TPS 快速版，輸入每百萬 tokens 僅需 0.3 美元，輸出每百萬 tokens 僅需 2.4 美元；50 TPS 版本輸出價格還要再降一半。

能力、速度、成本，這三個維度在 M2.5 上同時達標，帶來的結果在 OpenRouter 上看得尤為清楚，M2.5 第一次走出了一條接近指數型的曲線。

滿足真實需求，從底層重新設計

這些提升的背后，得益于 MiniMax 從工程底層重新設計的一套原生 Agent 強化學習系統，代號 Forge。

Forge 將 Agent 的執行邏輯與底層訓練推理引擎徹底解耦。在此之前，大多數 RL 框架要求把 Agent 當作白盒來處理，Agent 與框架之間需要深度共享內部狀態，一旦涉及動態上下文管理或多 Agent 協作，工程復雜度就會急劇膨脹；傳統的 Token-In-Token-Out 模式還迫使 Agent 與底層 Tokenizer 深度綁定，維護訓練和推理之間的一致性成本極高。

Forge 通過引入中間件抽象層繞開了這兩個問題。Gateway Server 作為標準化通信網關，將 Agent 的高層行為與底層模型復雜性隔離；Data Pool 異步收集訓練軌跡，使生成與訓練徹底解耦。這套架構讓 MiniMax 可以在不修改任何 Agent 內部代碼的前提下，接入數百種框架和數千種工具調用格式進行訓練。

訓練效率上，Forge 引入了 Prefix Tree Merging 方案，將訓練樣本從線性序列重構為樹形結構，消除了多輪 Agent 請求之間大量重復的上下文前綴，實現了約 40 倍的訓練加速，同時顯著降低了顯存開銷。

異步調度上，Forge 提出 Windowed FIFO 策略，在最大化系統吞吐量的同時，通過滑動窗口約束控制樣本的離策略程度，避免訓練分布向「快而簡單」的樣本嚴重偏移，兼顧了效率與穩定性。

算法層面，MiniMax 沿用自研的 CISPO 算法保障 MoE 模型在大規模訓練中的穩定性，并針對 Agent 場景的長軌跡信用分配難題，設計了由過程獎勵、任務完成時間獎勵與 Reward-to-Go 三部分組成的復合獎勵：過程獎勵對 Agent 中間行為進行密集監督，不只依賴最終結果；任務完成時間獎勵將相對完成時間作為獎勵信號，激勵模型主動利用并行策略選擇最短執行路徑；Reward-to-Go 則通過標準化回報大幅降低梯度方差，穩定優化過程。

此外，MiniMax 還將上下文管理機制直接整合進了 RL 交互循環，將其視為驅動狀態轉換的功能性動作，讓模型在訓練階段就學會預見并適應上下文變遷，這從根本上解決了長程任務中隨交互輪次增加而出現的注意力稀釋問題。

正是這套系統，讓 M2.5 在 Kilo、OpenClaw 這類對模型要求頗為苛刻的 Agent 框架上跑出了穩定的表現。

超越 Agentic Engineering，面向下一代應用生態

在過去 108 天里，MiniMax 陸續推出了 M2、M2.1 和 M2.5，在 SWE-Bench Verified 榜單上，M2 系列的進步速度超過了 Claude、GPT 和 Gemini 系列，是行業迭代最快的

這個節奏，恰好踩在一個需求爆發的窗口上。OpenClaw 從籍籍無名到席卷全球，前后不過一兩個月時間。如今 OpenRouter 上已有上千種類似工具和應用在此生長，這片 ChatGPT、Claude、Gemini「御三家」之外的生態里，開發者只認一個標準：模型跑不跑得通、用不用得起。

能力達到第一梯隊、價格只有主流旗艦模型十分之一、還支持本地部署，MiniMax M2.5 和一系列國產模型的出現，恰好在性能與成本之間擊穿了那個臨界點，讓開源社區里那些原本只存在于 Demo 中的復雜多 Agent 系統，第一次具備了大規模商業落地的經濟可行性。

3T tokens 的周調用量背后，是開發者們用腳投出的票。這個數字不只是 M2.5 模型的增量，更是硅谷下一代的開源生態應用的增量

那些被壓制了許久的 Agent 需求，真的要開始跑起來了。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.