網易首頁 > 網易號 > 正文申請入駐

神秘爆款模型被小米認領！雷軍直言超過馬斯克 xAI Grok，羅福莉透露MiMo-V2-Pro將開源

2026-03-19 12:18:58　來源: InfoQ

北京舉報

分享至

整理 | 褚杏娟

最近，那個被廣泛好評、并占領 OpenRouter 調用量榜單第一的神秘模型 Hunter Alpha，終于被正式認領了。

今天，小米正式發布 MiMo-V2 家族三款新模型：MiMo-V2-Pro、MiMo-V2-Omni 和 MiMo-V2-TTS。與此同時，小米也首次確認，此前外界熱議的匿名模型 Hunter Alpha，正是 MiMo-V2-Pro 的早期內部測試版本；而另一個神秘模型 Healer Alpha，則對應 MiMo-V2-Omni。

“一周前，代號為 Hunter Alpha 的匿名模型上線全球最大的 API 聚合平臺 OpenRouter。上線后，其調用量持續上漲，連續多天登頂日榜，累計調用量已突破 1T tokens。而 Hunter Alpha 正是 MiMo-V2-Pro 的早期內部測試版本。經過一周持續迭代和優化，MiMo-V2-Pro 在長文能力以及 Agent 場景穩定性方面獲得了顯著提升。”小米在官方介紹中寫道。

這次發布，雷軍也親自為新品站臺。他表示，MiMo-V2-Pro 的榜單表現已經超過馬斯克旗下 xAI 的 Grok，并直言：“我們在 AI 領域一直相對比較低調，但實際進展可能比大家看到的要快很多。在 AI 領域，我們今年的研發和資本投入將超過 160 億元。”

同時，羅福莉也在推特發文分享了研發過程中的感受，也透露出未來模型會開源：

MiMo-V2-Pro、Omni 和 TTS 已經發布了。這是我們第一套真正為 Agent 時代打造的全棧模型家族。

我把這稱作一次“安靜的突襲”。不是因為我們早有預謀，而是因為從 Chat 范式轉向 Agent 范式的速度實在太快了，快到連我們自己都幾乎不敢相信。其間經歷的整個過程，讓人既興奮又痛苦，同時也極其迷人。

這個 1T 基座模型其實幾個月前就已經開始訓練了。最初的目標，是提升長上下文推理效率。Hybrid Attention 確實帶來了真正的創新，而且并沒有用力過猛；后來我們才發現，它恰好成了 Agent 時代最合適的基礎。100 萬上下文窗口，配合 MTP 推理，實現了極低延遲和低成本。這些架構決策當時并不算時髦，但它們后來證明，正是我們在真正需要之前就提前構建好的結構性優勢。

真正改變一切的，是我第一次體驗到一個復雜的 agentic scaffold：我更愿意把它叫作“編排式上下文”。第一天我就被震住了。我試圖說服團隊去用它，但沒成功。于是我直接下了死命令：MiMo 團隊里，誰到明天為止還沒有完成 100 次對話，誰就可以走人。結果證明，這招奏效了。團隊一旦真正被 agentic system 所能做到的事點燃想象力，這種想象力就會立刻轉化成研究推進的速度。

很多人問我們為什么推進得這么快。我在做 DeepSeek R1 的時候已經親眼見過一次，我的真實總結是：

底座模型和基礎設施研究周期很長，你必須在回報出現前一年，就先有戰略判斷和投入決心。后訓練階段的敏捷性，則是完全不同的一種能力：靠產品直覺驅動評估，把迭代周期壓縮到極致，盡早捕捉范式變化。而始終不變的部分，是好奇心、敏銳的技術直覺、果斷的執行力、全力以赴的投入，以及還有一點很容易被低估：你必須真心熱愛你正在為之構建的那個世界。

等這些模型穩定到真正配得上開源的時候，我們會把它們開源出來。

發自北京，深夜，很晚了，人還沒完全清醒。

當前，MiMo-V2-Pro 模型已正式開放 API 服務，支持 1M 上下文長度，并根據使用量分段計價：

256K 上下文以內：輸入 1 美元（約合 6.87 人民幣） / 百萬 tokens，輸出 3 美元（約合 20.62 人民幣） / 百萬 tokens
1M 上下文以內：輸入 2 美元（約合 13.75 人民幣） / 百萬 tokens，輸出 6 美元（約合 41.24 人民幣） / 百萬 tokens

與智譜最近也面向真實 Agent 長鏈路任務深度優化的模型 GLM-5-Turbo 相比，小米的模型定價整體略高。不過，此前 Hunter Alpha 在 Claw-Eval 測試中擊敗了 GLM-5。

1 為高強度 Agent 場景而生的旗艦模型

在三款模型中，最受關注的顯然是 MiMo-V2-Pro。這款模型在匿名測試階段就已經引起了大量關注，甚至 OpenClaw 也都早早支持了該模型。

根據官方介紹，MiMo-V2-Pro 專為現實世界中高強度的 Agent 工作場景打造，總參數量超過 1T，激活參數為 42B，采用創新的混合注意力架構，并支持 1M 超長上下文。同時，團隊還在更廣泛的 Agent 場景中持續進行算力 Scaling，進一步拓展了模型的動作空間，實現了從 Coding 到 Claw 的關鍵泛化。

在大模型綜合智能排行榜 Artificial Analysis 上，MiMo-V2-Pro 位列全球第八、國內第二。

從實際使用表現看，MiMo-V2-Pro 在 OpenClaw、Claude Code 等智能體框架中展現出了突出的端到端任務完成能力，能夠在較少人工干預的情況下完成復雜工作流編排、長程規劃和精準工具調用，還能持續可靠地交付最終結果。官方稱，其整體使用體感已經超越 Claude Sonnet 4.6，逼近 Claude Opus 4.6，但 API 定價僅為后者的 1/5，大幅拉低了前沿智能的使用門檻。

從技術規格來看，MiMo-V2-Pro 相比前代 MiMo-V2-Flash，總參數量擴大了約 3 倍。它延續了前代的 Hybrid Attention 機制，并將混合比例從 5:1 提升到 7:1，在參數規模顯著增大的同時依然維持了較高推理效率，并支持 1M 級別的超長上下文。與此同時，輕量級 MTP（Multi Token Prediction）層也進一步提升了生成速度。

更重要的是，MiMo-V2-Pro 的目標已經不再局限于“回答問題”或“生成 Demo”，而是轉向“完成任務”。在后訓練階段，團隊針對更廣泛的 Agent 場景進行了持續 Scaling，使模型逐漸能夠勝任真實生產環境中的復雜執行工作，并朝著“生產力系統的大腦”這一定位推進。

在多項關鍵基準測試中，MiMo-V2-Pro 的 Coding Agent、通用 Agent、Tool Use 等能力，已經與 Claude Sonnet 4.6、GPT-5.2、Gemini 3.0 Pro 處于同一梯隊。小米表示，團隊始終堅持以“實際體感”為導向進行訓練優化，重點關注模型在真實應用場景中的落地表現。

Pro：重點關注 Agent、編程

從官方對外傳遞的信息看，MiMo-V2-Pro 最明確的定位，就是一款“為 Agent 而生的旗艦模型”。

近期高度關注的通用智能體框架 OpenClaw，正是這種能力的代表性場景。作為支撐這類框架的底層模型，模型本身的能力上限會直接決定整套系統的業務表現。針對這類復雜、多樣的 Agent Scaffold，MiMo-V2-Pro 在 SFT 和 RL 階段進行了專門優化，因此具備更強的工具調用能力與多步推理能力。

在 OpenClaw 相關標準評測榜單 PinchBench、ClawEval 上，MiMo-V2-Pro 的表現處于全球頂尖水平。再加上 1M 上下文窗口的優勢，這款模型可以更加從容地支撐高強度、復雜的真實 Claw 應用流。

小米還提到，在早期測試階段，也就是 Hunter Alpha 版本期間，來自社區的真實反饋顯示，絕大多數使用場景下，效果都已經超過 Claude Sonnet 4.6。這也解釋了它為什么能在 OpenRouter 上迅速走紅。

編程也是 MiMo-V2-Pro 重點發力方向之一。

根據小米內部工程師的深度評測，MiMo-V2-Pro 的整體體驗已經接近 Claude Opus 4.6，并在系統設計、任務規劃、代碼風格以及問題解決路徑上展現出更高階的代碼智能。官方還表示，在 Hunter Alpha 的測試階段，調用量最高的幾款應用大多是編程工具，這也從側面說明 MiMo-V2-Pro 在真實研發場景中已經具備了較高的可用性和可靠性。

在 OpenClaw 里，Pro 生成的網頁

同時，小米宣布，MiMo-V2-Pro 將聯合 OpenClaw、OpenCode、KiloCode、Blackbox、Cline 等五大 Agent 開發框架團隊，為全球開發者提供為期一周的限時免費接口支持。

Omni：關注全模態交互

與 Hunter Alpha 對應的另一款匿名模型 Healer Alpha，這次也終于揭開真身，它就是 MiMo-V2-Omni。

如果說 MiMo-V2-Pro 的核心任務是強化 Agent 執行能力，那么 MiMo-V2-Omni 則更進一步，瞄準的是現實世界中復雜的多模態交互與執行場景。

根據官方介紹，MiMo-V2-Omni 從底層構建了融合文本、視覺、語音的全模態基座，并通過統一架構將“感知”和“行動”深度綁定，使模型原生具備多模態感知、工具調用、函數執行以及 GUI 操作能力。這意味著，MiMo-V2-Omni 并不僅僅是一款看圖說話或聽音識別模型，而是一款真正能夠無縫接入 Agent 框架、在復雜數字環境中執行任務的全模態模型。

在音頻理解方面，MiMo-V2-Omni 支持從環境聲分類、多說話人分離，到音頻—視覺聯合推理，再到超過 10 小時長音頻的連續理解。官方稱，其綜合表現超過 Gemini 3 Pro，是當前最強的音頻理解基座模型之一。
在圖像理解方面，MiMo-V2-Omni 展現出強大的多學科視覺推理與復雜圖表分析能力，官方稱其效果已經超過 Claude Opus 4.6，逼近 Gemini 3 Pro 等頂尖閉源模型。
在視頻理解方面，MiMo-V2-Omni 支持原生音視頻聯合輸入，實現真正意義上的多模態視頻理解。通過創新性的視頻預訓練，模型具備了更強的情境感知與未來推理能力。

小米表示，在與真實數字環境交互的評測基準上，MiMo-V2-Omni 的整體表現已經比肩 Gemini 3 Pro。其前沿感知能力與原生訓練的行動能力結合后，形成了明顯的復合優勢：感知越準確，行動就越有效。

目前，MiMo-V2-Omni 已正式開放 API 服務，支持 256K 上下文長度，定價為：

輸入 0.4 美元（約合 2.75 / 人民幣）/ 百萬 tokens
輸出 2 美元（約合 13.75 人民幣） / 百萬 tokens

同時，小米也將聯合 OpenClaw、OpenCode、KiloCode、Blackbox、Cline 等五大 Agent 開發框架團隊，為全球開發者提供為期一周的限時免費接口支持。

TTS：面向高表現力語音生成

除了 Pro 和 Omni，這次一同發布的還有語音合成模型 MiMo-V2-TTS。

這是一款由小米自研的語音合成大模型，基于自研 Audio Tokenizer 與多碼本語音—文本聯合建模架構，經過上億小時語音數據的大規模預訓練和多維度強化學習，具備高度可控的多粒度語音風格控制能力。

按照官方說法，MiMo-V2-TTS 不僅可以完成整體風格定調，也能對局部情緒表達進行精準調節。從訓練路徑看，MiMo-V2-TTS 先通過超大規模語音—文本混合預訓練，建立起較強的跨模態對齊、理解和生成能力；隨后再通過少量高質量監督數據微調，獲得可泛化的多粒度、多風格指令控制能力。小米在預訓練中使用的語音數據量突破上億小時。

為了進一步激發模型在預訓練階段積累的高表現力語音生成潛力，團隊又引入了多維度強化學習，重點圍繞更自然的韻律、更穩定的音質、更準確的字詞表達、更高質量的音色克隆，以及不同場景下更合適的語氣與表達方式進行持續優化。

此外，得益于多層碼本建模架構，MiMo-V2-TTS 能夠在高保真的離散 token 空間中建模語音，最大限度保留原始語音中的豐富信息，也讓強化學習階段可以更直接地利用語音相關獎勵信號對模型進行優化，從而讓多維獎勵更有效地作用于生成過程。

2 結束語

小米這次釋放出的信號其實非常明確，它押注是一套面向 Agent 時代的通用智能底座。而此次匿名爆紅，壓力就給到了 DeepSeek，此前人們紛紛猜測 Healer Alpha 是 V4。雖然此前就有人測試在去掉系統提示詞后自我認知都是 Mimo，通過分詞器里的特殊 token，也能直接確定就是 Mimo，但謎底正式揭曉后有人直呼小米成為“萬億參數的隱形冠軍”。

不過，近日白鯨實驗室報道稱，DeepSeek-V4 將于 4 月正式上線。作為梁文鋒打磨已久的多模態大模型，DeepSeek-V4 除了在 Coding 能力上躍升之外，還將在 LTM（long term memory 長期記憶）上取得突破。這恰好也是智能體當前的短板之一。據報道，梁文鋒近半年的主要工作是補齊 DeepSeek 此前在視覺內容處理，以及 AI 搜索等方面的短板。為了強化 DeepSeek 的 AI 搜索能力，DeepSeek 早在去年就與百度合作。

對于已經很久沒有非常重磅發布的 DeepSeek 來說，4 月份的發布已經吊足了人們的胃口。而隨著國內各模型廠家的戰略和人才調整，今年國內大模型市場應該會非常熱鬧。

會議推薦

OpenClaw 出圈，“養蝦”潮狂熱，開年 Agentic AI 這把火燒得不可謂不旺。在這一熱潮下，自托管 Agent 形態迅速普及：多入口對話、持久記憶、Skills 工具鏈帶來強大生產力。但這背后也暴露了工程化落地的真實難題——權限邊界與隔離運行、Skills 供應鏈安全、可觀測與可追溯、記憶分層與跨場景污染、以及如何把 Agent 納入團隊研發 / 運維流程并形成穩定收益。

針對這一系列挑戰，在 4 月 16-18 日即將舉辦的 QCon 北京站上，我們特別策劃了「OpenClaw 生態實踐」專題，將聚焦一線實踐與踩坑復盤，分享企業如何構建私有 Skills、制定安全護欄、搭建審計與回放機制、建立質量 / 效率指標體系，最終把自托管 Agent 從可用的 Demo 升級為可靠的生產系統。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.