![]()
![]()
“真正的護城河,是科學的研究文化與方法,是將未知問題結合模型優勢轉化為可用產品的能力。”
作者|王博
大模型正在進入一個新階段。
過去兩年,行業圍繞著參數規模、預訓練數據量與通用能力上限展開了激烈競爭。模型是否“更聰明”,是否能在標準基準上取得領先成績,幾乎構成了全部敘事核心。
在大模型進入第二個階段之后,一個越來越清晰的事實正在浮出水面:在以Agent為目標的應用場景中,效率本身開始成為能力的一部分。
正是在這樣的背景下,小米MiMo團隊在12月16日晚上發布并開源了MiMo-V2-Flash。團隊在官方博客中介紹,這是一款強大、高效且超快速的基座語言模型,在推理、編程和智能體場景中表現尤為出色,同時也是處理日常任務的優秀通用助手。
![]()
圖片來源:小米MiMo
從技術報告和官方博客給出的信息來看,小米MiMo團隊并沒有一味卷模型參數,而是圍繞“推理效率、長上下文與Agent能力”展開了系統性工程設計。
今天上午,小米MiMO大模型負責人羅福莉公開介紹了MiMo-V2-Flash并分享了其背后的研發故事。值得注意的是,這是DeepSeek前研究員羅福莉加入小米后,首次公開亮相。
![]()
羅福莉,圖片來源:「甲子光年」拍攝
臺上的羅福莉略顯緊張,雙手一直緊握翻頁器,但這位四川姑娘用帶有一點“川普”的口音堅定地說:“MiMo-V2-Flash是邁向Agent時代的全新語言基座。”
「甲子光年」認為,這不僅是一次重要的模型發布,也是一次觀察小米MiMo團隊技術取向的機會。將模型本身的技術選擇,與背后的人員與組織變化結合起來看,MiMo-V2-Flash的意義,已經超出了單一模型版本迭代。
1.模型形態:推理效率成為核心
MiMo-V2-Flash采用混合專家(Mixture-of-Experts,MoE) 架構,總參數規模為309B,但在實際推理過程中,僅有約15B參數被激活。
在輕量化的模型架構之上,MiMo-V2-Flash仍然實現了更高水平的智能表現,在多項基準測試中獲得了不錯的成績。
例如,在AIME 2025數學競賽和GPQA-Diamond科學知識基準中,MiMo-V2-Flash躋身開源模型前二,展現出突出的推理能力。在衡量軟件工程能力的SWE-bench Verified以及多語言基準上,MiMo-V2-Flash位列所有開源模型第一,并且整體表現已可與全球頂級閉源模型比肩。
![]()
圖片來源:小米MiMo
其實在當前階段,MoE已逐漸成為很多模型研發團隊面向推理效率的現實選擇。隨著模型被頻繁調用、持續運行,單位時間內的計算成本與顯存占用,開始成為系統設計的硬約束。MiMo-V2-Flash的參數分布方式,明顯是在為高并發、長時間運行場景預留空間。
從這一點看,小米MiMo-V2-Flash定位更像是一款可以被嵌入系統、長期服務的推理引擎。
MiMo-V2-Flash支持最高256k的上下文長度,使其能夠完成跨數百輪Agent交互和工具調用的任務。與這一指標同樣重要的,是它實現這一能力的方式。
羅福莉介紹,團隊圍繞極致推理效率設計模型結構,主要有兩個方面創新:Hybrid SWA架構(混合滑動窗口注意力)和3層MTP推理。
![]()
羅福莉談圍繞極致推理效率設計模型結構,圖片來源:「甲子光年」拍攝
在注意力機制上,MiMo-V2-Flash采用了滑動窗口注意力與全局注意力相結合的混合注意力(hybrid attention)架構。滑動窗口注意力讓模型在大多數情況下只關注局部上下文,大幅降低長文本場景下的計算與顯存開銷;全局注意力則在關鍵層中保留對完整上下文的建模能力,用于校準整體語義與長程依賴。通過在效率與理解能力之間進行這種分工,模型得以在支持超長上下文的同時,仍保持可部署、可擴展的推理性能。
小米MiMo團隊將滑動窗口注意力與全局注意力交錯使用,采用128-token的激進滑動窗口設置,并以5:1的混合比例進行組合。
這一設計并不追求理論上的最優表達能力,而是針對KV Cache的顯存與計算成本進行了現實取舍。全局注意力在長上下文下的成本增長過快,而純滑動窗口又會削弱長程依賴。混合注意力的引入,使模型在長文本理解與工程可行性之間維持了相對平衡。
客觀來說,這類設計細節往往不容易在榜單中體現,卻直接決定了模型是否能在真實系統中被使用。
在推理效率層面,MiMo-V2-Flash引入了Multi-Token Prediction(MTP)模塊。這一模塊以輕量級結構嵌入模型體系,使模型在一次前向計算中并行預測多個token。
![]()
圖片來源:小米MiMo
羅福莉介紹:“MTP一開始是被提出來用于做推理加速的,后面DeepSeek將它用于提升基座模型的能力,我們也在訓練的時候去加入了MTP層進一步提升基座模型的潛能。微調的時候加入了更多層的MTP,用很少量的算力就提升了MTP層的接受率。”
根據技術報告,MTP在不顯著影響生成質量的前提下,可將推理速度提升最高約3倍。
這一設計的意義,并不局限于讓模型可以“更快輸出”,而在于改變了模型在復雜任務中的推理節奏。
在Agent場景中,模型往往需要經歷多輪規劃、判斷與執行。推理速度的提升,直接影響系統的響應能力,也影響Agent是否能夠被用于實時或準實時決策任務。MTP的引入,明顯可以服務于這一類使用情境。
2.訓練方法:全新的后訓練范式MOPD
在推理與Agent任務中,模型面臨的挑戰與傳統問答任務存在明顯差異。
錯誤不再只體現在“答錯一道題”,而會通過多步推理、長時序決策被不斷放大,最終影響系統整體行為。
傳統的監督微調或Off-policy蒸餾,更多是在“標準答案環境”中訓練模型。模型學到的,是在理想情況下該如何一步步走到正確結果,但在真實運行中,它更常面對的是中途走偏、信息不完整或需要反復試錯的情況。這種訓練環境與真實使用場景之間的差距,在復雜推理和頻繁工具調用的任務中會被進一步放大。
小米MiMo團隊在MiMo-V2-Flash的后訓練階段,創新提出了多教師在線策略蒸餾(Multi-Teacher Online Policy Distillation,MOPD)范式,正是針對這一問題提出的解決方案。
此前的蒸餾通常是給定輸入,由更大、更強的教師模型生成完整輸出,再由更小的學生模型去“模仿結果”。
但這在推理和Agent場景里會出現問題,比如學生模型只學“答案”,不學“過程”;學生模型在真實推理中走偏、犯錯,不按教師模型的路徑走。此外Agent場景中的工具調用、多輪決策、長時規劃, 這些都不是“看一個標準答案”就能學會的。
而MOPD的核心思路,是讓學生模型先按照當前策略生成推理或Agent行為軌跡,再由多個教師模型在這些on-policy 軌跡上進行token級指導。
這種方式使學生模型學習的對象從理想化的“標準答案”,轉變成自身在真實狀態空間中的行為分布。
多教師機制進一步增強了約束的多樣性。不同教師模型在推理策略、工具使用、節奏控制等方面的差異,使學生模型獲得更豐富的參考信號,從而降低在復雜任務中的單一偏置風險。
羅福莉還分享了一件讓她意外的事情:“當學生模型很快超越教師模型的時候,能不能讓這個學生替換成教師,繼續自我迭代提升?”
根據官方博客,MOPD采用了解耦設計,支持靈活地集成新的教師模型和ORM,并自然而然地實現“教與學”的閉環迭代:通過蒸餾得到的學生模型可以演化為更強的教師模型,從而實現能力的持續自我提升。
值得一提的是,MOPD訓練穩定且極其高效——要達到教師模型的最高性能,僅需傳統SFT+RL流程不到1/50的計算資源。
![]()
圖片來源:小米MiMo
那么MOPD取代強化學習(RL)了嗎?
在MiMo-V2-Flash的訓練體系中,MOPD并未取代強化學習,而是與Agentic RL形成了協同結構。
MOPD提供的是一種相對平滑、穩定的中間訓練階段,用于在進入高噪聲的強化學習之前,對模型行為進行約束和塑形。這種設計降低了強化學習在長時序任務中可能出現的策略崩壞風險,也使模型在復雜環境中的探索更加可控。
這一組合,體現出小米MiMo團隊明顯的系統工程思維:將模型訓練視為多階段、不同目標函數逐步接管的過程,而不是一次性優化。
3.羅福莉與小米:一次面向Agent時代的下注
羅福莉身上有著太多的標簽。
她畢業于北大,是國際頂會常客,此前曾在阿里巴巴達摩院和DeepSeek工作,這次是她作為小米MiMO大模型負責人首次公開亮相。
羅福莉的職業經歷中,反復出現的主題是強化學習、復雜決策系統以及模型在真實環境中的穩定性問題。她關注的重點并不集中在模型的理論上限,而更多指向模型在錯誤空間中的表現,以及系統在長時間運行中的行為演化。
MiMo-V2-Flash在MOPD、Agentic RL、推理節奏與工程穩定性上的投入,或許會讓人覺得這是一款“工程味很重”的模型,但是這與羅福莉的技術取向可以說是高度一致。而從模型設計邏輯來看,這種一致性更像是路線選擇的自然結果,而非偶然疊加。
這既是她加入小米后發布的首個重要成果,也可能是小米大模型路線一次長期影響深遠的轉向。
對于小米這樣一個擁有操作系統、設備生態與多樣化應用場景的公司而言,這種以Agent能力為導向的模型設計,具有更高的戰略價值。推理效率、穩定性與可控性,直接決定了模型是否能夠被嵌入復雜系統。
而從行業視角看,MiMo-V2-Flash代表著大模型路線的一種分化趨勢:在預訓練Scaling逐漸逼近邊際收益的背景下,圍繞推理系統、Agent能力與工程可行性的探索,正在成為新的競爭維度。
這一方向并不依賴于極端的算力投入,而更強調系統設計、訓練方法與工程能力的協同。這種路線,也更貼近大模型在產業環境中的真實需求。
近期OpenAI前首席科學家伊利亞·蘇茨克維(Ilya Sutskever)接受采訪時提到,過去5年,在“算力+海量數據+大模型”上不斷擴張規模,確實推動了AI的快速發展。但這條“預訓練+scale”路徑正逼近極限——數據源有限,算力雖多,但再多 100 倍,也不一定帶來實質性質變。“我們正從規模時代(age of scaling)轉向研究時代(age of research)”伊利亞直言。
有趣的是,今天羅福莉表達了類似的觀點:“算力和數據也并非最終的護城河,真正的護城河,是科學的研究文化與方法,是將未知問題結合模型優勢轉化為可用產品的能力。”
在羅福莉看來,小米MiMo團隊是一個研究、產品、工程深度耦合的年輕團隊,“我們團隊里邊每個人都極度好奇、追求真理,乘著自由的風,滿懷著對這個世界極致的關懷,在一起去探索智能的邊界。”
這一次,以羅福莉為代表的小米MiMo團隊選擇在推理與Agent上明確下注。
“下一代智能體系統,不是一個‘語言模擬器’,而是一個真正理解我們世界、并與之共存的‘智能體’。”羅福莉說。
她認為,大模型本質上是用了算力的暴力美學,直接去攻克了最頂層的語言,但是它跳過了中間的非常多的步驟,比如對世界的感知、模擬,以及作為實體與環境產生交互。
“單純Scaling Up參數量不夠,”羅福莉說,“要讓大模型回到‘演化課堂’,補上它跳過的關鍵學習步驟。”
![]()
羅福莉談通往AGI之路,圖片來源:「甲子光年」拍攝
在MiMo-V2-Flash發布之前,羅福莉和MiMo有一次對話,她想讓MiMo”深入闡述物理世界導向:強調多模態和真實世界交互才是通往真正智能(AGI)的關鍵,而非僅靠文本。
MiMo的回答是:“智能根植于存在,而非符號。”
這個回答讓羅福莉有些意外,但也讓她充滿信心。
![]()
羅福莉與MiMo-V2-Flash對話,圖片來源:「甲子光年」拍攝
*甲子光年作者蘇霍伊對本文亦有貢獻
(封面圖來源:「甲子光年」拍攝)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.