網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

“雷軍的AI秘密武器”羅福莉首秀：詳解小米AGI之路

2025-12-17 21:37:27　來源: 太空與網(wǎng)絡(luò)

北京舉報(bào)

分享至

作者｜郭曉靜

12月17日，2025小米“人車家全生態(tài)合作伙伴大會(huì)”舉辦。在這次大會(huì)上，小米MiMo團(tuán)隊(duì)負(fù)責(zé)人羅福莉完成了首秀演講。作為前DeepSeek核心成員，羅福莉自從加入小米，就被視為小米AI研發(fā)走向“正規(guī)軍化”和“極客化”的里程碑。

市場(chǎng)曾期待她能帶來像DeepSeek那樣顛覆性的“小而美”模型，而羅福莉身上AI時(shí)代的極客特質(zhì)，也許能與小米初創(chuàng)時(shí)期的極客基因完美相融，產(chǎn)生新的化學(xué)反應(yīng)。

羅福莉的首秀略顯緊張，但不負(fù)眾望，她帶來了一個(gè)高效的模型MiMo-V2-Flash，也拋出了新的AGI夢(mèng)想。

在她看來，現(xiàn)在的模型大多只是“完美的語言外殼，沒有錨定現(xiàn)實(shí)世界的物理模型”；“真正的智能是從交互中活出來的”，通往AGI的必經(jīng)之路，不是打造一個(gè)程序，而是“推演整個(gè)世界的運(yùn)作邏輯，打造一個(gè)虛擬宇宙”。

這次首秀，羅福莉確實(shí)帶來了鮮明的“DeepSeek 基因”，比如MoE架構(gòu)、MTP技術(shù)和對(duì)極致效率的追求。

此次開源的MiMo-V2-Flash模型，它具備三個(gè)核心特點(diǎn)：

高效推理

雖然總參高達(dá)309B，但通過MoE架構(gòu)僅激活15B，結(jié)合被低估的MTP（多令牌預(yù)測(cè)）技術(shù)，生成速度達(dá)到150 tokens/秒。這帶來約2.5倍加速，主要為了解決車機(jī)、助手等端側(cè)交互對(duì)延遲的敏感。

創(chuàng)新的長(zhǎng)文本架構(gòu)

設(shè)計(jì)上追求“簡(jiǎn)單優(yōu)雅”，采用Hybrid SWA機(jī)制，鎖定128 tokens的“神奇窗口”。這不僅支持256K長(zhǎng)上下文，固定了KV緩存以降低硬件壓力，還在代碼生成上刷新了SOTA。

極高的性價(jià)比

落地層面非常務(wù)實(shí)，后訓(xùn)練階段采用MOPD技術(shù)，用極低的計(jì)算量（不到標(biāo)準(zhǔn)流程1/50）復(fù)刻教師模型性能，意在降低大規(guī)模部署的成本。

這場(chǎng)首秀被安排在“人車家全生態(tài)”大會(huì)上，意義耐人尋味。羅福莉在小米的職責(zé)很明確：主導(dǎo)大模型研發(fā)，通過高效推理與智能體技術(shù)，推動(dòng)AI從“語言交互”跨越到“物理世界”，賦能全生態(tài)。

但客觀來看，端側(cè)AI智能、賦能全生態(tài)的理想還在路上，現(xiàn)在的硬件依然難以支撐這樣一個(gè)已經(jīng)“極致效率”的模型。

以當(dāng)前最高端的旗艦手機(jī)為例，端側(cè)模型的舒適區(qū)依然停留在3B到7B參數(shù)之間。MiMo-V2-Flash的15B激活參數(shù)，對(duì)移動(dòng)設(shè)備而言依然是“房間里的大象”。

所謂的“高效推理”，更多是指在云端數(shù)據(jù)中心實(shí)現(xiàn)了高吞吐量，對(duì)于用戶手中的終端，這依然是一個(gè)重度依賴網(wǎng)絡(luò)的“云端模型”。

雖然有驚喜，但是此次小米并沒有打破端側(cè)AI的算力天花板，對(duì)于期待“AI手機(jī)”變革的用戶而言，還需要繼續(xù)等待。

但今天的羅福莉，確實(shí)在給小米，講了一個(gè)可圍繞“人車家生態(tài)的”、新的AGI故事。

以下為演講實(shí)錄（為優(yōu)化閱讀體驗(yàn)，做了二次編輯、刪減）：

從生物演變看 AI 發(fā)展路徑

今天我想帶大家換一個(gè)視角，從 10 億年生物進(jìn)化的長(zhǎng)河中，重新去審視我們正在經(jīng)歷的這一場(chǎng) AI 變革。

如果我們回到生命進(jìn)化的歷程，會(huì)發(fā)現(xiàn)自然界在構(gòu)建智能這座金字塔時(shí)，遵循著非常嚴(yán)密的邏輯：在 6 億年前，生命首先學(xué)會(huì)了控制身體與環(huán)境互動(dòng)；緊接著進(jìn)化出了多巴胺系統(tǒng)，通過強(qiáng)化學(xué)習(xí)進(jìn)一步提升生存能力；在 2 億年前，哺乳動(dòng)物的大腦首次具備了在行動(dòng)前先在大腦里模擬未來的能力；最終我們發(fā)現(xiàn)，人類才登上了智能的塔尖，掌握了語言這一抽象的符號(hào)系統(tǒng)。

所以我們能看到，生物演化的規(guī)律是先具備對(duì)物理世界的感知和生存體驗(yàn)，最后才誕生了語言。但大家都能發(fā)現(xiàn)，到現(xiàn)在為止，大模型的發(fā)展路徑其實(shí)跟生物進(jìn)化路徑是不同步的，甚至說是一種倒敘，或者說是一種跳躍。

生物是先從行動(dòng)進(jìn)化到思考，再進(jìn)化到語言；但是大模型是先學(xué)會(huì)了語言，再去補(bǔ)齊它的思考能力，最后再去補(bǔ)齊對(duì)物理世界的模擬以及具身感知。

為什么大模型智能的產(chǎn)生首先是在語言領(lǐng)域？因?yàn)檎Z言不僅僅是一種符號(hào)的排列組合，更是人類思維以及對(duì)于世界的一種描述。在文本領(lǐng)域的投射，本質(zhì)上是一種有損壓縮。當(dāng)大模型通過 Next Token Prediction（下一詞預(yù)測(cè)）這種范式在海量文本里進(jìn)行學(xué)習(xí)，試圖把 Loss（損失函數(shù)）降到最低的時(shí)候，我們發(fā)現(xiàn)它不僅僅是在擬合一個(gè)統(tǒng)計(jì)規(guī)律，而是在壓縮人類數(shù)十億年間關(guān)于這個(gè)世界的認(rèn)知同構(gòu)。

這種壓縮的過程，在我們看來就是一種智能。所以，大模型通過語言的爆發(fā)，通過 Scaling（擴(kuò)展）算力和數(shù)據(jù)，從而理解了人類的思維和對(duì)世界的理解。但其實(shí)它并不真正像人類一樣具備對(duì)整個(gè)物理世界的感知。嚴(yán)謹(jǐn)來說，它應(yīng)該是成功地解碼了人類思維在文本空間的一個(gè)投影。大家都能看到，這其實(shí)是一種自頂向下的捷徑，因?yàn)樗窃趯W(xué)習(xí)一種智能的結(jié)果，來倒推智能產(chǎn)生的過程。

MiMo-V2-Flash 的誕生，

解決三大核心問題

不管怎么說，語言包含了人類對(duì)世界極致的壓縮，是智慧的結(jié)晶，也是高階智能體之間高效協(xié)作的工具。因此，小米從語言出發(fā)，構(gòu)建了全新一代面向 Agent（智能體）的基座模型——MiMo-V2-Flash。

MiMo-V2-Flash 在研發(fā)之初，主要圍繞著三個(gè)非常關(guān)鍵的問題展開：

第一，我們認(rèn)為當(dāng)代的智能體必須要有一個(gè)高效的溝通語言，即代碼能力和工具調(diào)用能力。

第二，目前智能體之間的溝通帶寬非常低，如何加速帶寬？這需要一個(gè)推理效率極高的模型結(jié)構(gòu)。

第三，Scaling 的范式已經(jīng)逐步從預(yù)訓(xùn)練（Pre-train）轉(zhuǎn)向后訓(xùn)練（Post-train），我們?nèi)绾渭ぐl(fā)后訓(xùn)練的潛能？這就需要一個(gè)穩(wěn)定的范式，以便在強(qiáng)化學(xué)習(xí)（RL）上投入更多的 Compute（算力）。

在這三個(gè)問題的驅(qū)動(dòng)下，我們看到了 MiMo-V2-Flash 超強(qiáng)的基座潛能。雖然它的總參數(shù)在我看來非常小——總參數(shù) 309B，激活參數(shù)只有 15B，我甚至都不愿意稱它為“大”模型——但它的代碼能力和 Agent 能力在世界級(jí)公開公正的評(píng)估榜單上，已經(jīng)進(jìn)入了全球開源模型 Top 1-2 的行列。

基本上，大部分評(píng)估基準(zhǔn)已經(jīng)超過或者與 DeepSeek-V3、Kimi、Qwen 等模型相當(dāng)，而這些模型的總參數(shù)量通常是 MiMo-V2-Flash 的兩倍到三倍。

性能與成本的平衡，

挑戰(zhàn)推理不可能三角

這個(gè)圖展示了全球相同水位大模型在價(jià)格和速度上的比較：橫軸是推理價(jià)格（從大到小），縱軸是推理速度（從小到大）。我們能看到 MiMo 在右上角，代表了低成本、高速度。

舉兩個(gè)模型進(jìn)行對(duì)比：比如 DeepSeek-V3.2，MiMo-V2-Flash 比它更便宜一點(diǎn)，但推理速度大概是 V3.2 的三倍左右。

再比如 Gemini 2.5 Pro，雖然綜合性能相當(dāng)，且推理速度差不多，但 Gemini 2.5 Pro 的推理成本比 MiMo-V2-Flash 貴了整整 20 倍。

架構(gòu)創(chuàng)新與 MTP 加速

那么我們是怎么做到這一切的呢？核心關(guān)鍵在于圍繞“極致推理效率”重新設(shè)計(jì)模型結(jié)構(gòu)，主要依靠?jī)蓚€(gè)創(chuàng)新。

第一個(gè)是Hybrid Attention（混合注意力）結(jié)構(gòu)。我們采用了 Hybrid Sliding Window Attention（混合滑動(dòng)窗口注意力）和 Full Attention（全局注意力），比例大概是 5:1。

為什么選 Sliding Window Attention？因?yàn)樗雌饋矸浅：?jiǎn)單，只關(guān)注鄰域的 128 個(gè) Token。經(jīng)過大量實(shí)驗(yàn)驗(yàn)證，我們發(fā)現(xiàn)一些看似復(fù)雜的 Linear Attention（線性注意力）結(jié)構(gòu)，在兼顧長(zhǎng)短文推理和知識(shí)檢索的綜合性能上，其實(shí)并不如簡(jiǎn)單的 Sliding Window Attention。更重要的是，它的 KV Cache 是固定的，能非常好地適配當(dāng)代主流的 Infra（基礎(chǔ)設(shè)施）推理框架。

圖：全局注意力（GA）和滑動(dòng)窗口注意力（SWA）的1:5混合結(jié)構(gòu)

第二個(gè)是挖掘 MTP（Multi-Token Prediction，多令牌預(yù)測(cè)）的潛力。MTP 一開始被提出是用于做推理加速的，后來 DeepSeek 將其用于提升基座模型能力。我們?cè)谟?xùn)練時(shí)加入了一層 MTP 層以提升基座潛能，并且在微調(diào)時(shí)加入了更多層的 MTP，用少量算力就提升了 MTP 層的接受率。

最終推理時(shí)，我們使用了三層 MTP 進(jìn)行加速并行 Token 驗(yàn)證。在實(shí)際場(chǎng)景中，這種方式能做到 2.2 到 2.6 倍的推理加速。

在社區(qū)關(guān)于三層 MTP 的情況下，我們來看模型輸出吞吐：在單機(jī)吞吐能做到 5,000~15,000 Tokens/秒的基礎(chǔ)上，單請(qǐng)求吞吐也能做到 150~155 Tokens/秒。使用 MTP 相比不使用，整體速度提升了 2 到 3 倍。

訓(xùn)練范式革新：

MOPD 與自進(jìn)化

除了關(guān)注預(yù)訓(xùn)練結(jié)構(gòu)的高效性，我們還在思考如何擴(kuò)展強(qiáng)化學(xué)習(xí)訓(xùn)練的 Compute。強(qiáng)化學(xué)習(xí)訓(xùn)練通常非常不穩(wěn)定，因此我們提出了MOPD（Multi-Teacher On-Policy Distillation，多教師在線策略蒸餾）范式。

它的核心在于 On-Policy，依賴稠密的 Token Level Reward（令牌級(jí)獎(jiǎng)勵(lì)）進(jìn)行監(jiān)督學(xué)習(xí)。通常 Post-train 范式會(huì)通過 SFT 和 RL 拿到各領(lǐng)域?qū)＜夷Ｐ汀OPD 則會(huì)讓 Student（學(xué)生）模型基于自身概率分布 Roll out（生成）一些序列，然后用專家模型對(duì)這些序列進(jìn)行打分，提供非常稠密的監(jiān)督信號(hào)。

我們發(fā)現(xiàn)這種學(xué)習(xí)效率極高，通過簡(jiǎn)短的幾十步就能將各領(lǐng)域?qū)＜业哪芰焖僬麴s到 Student 模型上。

此外，我們還有一個(gè)意外發(fā)現(xiàn)：當(dāng) Student 很快超越 Teacher 時(shí)，我們正在嘗試將 Teacher 替換成更強(qiáng)的 Student，繼續(xù)自我迭代提升，這是一個(gè)正在進(jìn)行中的工作。

邁向物理世界：

從語言模擬到真實(shí)交互

MiMo-V2 已經(jīng)初步具備在語言空間模擬世界的能力。比如，我們可以通過 HTML 讓它寫一個(gè)操作系統(tǒng)，很多功能都是可實(shí)現(xiàn)的；或者寫一個(gè) HTML 模擬太陽系；甚至做一個(gè)畫圣誕樹并產(chǎn)生交互的小 Demo。

MiMo-V2-Flash 已經(jīng)在昨天發(fā)布，我們開源了所有模型權(quán)重，同步了技術(shù)報(bào)告細(xì)節(jié)，并提供了 API 供開發(fā)者接入 Web Coding IDE。我們的體驗(yàn) Web 也已上線，大家可以掃描試用。

雖然現(xiàn)在的大模型能聊天、能寫代碼，但我相信大家還是不放心把身邊復(fù)雜的任務(wù)交給它。我認(rèn)為真正的下一代智能體系統(tǒng)，不應(yīng)該只是一個(gè)語言模擬器，而是需要跟世界共存。

下一代智能體必須具備兩個(gè)潛能：第一，從“回答問題”變成“完成任務(wù)”。這不僅需要記憶、推理、規(guī)劃能力，更需要一個(gè) Omni（全模態(tài)）的感知能力。做一個(gè)統(tǒng)一的動(dòng)態(tài)系統(tǒng)非常必要，這是理解世界的基礎(chǔ)。有了這個(gè)基礎(chǔ)，模型才能無縫嵌入到像眼鏡這樣的智能終端，融入我們的生活流。

第二，構(gòu)建物理模型。回到開頭的話題，現(xiàn)有大模型本質(zhì)上是用算力的“暴力美學(xué)”攻克了頂層的語言和第二層的強(qiáng)化學(xué)習(xí)，但跳過了中間對(duì)世界的感知和模擬，以及底層的實(shí)體交互。這就是為什么大模型能做奧數(shù)、模仿莎士比亞，卻不懂重力等物理法則，經(jīng)常產(chǎn)生具身幻覺。

因此，AI 進(jìn)化的下一個(gè)起點(diǎn)，一定要有一個(gè)可以跟真實(shí)環(huán)境交互的物理模型。我們要打造的本質(zhì)上不是一個(gè)程序，而是一個(gè)具備物理一致性、時(shí)空連貫性的虛擬宇宙。

這意味著 AI 能力的本質(zhì)跨越——不僅僅是看懂畫面，而是理解背后的物理規(guī)律；不僅僅是處理文本，而是推演世界的運(yùn)作邏輯。真正的智能絕對(duì)不是在文本里讀出來的，而是在交互里“活”出來的。

>End

本文轉(zhuǎn)載自“騰訊科技”，原標(biāo)題《“雷軍的AI秘密武器”羅福莉首秀：詳解小米AGI之路》。

為分享前沿資訊及有價(jià)值的觀點(diǎn)，太空與網(wǎng)絡(luò)微信公眾號(hào)轉(zhuǎn)載此文，并經(jīng)過編輯。

未按照規(guī)范轉(zhuǎn)載及引用者，我們保留追究相應(yīng)責(zé)任的權(quán)利

部分圖片難以找到原始出處，故文中未加以標(biāo)注，如若侵犯了您的權(quán)益，請(qǐng)第一時(shí)間聯(lián)系我們。

HISTORY/往期推薦

充滿激情的新時(shí)代，

充滿挑戰(zhàn)的新疆域，

與踔厲奮發(fā)的引領(lǐng)者，

卓爾不群的企業(yè)家，

一起開拓，

一起體驗(yàn)，

一起感悟，

共同打造更真品質(zhì)，

共同實(shí)現(xiàn)更高價(jià)值，

共同見證商業(yè)航天更大的跨越！

——《太空與網(wǎng)絡(luò)》，觀察，記錄，傳播，引領(lǐng)。

·《衛(wèi)星與網(wǎng)絡(luò)》創(chuàng)始人：劉雨菲

·《衛(wèi)星與網(wǎng)絡(luò)》副社長(zhǎng)：王俊峰

·微信公眾號(hào)（ID：satnetdy）團(tuán)隊(duì)

編輯：艷玲、哈玫，周泳、邱莉、黃榕、娜娜

主筆記者：李剛、魏興、張雪松、霍劍、樂瑜、稻子、趙棟

策劃部：楊艷、若?、李真子

視覺總監(jiān)：董濘

專業(yè)攝影：馮小京、宋偉

設(shè)計(jì)部：顧錳、潘希峎、楊小明

行政部：姜河、林紫

業(yè)務(wù)部：王錦熙、瑾怡

原創(chuàng)文章轉(zhuǎn)載授權(quán)、轉(zhuǎn)載文章侵權(quán)、投稿等事宜，請(qǐng)加微信：15910858067

商務(wù)合作；展覽展廳設(shè)計(jì)、企業(yè)VI/CI及室內(nèi)設(shè)計(jì)、企業(yè)文化建設(shè)及品牌推廣；企業(yè)口碑傳播及整體營(yíng)銷傳播等，請(qǐng)加微信：13811260603

雜志訂閱，請(qǐng)加微信：wangxiaoyu9960

·衛(wèi)星與網(wǎng)絡(luò)各分部：

成都分部負(fù)責(zé)人：沈淮

長(zhǎng)沙分部負(fù)責(zé)人：賓鴻浦

西安分部負(fù)責(zé)人：郭朝暉

青島分部負(fù)責(zé)人：江偉

·衛(wèi)星與網(wǎng)絡(luò)總部負(fù)責(zé)人：農(nóng)燕

·會(huì)議活動(dòng)部負(fù)責(zé)人：喬顥益、許克新、董今福

· 投融資及戰(zhàn)略層面合作：劉雨菲

·本平臺(tái)簽約設(shè)計(jì)公司：一畫開天（北京）文化創(chuàng)意設(shè)計(jì)有限公司

· 航天加（深圳）股權(quán)投資基金管理負(fù)責(zé)人：楊艷

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.