![]()
![]()
出品|搜狐科技
作者|張雅婷
編輯|楊 錦
12月17日,“AI天才少女”羅福莉在離開DeepSeek、加入小米后,首次公開亮相。
在今日舉行的小米“人車家全生態”合作伙伴大會上,羅福莉作為小米MiMo大模型負責人,為外界介紹了小米最新開源上線的AI大模型Xiaomi MiMo-V2-Flash,以及她對于AI技術發展的看法。
她認為,AI正在以非線性的方式,重演人類大腦6億年的進化史。“生物是從行動進化到思考,再進化到語言。但是大模型是先學會了語言,再補齊思考能力,最終補齊對物理世界以及自身的感知。”
羅福莉表示,MiMo-V2-Flash模型雖然總參數只有309B,但已經達到全球開源模型的TOP2。比如,MiMo-V2比DeepSeek-V3.2更便宜,但推理速度約為后者的三倍。
據了解,早在今年4月,小米便推出了首個推理大模型Xiaomi MiMo,由大模型Core團隊研發。在今天的演講中,羅福莉介紹小米大模型Core團隊是研究、產品與工程深度耦合的年輕團隊,小而美卻充滿創新精神。
她還回憶稱,2020年剛進入大模型領域的時候,國內開源模型距離世界頂尖的閉源模型的差距至少有3年,而現在只剩4個月。“開源本質上是一種分布式的技術加速主義,是實現AGI的普惠化,確保所有人類智慧共同進化的唯一路徑。”
![]()
曾在DeepSeek、阿里達摩院任職
或被雷軍以千萬年薪挖角
公開資料顯示,羅福莉本科就讀于北京師范大學計算機專業,碩士畢業于北京大學計算語言學專業。求學期間,她曾在人工智能領域頂級國際會議ACL上發表了8篇論文,其中2篇為第一作者。
碩士畢業后,羅福莉進入阿里達摩院做人工智能研究,從事預訓練語言模型相關的工作,負責阿里達摩院AliceMind開源項目,主導開發了多語言預訓練模型VECO。
2022年,羅福莉加入幻方量化從事深度學習相關策略建模和算法研究,后又到DeepSeek擔任深度學習研究員,參與研發MoE大模型DeepSeek-V2。
2024年底,有報道稱,羅福莉被小米創始人雷軍以千萬年薪招募,擔任小米AI實驗室的大模型團隊負責人,她也被外界稱為95后AI“天才少女”。
今年2月18日,對于外界的炒作,羅福莉在朋友圈發文稱:“請互聯網還我一片安安靜靜做事的氛圍吧!幾年前就說過我并非天才少女,神化一個人的結果就是捧得多高摔得多重! ”
她還表示,一些“low到爆”的AI風自媒體文章充滿了事實性錯誤。“為了流量,為了消費的自媒體們,請收手吧!不要再無差別打擾我家人、朋友、同學乃至初高中班主任了,只想安安靜靜做難而正確的事情,僅此而已!”
10月14日,小米和北京大學聯合署名的論文發表于arXiv,羅福莉也出現在了這篇論文的通訊作者之列。
在上個月,羅福莉正式官宣入職小米。她在朋友圈發文:“智能終將從語言邁向物理世界。我正在Xiaomi MiMo,和一群富有創造力、才華橫溢且真誠熱愛的研究員,致力于構建這樣的未來,全力奔赴我們心目中的AGI。”
![]()
小米MiMo躋身全球Top水平?
此前在2025年4月30日,小米公司開源首個推理大模型Xiaomi MiMo,由大模型Core團隊研發,通過預訓練與后訓練聯動機制提升推理能力。
昨日晚間,小米發布全新的Xiaomi MiMo-V2-Flash的開源模型,總參數量309B,活躍參數量15B,專為智能體AI設計。
在本次大會上,羅福莉專門介紹了Xiaomi MiMo-V2-Flash的技術細節。
在研發之初,小米團隊主要圍繞了三個非常關鍵的問題進行探討:
第一,當代的智能體必須要有高效的溝通語言,也就是代碼能力和工具調用能力。
第二,目前智能體之間的溝通帶寬非常低,需要有一個推理效率非常高效的模型,所以需要去重新設計模型結構。
第三,scaling的范式已經逐步從預訓練走向后訓練,需要想辦法激發后訓練的潛能。
在這三個問題的驅動下,Xiaomi MiMo-V2-Flash做到了參數量很小,但代碼能力和Agent能力,已經達到全球開源模型的TOP2,基本上已經比過了DeepSeek-V3.2,Kimi K2-Thinking等,但這兩個模型的母參數量分別是小米的2倍到3倍。
![]()
(全球頂尖模型測評基準效果對比,圖片來自小米)
MiMo-V2-Flash的 API 定價為: 輸入 0.7 元 / 百萬 tokens,輸出 2.1 元 / 百萬 tokens。在全球大致相同水位的頂尖模型速度和成本象限里,MiMo-V2-Flash實現了低成本、高速度。
![]()
(全球頂尖模型速度 vs 成本,圖片來自小米)
比如,MiMo-V2-Flash比DeepSeek-V3.2更便宜,但推理速度是后者的大概三倍左右。MiMo-V2-Flash比肩閉源模型 Claude 4.5 Sonnet,但推理價格僅為其2.5%且生成速度提升至2倍。
羅福莉解釋稱,MiMo-V2-Flash圍繞極致推理效率設計了模型結構,通過3層MTP推理加速并行Token驗證,實現了2.0到2.6倍的推理速度提升。
MiMo-V2-Flash的效率提升,是因為模型結構的創新:包括采用5:1的Sliding Window Attention (SWA) 與Global Attention(GA)混合結構,此外引入MTP (Multi-Token Prediction) 訓練提升基座能力的同時,在推理階段通過并行驗證MTP Token。
![]()
“真正的智能體要跟世界共存”
在本次大會演講中,羅福莉還闡述了目前大模型的缺陷,以及下一代智能體系統必須具備的能力。
她表示,如果回到生命進化的歷程,會發現自然界在構建智能的這個金字塔的時候,其實遵循著非常嚴密的邏輯。生物演化的規律是先具備了對物理世界的感知,最后才誕生的語言。
但是現在大模型的發展路徑其實是跟生物進化路徑不同步的,甚至說是一種倒敘、跳躍。大模型是先學會了語言,再補齊思考能力,最終補齊對物理世界的感知。
這是為什么?其實模型智能的產生首先是在語言領域,這不僅僅是一種符號的排列組合,更是人類的思維在文本領域的一個投射,這個投射本質上是一種有損的壓縮。
當大模型在海量文本上進行學習,當模型試圖把loss(損失)降到最低的時候,我們發現這其實是在壓縮人類數十億年間關于這個世界的一種認知,這種壓縮的過程在我們來看就是智能。
所以其實大模型是通過語言的爆發,通過去scaling計算算力、scaling數據,從而理解了人類的思維,但其實它并不真正像人類一樣具備對整個物理世界的感知。
羅福莉認為,下一代真正的智能體系統,不是一個語言模擬器,而是需要跟世界共存,必須要具備兩個潛能:一是從回答問題變成完成任務,包括記憶能力、推理能力、自主決策規劃等方向背后的研究深度都很深。
二是必須要有感知能力,這意味著統一的動態系統是非常有必要的,是為我們去理解整個世界很關鍵的基礎。在這些基礎上,我們可以很無縫地將模型去嵌入眼鏡上等智能終端,融入到我們的生活里。
大模型本質上是用了算力的暴力美學,直接去攻克了最底層的語言,但是跳過了中間非常多的部分,包括對世界的感知、模擬,以及必須要有實體跟環境產生交互。
這也是為什么大模型其實已經做到了數學和奧林匹克競賽差不多的水平,也能去模仿莎士比亞風格去寫作,但是并不太懂重力這些物理法則的含義,并且有時候經常會產生一些幻覺。
“下一步,我們本質上要打造的并不是一個程序,其實是一個具備物理一致性、時空連貫性的虛擬宇宙,這代表著AI能力的本質跨越。”羅福莉表示,小米的大模型Core團隊就是在這樣的長期愿景中誕生的。
![]()
![]()
運營編輯 |曹倩審核|孟莎莎
![]()
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.