<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      “雷軍的AI秘密武器”羅福莉首秀:詳解小米AGI之路

      0
      分享至



      作者|郭曉靜

      12月17日,2025小米“人車家全生態合作伙伴大會”舉辦。在這次大會上,小米MiMo團隊負責人羅福莉完成了首秀演講。作為前DeepSeek核心成員,羅福莉自從加入小米,就被視為小米AI研發走向“正規軍化”和“極客化”的里程碑。

      市場曾期待她能帶來像DeepSeek那樣顛覆性的“小而美”模型,而羅福莉身上AI時代的極客特質,也許能與小米初創時期的極客基因完美相融,產生新的化學反應。

      羅福莉的首秀略顯緊張,但不負眾望,她帶來了一個高效的模型MiMo-V2-Flash,也拋出了新的AGI夢想。

      在她看來,現在的模型大多只是“完美的語言外殼,沒有錨定現實世界的物理模型”;“真正的智能是從交互中活出來的”,通往AGI的必經之路,不是打造一個程序,而是“推演整個世界的運作邏輯,打造一個虛擬宇宙”。

      這次首秀,羅福莉確實帶來了鮮明的“DeepSeek 基因”,比如MoE架構、MTP技術和對極致效率的追求。

      此次開源的MiMo-V2-Flash模型,它具備三個核心特點:

      高效推理

      雖然總參高達309B,但通過MoE架構僅激活15B,結合被低估的MTP(多令牌預測)技術,生成速度達到150 tokens/秒。這帶來約2.5倍加速,主要為了解決車機、助手等端側交互對延遲的敏感。

      創新的長文本架構

      設計上追求“簡單優雅”,采用Hybrid SWA機制,鎖定128 tokens的“神奇窗口”。這不僅支持256K長上下文,固定了KV緩存以降低硬件壓力,還在代碼生成上刷新了SOTA。

      極高的性價比

      落地層面非常務實,后訓練階段采用MOPD技術,用極低的計算量(不到標準流程1/50)復刻教師模型性能,意在降低大規模部署的成本。


      這場首秀被安排在“人車家全生態”大會上,意義耐人尋味。羅福莉在小米的職責很明確:主導大模型研發,通過高效推理與智能體技術,推動AI從“語言交互”跨越到“物理世界”,賦能全生態。

      但客觀來看,端側AI智能、賦能全生態的理想還在路上,現在的硬件依然難以支撐這樣一個已經“極致效率”的模型。

      以當前最高端的旗艦手機為例,端側模型的舒適區依然停留在3B到7B參數之間。MiMo-V2-Flash的15B激活參數,對移動設備而言依然是“房間里的大象”。

      所謂的“高效推理”,更多是指在云端數據中心實現了高吞吐量,對于用戶手中的終端,這依然是一個重度依賴網絡的“云端模型”。

      雖然有驚喜,但是此次小米并沒有打破端側AI的算力天花板,對于期待“AI手機”變革的用戶而言,還需要繼續等待。

      但今天的羅福莉,確實在給小米,講了一個可圍繞“人車家生態的”、新的AGI故事。


      以下為演講實錄(為優化閱讀體驗,做了二次編輯、刪減):

      01

      從生物演變看 AI 發展路徑

      今天我想帶大家換一個視角,從 10 億年生物進化的長河中,重新去審視我們正在經歷的這一場 AI 變革。

      如果我們回到生命進化的歷程,會發現自然界在構建智能這座金字塔時,遵循著非常嚴密的邏輯:在 6 億年前,生命首先學會了控制身體與環境互動;緊接著進化出了多巴胺系統,通過強化學習進一步提升生存能力;在 2 億年前,哺乳動物的大腦首次具備了在行動前先在大腦里模擬未來的能力;最終我們發現,人類才登上了智能的塔尖,掌握了語言這一抽象的符號系統。

      所以我們能看到,生物演化的規律是先具備對物理世界的感知和生存體驗,最后才誕生了語言。但大家都能發現,到現在為止,大模型的發展路徑其實跟生物進化路徑是不同步的,甚至說是一種倒敘,或者說是一種跳躍。


      生物是先從行動進化到思考,再進化到語言;但是大模型是先學會了語言,再去補齊它的思考能力,最后再去補齊對物理世界的模擬以及具身感知。

      為什么大模型智能的產生首先是在語言領域?因為語言不僅僅是一種符號的排列組合,更是人類思維以及對于世界的一種描述。在文本領域的投射,本質上是一種有損壓縮。當大模型通過 Next Token Prediction(下一詞預測)這種范式在海量文本里進行學習,試圖把 Loss(損失函數)降到最低的時候,我們發現它不僅僅是在擬合一個統計規律,而是在壓縮人類數十億年間關于這個世界的認知同構。

      這種壓縮的過程,在我們看來就是一種智能。所以,大模型通過語言的爆發,通過 Scaling(擴展)算力和數據,從而理解了人類的思維和對世界的理解。但其實它并不真正像人類一樣具備對整個物理世界的感知。嚴謹來說,它應該是成功地解碼了人類思維在文本空間的一個投影。大家都能看到,這其實是一種自頂向下的捷徑,因為它是在學習一種智能的結果,來倒推智能產生的過程。

      02

      MiMo-V2-Flash 的誕生,

      解決三大核心問題

      不管怎么說,語言包含了人類對世界極致的壓縮,是智慧的結晶,也是高階智能體之間高效協作的工具。因此,小米從語言出發,構建了全新一代面向 Agent(智能體)的基座模型——MiMo-V2-Flash。

      MiMo-V2-Flash 在研發之初,主要圍繞著三個非常關鍵的問題展開:

      第一,我們認為當代的智能體必須要有一個高效的溝通語言,即代碼能力和工具調用能力。

      第二,目前智能體之間的溝通帶寬非常低,如何加速帶寬?這需要一個推理效率極高的模型結構。

      第三,Scaling 的范式已經逐步從預訓練(Pre-train)轉向后訓練(Post-train),我們如何激發后訓練的潛能?這就需要一個穩定的范式,以便在強化學習(RL)上投入更多的 Compute(算力)。

      在這三個問題的驅動下,我們看到了 MiMo-V2-Flash 超強的基座潛能。雖然它的總參數在我看來非常小——總參數 309B,激活參數只有 15B,我甚至都不愿意稱它為“大”模型——但它的代碼能力和 Agent 能力在世界級公開公正的評估榜單上,已經進入了全球開源模型 Top 1-2 的行列。

      基本上,大部分評估基準已經超過或者與 DeepSeek-V3、Kimi、Qwen 等模型相當,而這些模型的總參數量通常是 MiMo-V2-Flash 的兩倍到三倍。


      03

      性能與成本的平衡,

      挑戰推理不可能三角

      這個圖展示了全球相同水位大模型在價格和速度上的比較:橫軸是推理價格(從大到小),縱軸是推理速度(從小到大)。我們能看到 MiMo 在右上角,代表了低成本、高速度。

      舉兩個模型進行對比: 比如 DeepSeek-V3.2,MiMo-V2-Flash 比它更便宜一點,但推理速度大概是 V3.2 的三倍左右。

      再比如 Gemini 2.5 Pro,雖然綜合性能相當,且推理速度差不多,但 Gemini 2.5 Pro 的推理成本比 MiMo-V2-Flash 貴了整整 20 倍。

      04

      架構創新與 MTP 加速

      那么我們是怎么做到這一切的呢?核心關鍵在于圍繞“極致推理效率”重新設計模型結構,主要依靠兩個創新。

      第一個是Hybrid Attention(混合注意力)結構。我們采用了 Hybrid Sliding Window Attention(混合滑動窗口注意力)和 Full Attention(全局注意力),比例大概是 5:1。

      為什么選 Sliding Window Attention?因為它看起來非常簡單,只關注鄰域的 128 個 Token。經過大量實驗驗證,我們發現一些看似復雜的 Linear Attention(線性注意力)結構,在兼顧長短文推理和知識檢索的綜合性能上,其實并不如簡單的 Sliding Window Attention。更重要的是,它的 KV Cache 是固定的,能非常好地適配當代主流的 Infra(基礎設施)推理框架。


      圖:全局注意力(GA)和滑動窗口注意力(SWA)的1:5混合結構

      第二個是挖掘 MTP(Multi-Token Prediction,多令牌預測)的潛力。MTP 一開始被提出是用于做推理加速的,后來 DeepSeek 將其用于提升基座模型能力。我們在訓練時加入了一層 MTP 層以提升基座潛能,并且在微調時加入了更多層的 MTP,用少量算力就提升了 MTP 層的接受率。

      最終推理時,我們使用了三層 MTP 進行加速并行 Token 驗證。在實際場景中,這種方式能做到 2.2 到 2.6 倍的推理加速。

      在社區關于三層 MTP 的情況下,我們來看模型輸出吞吐:在單機吞吐能做到 5,000~15,000 Tokens/秒的基礎上,單請求吞吐也能做到 150~155 Tokens/秒。使用 MTP 相比不使用,整體速度提升了 2 到 3 倍。

      05

      訓練范式革新:

      MOPD 與自進化

      除了關注預訓練結構的高效性,我們還在思考如何擴展強化學習訓練的 Compute。強化學習訓練通常非常不穩定,因此我們提出了MOPD(Multi-Teacher On-Policy Distillation,多教師在線策略蒸餾)范式。


      它的核心在于 On-Policy,依賴稠密的 Token Level Reward(令牌級獎勵)進行監督學習。通常 Post-train 范式會通過 SFT 和 RL 拿到各領域專家模型。MOPD 則會讓 Student(學生)模型基于自身概率分布 Roll out(生成)一些序列,然后用專家模型對這些序列進行打分,提供非常稠密的監督信號。

      我們發現這種學習效率極高,通過簡短的幾十步就能將各領域專家的能力快速蒸餾到 Student 模型上。

      此外,我們還有一個意外發現:當 Student 很快超越 Teacher 時,我們正在嘗試將 Teacher 替換成更強的 Student,繼續自我迭代提升,這是一個正在進行中的工作。

      06

      邁向物理世界:

      從語言模擬到真實交互

      MiMo-V2 已經初步具備在語言空間模擬世界的能力。比如,我們可以通過 HTML 讓它寫一個操作系統,很多功能都是可實現的;或者寫一個 HTML 模擬太陽系;甚至做一個畫圣誕樹并產生交互的小 Demo。


      MiMo-V2-Flash 已經在昨天發布,我們開源了所有模型權重,同步了技術報告細節,并提供了 API 供開發者接入 Web Coding IDE。我們的體驗 Web 也已上線,大家可以掃描試用。

      雖然現在的大模型能聊天、能寫代碼,但我相信大家還是不放心把身邊復雜的任務交給它。我認為真正的下一代智能體系統,不應該只是一個語言模擬器,而是需要跟世界共存。

      下一代智能體必須具備兩個潛能: 第一,從“回答問題”變成“完成任務”。 這不僅需要記憶、推理、規劃能力,更需要一個 Omni(全模態)的感知能力。做一個統一的動態系統非常必要,這是理解世界的基礎。有了這個基礎,模型才能無縫嵌入到像眼鏡這樣的智能終端,融入我們的生活流。


      第二,構建物理模型。 回到開頭的話題,現有大模型本質上是用算力的“暴力美學”攻克了頂層的語言和第二層的強化學習,但跳過了中間對世界的感知和模擬,以及底層的實體交互。這就是為什么大模型能做奧數、模仿莎士比亞,卻不懂重力等物理法則,經常產生具身幻覺。

      因此,AI 進化的下一個起點,一定要有一個可以跟真實環境交互的物理模型。我們要打造的本質上不是一個程序,而是一個具備物理一致性、時空連貫性的虛擬宇宙。

      這意味著 AI 能力的本質跨越——不僅僅是看懂畫面,而是理解背后的物理規律;不僅僅是處理文本,而是推演世界的運作邏輯。真正的智能絕對不是在文本里讀出來的,而是在交互里“活”出來的。

      >End

      本文轉載自“騰訊科技”,原標題《“雷軍的AI秘密武器”羅福莉首秀:詳解小米AGI之路》。

      為分享前沿資訊及有價值的觀點,太空與網絡微信公眾號轉載此文,并經過編輯。

      未按照規范轉載及引用者,我們保留追究相應責任的權利

      部分圖片難以找到原始出處,故文中未加以標注,如若侵犯了您的權益,請第一時間聯系我們。

      HISTORY/往期推薦

      充滿激情的新時代,

      充滿挑戰的新疆域,

      與踔厲奮發的引領者,

      卓爾不群的企業家,

      一起開拓,

      一起體驗,

      一起感悟,

      共同打造更真品質,

      共同實現更高價值,

      共同見證商業航天更大的跨越!

      ——《太空與網絡》,觀察,記錄,傳播,引領。

      ·《衛星與網絡》創始人:劉雨菲

      ·《衛星與網絡》副社長:王俊峰

      ·微信公眾號(ID:satnetdy)團隊

      編輯:艷玲、哈玫,周泳、邱莉、黃榕、娜娜

      主筆記者:李剛、魏興、張雪松、霍劍、樂瑜、稻子、趙棟

      策劃部:楊艷、若?、李真子

      視覺總監:董濘

      專業攝影:馮小京、宋偉

      設計部:顧錳、潘希峎、楊小明

      行政部:姜河、林紫

      業務部:王錦熙、瑾怡

      原創文章轉載授權、轉載文章侵權、投稿等事宜,請加微信:15910858067

      商務合作;展覽展廳設計、企業VI/CI及室內設計、企業文化建設及品牌推廣;企業口碑傳播及整體營銷傳播等,請加微信:13811260603

      雜志訂閱,請加微信:wangxiaoyu9960

      ·衛星與網絡各分部:

      成都分部負責人:沈淮

      長沙分部負責人:賓鴻浦

      西安分部負責人:郭朝暉

      青島分部負責人:江偉

      ·衛星與網絡總部負責人:農燕

      ·會議活動部負責人喬顥益、許克新、董今福

      · 投融資及戰略層面合作:劉雨菲

      ·本平臺簽約設計公司:一畫開天(北京)文化創意設計有限公司

      · 航天加(深圳)股權投資基金管理負責人:楊艷

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      中方敦促烏克蘭:立即糾正錯誤!

      中方敦促烏克蘭:立即糾正錯誤!

      環球時報國際
      2025-12-23 16:28:19
      演還是享受?5位頂級欲女老師,誰在假戲真做?

      演還是享受?5位頂級欲女老師,誰在假戲真做?

      素然追光
      2025-12-24 07:45:06
      軍艦開到家門口,炮口快懟臉上,第一反應竟是:有多少錢賠人家!

      軍艦開到家門口,炮口快懟臉上,第一反應竟是:有多少錢賠人家!

      百態人間
      2025-12-17 16:30:23
      祁發寶上將亮相,六排勛章胸前掛,淡然一笑盡顯英雄本色

      祁發寶上將亮相,六排勛章胸前掛,淡然一笑盡顯英雄本色

      老特有話說
      2025-12-23 21:35:49
      講個笑話:世界上人口最多的民族,居然連自己的民族服飾都不認識

      講個笑話:世界上人口最多的民族,居然連自己的民族服飾都不認識

      魔都姐姐雜談
      2025-12-18 12:48:41
      13年前,那個為200萬踢假球而鋃鐺入獄的前國腳祁宏,現過得如何

      13年前,那個為200萬踢假球而鋃鐺入獄的前國腳祁宏,現過得如何

      劉森森
      2025-12-23 11:43:09
      意外收獲!南博事件拔出蘿卜帶出泥!

      意外收獲!南博事件拔出蘿卜帶出泥!

      大道微言
      2025-12-23 19:29:03
      六旬老漢六年間染指26名女性,上到50下到30,只因“身懷絕技”

      六旬老漢六年間染指26名女性,上到50下到30,只因“身懷絕技”

      歷史八卦社
      2025-03-12 23:22:45
      登上專機前,特朗普2次挑釁,中方取消13萬噸訂單,減持118億美債

      登上專機前,特朗普2次挑釁,中方取消13萬噸訂單,減持118億美債

      非凡觀點
      2025-12-23 10:07:22
      泰國軍隊攻入柬埔寨園區畫面疑曝光!電詐分子跪地,墻上中文扎眼

      泰國軍隊攻入柬埔寨園區畫面疑曝光!電詐分子跪地,墻上中文扎眼

      環球熱點快評
      2025-12-23 16:48:49
      喪心病狂!妻兒三人被殺案最新:丈夫曝駭人細節,想問發小一句話

      喪心病狂!妻兒三人被殺案最新:丈夫曝駭人細節,想問發小一句話

      阿纂看事
      2025-12-23 14:49:23
      39歲美國甜心毀容照曝光,揭開了好萊塢最惡心的一面

      39歲美國甜心毀容照曝光,揭開了好萊塢最惡心的一面

      陳天宇
      2025-12-23 11:52:51
      官方通報“公務員遴選成績第一落選”:與崗位要求有較大差距,且檔案中有關事項存疑

      官方通報“公務員遴選成績第一落選”:與崗位要求有較大差距,且檔案中有關事項存疑

      界面新聞
      2025-12-23 12:06:28
      美政府收到傳票,愁得不行!中國向美國索賠3500億,回擊新冠污蔑

      美政府收到傳票,愁得不行!中國向美國索賠3500億,回擊新冠污蔑

      博覽歷史
      2025-12-22 17:53:13
      楊瀚森時隔5場再登場?開拓者傷情報告:格蘭特和羅威均缺陣

      楊瀚森時隔5場再登場?開拓者傷情報告:格蘭特和羅威均缺陣

      懂球帝
      2025-12-24 07:53:07
      廣東某建筑公司原地解散,全員被裁!

      廣東某建筑公司原地解散,全員被裁!

      黯泉
      2025-12-23 23:03:26
      “搶劫殺害發小一家三口”案兇手獲死刑 兇手父親:把他埋到地下便不能作惡

      “搶劫殺害發小一家三口”案兇手獲死刑 兇手父親:把他埋到地下便不能作惡

      上游新聞
      2025-12-23 21:58:08
      央視曝光!真的不要買!頭皮發麻!這些“爆火產品”竟來自垃圾站

      央視曝光!真的不要買!頭皮發麻!這些“爆火產品”竟來自垃圾站

      凡知
      2025-12-23 19:57:28
      解剖478名胃癌死者,醫生發現:患胃癌的人,都有一個共同的飲食習慣

      解剖478名胃癌死者,醫生發現:患胃癌的人,都有一個共同的飲食習慣

      犀利辣椒
      2025-12-24 06:41:05
      南京博物館疑似“監守自盜”再添猛料:龐家再揭徐“假冒”始末!

      南京博物館疑似“監守自盜”再添猛料:龐家再揭徐“假冒”始末!

      奇思妙想草葉君
      2025-12-23 21:02:59
      2025-12-24 10:28:49
      太空與網絡 incentive-icons
      太空與網絡
      衛星應用領域全媒體平臺
      6262文章數 8171關注度
      往期回顧 全部

      科技要聞

      48小時,兩家公司,一場"AI第一股"的玩命沖刺

      頭條要聞

      牛彈琴:特朗普說了經典一段話 還提到了中國

      頭條要聞

      牛彈琴:特朗普說了經典一段話 還提到了中國

      體育要聞

      楊瀚森連續5場DNP!開拓者遭活塞雙殺

      娛樂要聞

      朱孝天回應阿信感謝,自曝沒再收到邀約

      財經要聞

      快手到底惹了誰?

      汽車要聞

      四款新車集中發布 星途正式走進3.0時代

      態度原創

      親子
      藝術
      家居
      游戲
      公開課

      親子要聞

      孩子咳嗽,要不要用化痰藥或鎮咳藥?

      藝術要聞

      砸了20億的恒大“五國溫泉”小鎮,如今泡池冷清,別墅荒了?

      家居要聞

      通透明亮 大氣輕奢風

      CF世界觀解析18:《寂靜村》的背景故事

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 婷婷综合网| 丰满熟妇人妻中文字幕| 九九精品在线看| 人妻无码一区二区三区| 亚洲色网导航| 无码人妻丰满熟妇精品区| 国产女人在线视频| 性色欲情网站iwww| 中文字幕在线影视| 精品国产乱码久久久久久郑州公司 | 欧美午夜福利| 久久这里都是精品一区| 精品久久久久久无码国产| 国产性夜夜春夜夜爽1a片| 国产口爆吞精在线视频2020版 | 久久久中日ab精品综合| 久久久午夜精品福利内容| 果冻传媒mv免费播放在线观看| 亚洲国产精| 人妻无码久久精品| 彰武县| 性爱综合网| 久久精品99久久久久久久久| 亚洲一区精品视频在线| 国产美女久久久亚洲综合| 久久久不卡国产精品一区二区| 亚洲国产欧美日本视频| 亚洲午夜成aⅴ人片| 亚洲色网导航| 亚洲精品无码成人aaa片| 亚洲人成网站在线播放942| 极品人妻系列| 龙川县| 福泉市| 少妇被粗大猛烈进出免费视频| 999毛片| A片网| 亚洲已满18点击进入在线看片| 中文字幕无码乱码人妻系列蜜桃| 国产jizz| 日韩美女久久|