<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      在大模型這件事上,雷軍居然給馬斯克打樣了

      0
      分享至



      在小米正式發布了MiMo-V2-Pro大模型以后,第一個出現在我腦子里的人不是雷軍,而是馬斯克。

      因為他的xAI現在實在太尷尬了。2023年成立,融資超過500億美元,聯創團隊更是涵蓋了OpenAI、Deep Mind、微軟以及谷歌大腦。

      最新的Grok 4.20 Beta,還搞了個四agent并行的多智能體架構,通過Grok、Harper、Benjamin、Lucas這四個 agent內部辯論,提高輸出答案。

      結果呢?Grok 4.20 Beta在Artificial Analysis Intelligence Index上只拿了48分,反觀雷軍這邊,小米的MiMo-V2-Pro則拿到了49分。

      小米大模型Core團隊第一次發布模型是在2025年4月30日,初代MiMo,參數量只有7B,屬于是“玩具級”。

      不過MiMo在數學推理和代碼生成上打贏了OpenAI o1-mini,算是小米在AI賽道上的第一聲響。

      隨后,小米用一個匿名代號“Hunter Alpha”悄悄上線OpenRouter,一周之內調用量自然增長到日榜第一、總量破1T tokens,全球開發者在不知道品牌的情況下用腳投票,然后小米公眾號深夜發微信說“對,這是小米做的。”

      論大模型,馬斯克確實該拜雷軍為師。

      01

      MiMo-V2-Pro 憑什么站上牌桌

      在業務上,雷軍比馬斯克還晚啟動了一年。

      2023年4月雷軍推動成立小米AI實驗室大模型團隊,欒劍擔任首任負責人。只不過這個AI跟我們現在說的大語言模型、agent,并非一回事。

      直到2024年底、2025年初,小米才成立了通用基礎大模型相關的Core團隊。

      這個團隊同樣也是雷軍親自主導、親自推動,并且對大模型業務投入不設上限。

      如果只看架構層面,MiMo-V2-Pro并沒有什么讓人眼前一亮的東西。1T參數、42B激活參數、100萬token上下文,這些放在今天都不稀奇。

      MiMo-V2-Pro采用的MoE(混合專家)、混合注意力機制、MTP(多token預測),這些也都是大模型領域的通用技術方案,DeepSeek在用,谷歌也在用。

      真正讓這個模型區別于同行的,是后訓練階段的三項技術。

      第一項是MOPD,全稱Multi-Teacher On-Policy Distillation,多教師在線策略蒸餾。這是小米在MiMo-V2-Flash技術報告中首次提出的后訓練范式。

      要理解MOPD的價值,得先理解它要解決的問題。

      大模型后訓練有一個通病,俗名叫“蹺蹺板效應”。就是說你把數學能力練強了,代碼能力就退化;你把agent能力拉上來,通用對話又變差。

      這不是說某個團隊的技術不夠,這是整個產業都在面臨的問題。

      目前大家比較認可的對應方法有兩種,第一種是訓練多個領域專家模型,然后通過參數合并把它們糅在一起。不過這種方法的效果不是很理想。

      另一種是讓專家模型生成大量離線數據,再讓學生模型去學,但這種方式存在嚴重的“分布偏移”問題。可是學生只學會了教師的答題方式,模型根本沒有建立自己的思考方式,一旦遇到教師沒覆蓋的場景就會失靈。

      MOPD的做法分三個階段。第一階段是通用 SFT,用高質量指令數據做基礎微調,激活模型的指令跟隨能力,這一步沒什么特別的。

      第二階段是分別訓練多個領域專家教師,比如說代碼agent教師、搜索agent教師、數學推理教師、安全對齊教師,每個教師在自己的領域做到極致,不用管其他領域。

      第三階段是關鍵創新,讓學生模型自己生成回答,然后同時接受多個教師的token級實時監督。學生從自身分布采樣,接收自領域教師的KL散度獎勵和可驗證的結果獎勵這兩類信號,前者告訴模型“這個字應該怎么寫”,后者告訴模型“最終答案對不對”。

      小米公布的數據顯示,經過MOPD訓練的學生模型在AIME 2025數學競賽上達到94.1分,不僅保住了最強數學教師的水平,在部分項目上甚至超越了教師本身。

      第二項是真實環境的agentic RL訓練。

      盡管說現在大模型都會強調自己的agent能力如何如何,但是絕大多數模型在強化學習過程中,都是非agent相關的。

      模型看一道題,輸出一個答案,對完答案給個獎勵,整個過程是單輪的、封閉的。

      現實世界的任務可不是這樣運作的。一個真正的agent需要讀代碼、改bug、跑測試、看報錯、再改、再跑,這是一個包含了多種情況的完整過程。

      小米為此構建了一套覆蓋四大類場景、總計超過12萬個真實交互環境的agent訓練體系。

      代碼agent的訓練數據從真實GitHub Issues中提取,模型需要在agent循環中讀文件、改代碼、跑命令、看測試結果,獎勵來自可驗證的單元測試。

      終端agent從Stack Overflow和Stack Exchange中篩選需要高級技術專長的問題,轉化為帶有完整Docker環境和測試用例的計算任務。

      網頁開發agent用Playwright執行生成代碼并錄制視頻,再用多模態視覺判別器評估質量——用視頻而非靜態截圖來評估,因為視頻能捕捉交互動畫和響應式布局等動態特性。

      通用agent覆蓋搜索和函數調用兩個方向。

      其結果就是,在多樣化agent 環境中增加強化學習計算量,收益會泛化到數學推理、通用推理等其他任務。也就是說,agent訓練培養的不是某個特定技能,而是一種通用的問題解決能力。

      別的大模型是在教室里做卷子,MiMo-V2-Pro 是直接被扔進許多個真實工作場景里實習,做錯了有真實的測試結果告訴你哪里錯了。

      實習鍛煉出來的模型,比做卷子練出來的,更懂得如何處理問題。

      第三項是ARL-Tangram,這是小米與北京大學計算機學院聯合研發的Agent RL訓練基礎設施系統,也是羅福莉作為通訊作者所參與的研究。

      MOPD和Agentic RL解決的是“怎么訓練”的問題,ARL-Tangram解決的是“用什么訓練”的問題。

      agent需要頻繁調用外部資源,代碼執行需要CPU,獎勵模型需要GPU,網頁搜索需要API配額。 傳統的RL框架,它的做法是靜態資源預留,給每條訓練軌跡分配一套固定資源,從頭占到尾。

      這就導致說即便沒有任務,這條通道也被占用,別人想走也走不了。

      ARL-Tangram的實測數據顯示,在AI編程任務中,外部資源平均只有47%的時間在被使用,剩下53%完全閑置。

      在MOPD訓練場景中更夸張,12個教師模型各自占著一組GPU提供獎勵服務,但這些GPU的平均流式多處理器活躍率不到3%,相當于97%的算力在空轉。

      ARL-Tangram繼承了小米性價比之王的基因,它的核心思路就是細化資源管理,讓每一份算力都跑得更有價值。

      每次外部調用被視為一個原子動作,動作結束后資源立即釋放,供其他軌跡使用。

      實測效果:動作完成時間提升最高4.3倍,RL訓練步驟時間加速最高1.5 倍,外部資源消耗降低71.2%。

      同樣的硬件投入,能支撐多得多的訓練量。

      雷軍在V2-Pro發布當天的微博里寫了一句話:“我們在 AI 領域上相對比較低調,實際進展可能比大家看到的要快很多。”



      確實,小米在AI上的進展,遠遠超過了我的認知。

      02

      MiMo-V2-Pro對小米意味著什么

      MiMo-V2-Pro出現之前,小米在軟件和AI領域的技術存在感很低。

      提到智能駕駛,人們想到的是特斯拉、華為、小鵬;提到大模型,是字節、阿里、騰訊。小米的標簽始終是“硬件性價比之王”,雷軍的手機、IoT 設備、汽車,都是硬件敘事。

      誠然,這個標簽幫小米賣出了很多產品,但也把它牢牢釘在了“組裝廠”的認知框架里。

      雷軍自己也清楚這一點。

      2023年年度演講上,他提出了一個新公式:“(軟件×硬件)^AI”,宣布小米未來五年研發投入超過1000億元,重點攻堅芯片、AI和操作系統。

      這個公式當時聽起來以為雷軍是說著玩玩的,結果人家這回來真的。

      MiMo-V2-Pro的誕生,第一次讓小米在純技術維度上獲得了一個全球級的排名。

      Artificial Analysis Intelligence Index全球前十,中國第二。

      事實上,我覺得只要能在全球大模型排行榜上占有一席之地,都相當于在資本市場、人才招募、合作談判中都多了一張手牌。

      至少當雷軍說“小米是一家AI公司”的時候,能拿出這樣一個成果來支撐觀點。

      但排名只是表面。更值得關注的是 MiMo-V2-Pro 與小米其他業務線之間的潛在協同。

      小米汽車的智能駕駛團隊在2026年3月剛剛完成組織架構調整,將“感知”和“規控”兩個部門合并為“端到端算法與功能部”,全面轉向端到端大模型技術路線,目標年內實現端到端智駕交付。

      與此同時,小米早在2025年11月就發布了MiMo-Embodied,同步覆蓋具身智能和自動駕駛的核心任務——環境感知、狀態預測、駕駛規劃。

      所以MiMo-V2-Pro的這些成績,說白了那都是給小米汽車打的廣告。

      MiMo-V2-Pro本身作為1T參數的云端模型,顯然無法直接部署到車端,沒有哪塊車載芯片跑得動這個體量。

      但小米的布局邏輯是“云-邊-端”協同:云端用V2-Pro級別的大模型做訓練、仿真和復雜決策,端側用壓縮后的輕量模型做實時推理。

      MiMo-V2-Pro的價值不在于直接上車,而在于作為“教師模型”,通過前面提到的MOPD,將V2-Pro的能力蒸餾到端側小模型中。

      馬斯克這邊,情況就微妙多了。

      Grok在2025年底的一次Holiday Update正式住進了特斯拉的車機里,然而它卻只能設導航目、聊聊天,相當于是一個語音助手,它跟FSD之間只有導航鏈路的淺層聯動。



      與此同時,特斯拉本身車內控制座艙的AI,是來自于特斯拉自己的,跟xAI關系不大。

      2026年3月,馬斯克宣布了一個叫“Digital Optimus”的聯合項目,說是要讓Grok充當“高層推理大腦”。

      他用了卡尼曼的雙系統理論來類比,Grok是慢思考的System 2,特斯拉AI是快反應的System 1,也就是實時感知和動作執行。

      然而僅憑馬斯克的想法,我認為它們之間的協同遠沒有小米“云端大模型蒸餾到車端小模型”這條路徑來得清晰。

      03

      我給MiMo-V2-Pro挑刺

      本文并不是小米的軟文,我只是一個AI產業的觀察者,所以我在這部分準備給小米挑挑刺,以示公正。

      先看Benchmark。

      MiMo-V2-Pro公布的SWE-bench Verified得分為78.0%,接近Claude 4.6 Sonnet的79.6%,這是一份關于AI編程的測試集,MiMo-V2-Pro的數字也確實好看。

      但這里有一個行業內已經公開的秘密,SWE-bench Verified這個測試集本身已經不再可靠。

      OpenAI的Frontier Evals團隊在2026年2月23日明確表示,SWE-bench Verified“實際上已經飽和且高度被污染”,并且建議行業轉向更難的SWE-bench Pro。

      OpenAI的研究人員發現,包括GPT-5.2、Claude Opus 4.5和Gemini 3 Flash Preview在內的多個前沿模型,僅憑 SWE-bench Verified的Task ID就能復述出原始的gold patch,這就相當于你考試的時候,不用看題目,只看題目的編號就能給出答案。

      這意味著測試題目很可能已經進入了訓練數據。在這樣一個被污染的測試集上拿高分,說服力大打折扣。



      MiMo-V2-Pro沒有公布SWE-bench Pro的成績。這個更難、更抗污染的版本才是2026年衡量編碼能力的真正標尺。

      作為參考,目前SWE-bench Pro上表現最好的模型是OpenAI GPT-5.4,得分僅為57.7%,與SWE-bench Verified上動輒70%以上的成績形成鮮明對比。

      不止SWE-bench Pro。

      MiMo-V2-Pro還缺席了另外幾個關鍵的新一代測試集:ARC-AGI-2,專門測試推理泛化能力,純LLM得分為1%,最佳推理系統僅54%,人類平均60%;Frontier Math,前沿數學推理;LiveCodeBench v6,按月更新的編程評測,幾乎不可能被訓練數據污染。

      一個模型選擇公布哪些benchmark、不公布哪些benchmark,本身就是一種信息篩選。

      還有一個容易被忽略的問題:MiMo-V2-Flash是MIT開源的,但MiMo-V2-Pro的權重并未開源。

      羅福莉在發布聲明中說“會開源——當模型足夠穩定值得開源的時候”,但在那之前,說明V2-Pro的性能還不夠穩定。

      雷軍說“我們模型剛剛完成,未來一段時間,還會快速迭代增強”。這句話既是承諾,也是對現狀的坦率承認。

      MiMo-V2-Pro確實還有不少短板需要補。

      它是小米從“硬件公司”到“AI公司”敘事轉型中最重要的一塊拼圖,但這塊拼圖能否真正嵌入小米的商業版圖,而不只是掛在墻上供人觀賞,還需要時間來回答。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      打破歐美日壟斷,張雪機車兩天奪兩冠,直播間涌入6000多人!公司估值超10億元,創始人草根出身,20年前湖南衛視紀錄片刷屏

      打破歐美日壟斷,張雪機車兩天奪兩冠,直播間涌入6000多人!公司估值超10億元,創始人草根出身,20年前湖南衛視紀錄片刷屏

      每日經濟新聞
      2026-03-30 18:16:10
      美軍在朝鮮戰爭期間原本接近擊敗中國,卻碰上了中國決死的師長

      美軍在朝鮮戰爭期間原本接近擊敗中國,卻碰上了中國決死的師長

      新一說史
      2026-03-30 16:40:46
      2026年4月1日全國執行!慢病開藥一次開3個月,告別月月跑醫院

      2026年4月1日全國執行!慢病開藥一次開3個月,告別月月跑醫院

      復轉這些年
      2026-03-29 23:53:24
      貴州茅臺時隔近兩年半再提價,飛天茅臺自營體系零售價調整為1539元/瓶

      貴州茅臺時隔近兩年半再提價,飛天茅臺自營體系零售價調整為1539元/瓶

      界面新聞
      2026-03-30 20:29:15
      油價一夜突變!今天3月30日調整后,全國加油站92、95汽油最新售價

      油價一夜突變!今天3月30日調整后,全國加油站92、95汽油最新售價

      沙雕小琳琳
      2026-03-30 10:41:49
      快訊!館長這是要起義了嗎?

      快訊!館長這是要起義了嗎?

      達文西看世界
      2026-03-30 13:55:35
      伊朗的地面戰,可能要開始了

      伊朗的地面戰,可能要開始了

      夷門王生
      2026-03-30 12:25:06
      殯葬新規3月30日起實施 新規明確不全面禁止土葬

      殯葬新規3月30日起實施 新規明確不全面禁止土葬

      閃電新聞
      2026-03-30 11:46:27
      趙繼偉14+6+11遼寧力克福建 付豪22分莫蘭德20+15

      趙繼偉14+6+11遼寧力克福建 付豪22分莫蘭德20+15

      醉臥浮生
      2026-03-30 21:36:27
      中國將在長江水下開高鐵

      中國將在長江水下開高鐵

      環球網資訊
      2026-03-30 09:38:29
      云南14歲男生殺害15歲女同學案未當庭宣判,律師:被告人稱出獄后贍養女生家屬遭拒;女孩父親:被告人態度冷漠,供述前后矛盾

      云南14歲男生殺害15歲女同學案未當庭宣判,律師:被告人稱出獄后贍養女生家屬遭拒;女孩父親:被告人態度冷漠,供述前后矛盾

      大象新聞
      2026-03-30 21:45:05
      周杰倫新專輯封面被嘲 “老登味” 網友:現在是他個人的審美

      周杰倫新專輯封面被嘲 “老登味” 網友:現在是他個人的審美

      小蘿卜絲
      2026-03-30 09:33:58
      王石被限制出境

      王石被限制出境

      料道new
      2026-03-30 16:29:44
      接陌生電話不要先出聲

      接陌生電話不要先出聲

      大象新聞
      2026-03-29 07:29:10
      女子借公司500萬,維權14年只收回1.2萬,法院先判破產致強制執行中止后又改判

      女子借公司500萬,維權14年只收回1.2萬,法院先判破產致強制執行中止后又改判

      極目新聞
      2026-03-30 21:53:49
      三大運營商利潤被抽走15%:國家要錢了,5G故事講完了

      三大運營商利潤被抽走15%:國家要錢了,5G故事講完了

      字節漫游指南
      2026-03-30 10:15:13
      哈佛大學研究顯示:每月性行為頻次≥21次,可以大幅降低患癌風險

      哈佛大學研究顯示:每月性行為頻次≥21次,可以大幅降低患癌風險

      黯泉
      2026-03-29 12:00:55
      伊朗:美軍撤離伊邊境鄰近地區,美多架預警機和加油機被擊落,多處倉庫被摧毀,未來更多高價值目標將被列入打擊名單

      伊朗:美軍撤離伊邊境鄰近地區,美多架預警機和加油機被擊落,多處倉庫被摧毀,未來更多高價值目標將被列入打擊名單

      魯中晨報
      2026-03-30 07:09:20
      “高市與小泉向中國道歉”,日民眾發出正義呼聲,右翼絕不會低頭

      “高市與小泉向中國道歉”,日民眾發出正義呼聲,右翼絕不會低頭

      冒泡泡的魚兒
      2026-03-29 23:58:40
      驚訝!伊朗大捷!用一場標志性大勝,讓美軍創下戰后最大戰損記錄

      驚訝!伊朗大捷!用一場標志性大勝,讓美軍創下戰后最大戰損記錄

      軍機Talk
      2026-03-30 11:02:14
      2026-03-30 22:40:49
      字母榜 incentive-icons
      字母榜
      讓未來不止于大。
      2329文章數 8055關注度
      往期回顧 全部

      科技要聞

      一句謊言引發的硅谷血案

      頭條要聞

      女子借公司500萬維權14年收回1.2萬:連利息零頭都不夠

      頭條要聞

      女子借公司500萬維權14年收回1.2萬:連利息零頭都不夠

      體育要聞

      想進世界杯,意大利還要過他這一關

      娛樂要聞

      全紅嬋聊到體重哭了,每天只吃一頓飯

      財經要聞

      本輪地緣沖突,A股憑什么走出獨立行情

      汽車要聞

      限時12.58萬起 銀河星耀8遠航家系列上市

      態度原創

      數碼
      家居
      本地
      房產
      公開課

      數碼要聞

      TrendForce下修2026年筆記本電腦出貨預測,衰退幅度達14.8%

      家居要聞

      東方法式美學 現代簡約

      本地新聞

      用Color Walk的方式解鎖城市春日

      房產要聞

      重磅!番禺20宗涉宅地亮相,萬博CBD宅地將上新!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版