<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      小米MiMo大模型:榜單排名亮眼,但真實含金量到底有多少?

      0
      分享至

      一直缺席大模型競爭的小米,在天才少女羅福莉的帶領下,終于正式發布了自研大模型 MiMo-V2 系列。

      小米近日一口氣拿出 Pro 基座、Omni 全模態、TTS 語音三款模型,主打 Agent 智能體、長上下文與全模態理解。

      在官方宣傳中,小米稱 MiMo-V2-Pro 參數規模與上下文長度都做到了當前第一梯隊水平,迅速登頂 OpenRounter 榜單,并拿下 Artificial Analysis 綜合智能排行榜第八。

      但一邊是被米粉調侃的“傳奇耐黑王”,一邊是因為營銷宣傳引起幾次大的爭議的事實,小米本次大模型宣傳也引發了爭論。

      作為普通用戶,確實很難評價大模型的性能表現。出于謹慎,我們研究了下小米此次重點宣傳的榜單排名,一起看看這些排名成績有多少含金量?

      技術實力排名,還是市場運營成果?

      小米官方在宣傳中,主要用兩套評價體系支撐 “國際先進” 的定位:一套是 Artificial Analysis 綜合榜單,另一套是 OpenRouter 平臺的調用量排名。

      我們先看 Artificial Analysis 榜單。小米 MiMo-V2-Pro 在此榜單中取得全球第八、國內第二的成績,也是其 “國際一流” 說法的主要來源。



      Artificial Analysis 榜單的評測方法簡潔明了,核心圍繞智能體能力、代碼、科學推理、通用智能四大維度,涵蓋 10 項高難度基準,采用 “客觀題 + 主觀題” 結合的方式:

      客觀題(如代碼運行、數學推理、終端執行)由機器自動判分,確保準確性。

      主觀題(如文案生成、邏輯表達、文檔質量)則由 AI 裁判(而非真人)進行盲測打分,采用 Elo 評級方式對比模型表現。

      但Artificial Analysis的關鍵問題是,AI 裁判并非完全中立 —— 它有固定的偏好(如偏愛結構清晰、語氣正式的答案),廠商可針對性優化模型輸出,對齊 AI 裁判的打分習慣,從而提升主觀題得分。

      不過Artificial Analysis官方也對此做了多項限制,比如采用多 AI 裁判交叉驗證、零樣本測試、高難度動態題庫,大幅降低了針對性優化的空間。

      總體而言,這種針對性優化的問題雖不嚴重,不會導致成績完全失真,但肯定存在優化得當使得模型排名可能比其真實綜合實力略高的情況。

      再看被廣泛傳播的 OpenRouter 調用量第一榜單。

      小米創辦人,董事長兼CEO雷軍發文稱,OpenRounter 是全球最大的大模型API聚合平臺,AI應用開發者可以在這里調用自己想用的模型。這是對模型能力、速度和成本綜合實力考驗。調用量越高,一般意味著開發者的認可度越高。



      但實際上,OpenRouter 排名核心指標僅為 Token 總消耗量,并不直接反映模型質量。

      這種機制的人為影響因素非常明顯:新品上線常見的大額免費額度、低價補貼、內部測試流量、定向引流等,都能在短期內顯著拉升調用數據。

      更關鍵的是,平臺并未區分真實用戶與模型方發起的調用,廠商完全可以通過自身賬號批量主動調用,直接抬高排名。

      此次 小米MiMo 以 Hunter Alpha 匿名上線即快速登頂,同期多款國產模型在該平臺出現異常暴漲的調用曲線,可能也側面印證了這類操作的普遍性。

      而且調用量只代表被使用的規模,無法體現用戶滿意度、任務完成率與實際效果,更無法等同于模型能力的強弱。

      因此 OpenRouter 的排名本質更接近市場運營結果,而非技術實力的客觀證明。

      MiMo缺席的榜單

      值得注意的是,筆者發現小米MiMo至今并未出現在LMSYS Chatbot Arena的盲測排名中。

      筆者曾在之前的文章《國外的模型更好用?我們做了一下專項研究》中,介紹過為什么這個盲測更能說明真實性能。

      作為業內最貼近真實用戶體驗、最難被干預的評測體系,LMSYS依靠海量真人匿名雙盲對決形成ELO排名,公信力顯著更高。

      小米MiMo未上榜,可能大概率是因為模型剛發布、尚未提交參評,或暫時未接入社區評測平臺,并不直接代表模型能力不足。但小米MiMo確實缺少了最具說服力、最難以造假的第三方口碑佐證。

      綜合來看,小米MiMo所主打宣傳的兩套評價體系,的確帶有明顯的營銷傾向,成績中存在可優化、可運營的空間,不能完全等同于模型的絕對實力。

      但考慮到大模型的技術難度以及所謂“優化榜單排名”的難度,即便剔除榜單水分,MiMo在架構設計、能力方向與實際表現上依然具備扎實基礎,足以躋身國內第一梯隊優秀大模型行列,并非虛有其表。

      更關鍵的是,MiMo從底層設計就重點強化了Agent智能體能力,而小米本身擁有手機、汽車、智能家居等完整的硬件生態。模型擅長的工具調用、多步規劃、跨設備執行,恰好能與小米的全場景硬件深度結合。

      并且,小米還有“超能力”,雷軍宣布,在AI領域,小米今年的研發和資本投入就將超過160億元。

      榜單排名只是短期話題,模型與生態的協同落地,才是MiMo未來真正值得期待的長期價值。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      為什么中國不軍事援助伊朗?看完發現,印度三哥才是最牛逼的

      為什么中國不軍事援助伊朗?看完發現,印度三哥才是最牛逼的

      番外行
      2026-03-14 08:55:36
      醫院職工被破格提拔,遭舉報后衛健局回應:已暫停對該同志的調整

      醫院職工被破格提拔,遭舉報后衛健局回應:已暫停對該同志的調整

      梅斯醫學
      2026-03-24 10:27:58
      斯普利特:今晚有意安排楊瀚森在頂弧組織,他的進步有目共睹

      斯普利特:今晚有意安排楊瀚森在頂弧組織,他的進步有目共睹

      懂球帝
      2026-03-24 15:01:07
      伊朗新任最高領袖傳出死訊:真沒了,還是一場更大的煙霧彈

      伊朗新任最高領袖傳出死訊:真沒了,還是一場更大的煙霧彈

      桂系007
      2026-03-20 23:50:32
      離譜到家!周琦罰球8中0創尷尬紀錄,基本功缺失令人唏噓!

      離譜到家!周琦罰球8中0創尷尬紀錄,基本功缺失令人唏噓!

      田先生籃球
      2026-03-24 06:52:27
      金價將沖擊1萬美元?黃金跌入熊市后 市場資深人士重申看漲預期

      金價將沖擊1萬美元?黃金跌入熊市后 市場資深人士重申看漲預期

      財聯社
      2026-03-24 19:48:06
      突發!菲律賓進入國家能源緊急狀態 菲律賓工商會:美以襲擊伊朗或對菲經濟造成重大沖擊

      突發!菲律賓進入國家能源緊急狀態 菲律賓工商會:美以襲擊伊朗或對菲經濟造成重大沖擊

      每日經濟新聞
      2026-03-24 23:31:45
      papi醬會議室錄綜藝!4萬成本碾壓億元S+級,把內娛遮羞布全撕了

      papi醬會議室錄綜藝!4萬成本碾壓億元S+級,把內娛遮羞布全撕了

      啊呆吃瓜
      2026-03-22 21:35:03
      臺專家警告:如果大陸武統臺灣,將毀滅500個城市,1.4億人死亡

      臺專家警告:如果大陸武統臺灣,將毀滅500個城市,1.4億人死亡

      主宰穩場
      2026-03-18 07:49:46
      日本不再歡迎中國人?3月起日本簽證“一刀切”,華人進退兩難!

      日本不再歡迎中國人?3月起日本簽證“一刀切”,華人進退兩難!

      介知
      2026-03-24 23:19:18
      22場僅進1球!英超前鋒成為大水貨,身價高達7500萬歐

      22場僅進1球!英超前鋒成為大水貨,身價高達7500萬歐

      足球狗說
      2026-03-24 19:50:10
      蘋果終于承認了:折疊屏是補作業,2027年要“重新發明iPhone”

      蘋果終于承認了:折疊屏是補作業,2027年要“重新發明iPhone”

      雷科技
      2026-03-24 22:37:50
      大膽!日本官兵帶刀闖入中國大使館,日自衛隊要對標中國四大航母

      大膽!日本官兵帶刀闖入中國大使館,日自衛隊要對標中國四大航母

      共工之錨
      2026-03-25 00:49:44
      貴州省大數據發展管理局原正廳級干部景亞萍一審獲刑10年9個月

      貴州省大數據發展管理局原正廳級干部景亞萍一審獲刑10年9個月

      大風新聞
      2026-03-24 17:57:05
      香港知名男星發福嚴重、肥到無頸,因稱贊周慧敏,被罵到離港發展

      香港知名男星發福嚴重、肥到無頸,因稱贊周慧敏,被罵到離港發展

      地理三體說
      2026-03-02 23:25:42
      勸人拼命的張雪峰,被“拼命”害了,留下9家公司和一個9歲的女兒

      勸人拼命的張雪峰,被“拼命”害了,留下9家公司和一個9歲的女兒

      金牌輿情官
      2026-03-24 22:35:26
      保姆偷拿了家里2瓶茅臺去賣,我沒揭穿只辭退了她,臨走時她指了指舊皮鞋,我一看瞬間癱坐在地

      保姆偷拿了家里2瓶茅臺去賣,我沒揭穿只辭退了她,臨走時她指了指舊皮鞋,我一看瞬間癱坐在地

      今夜有個好故事
      2026-03-11 17:26:56
      好落魄!49歲趙薇廣東吃飯,被扒住潮州老舊小區,人生再無回頭路

      好落魄!49歲趙薇廣東吃飯,被扒住潮州老舊小區,人生再無回頭路

      呆冰和章魚
      2025-12-12 15:13:02
      無視皇馬 + 看扁巴黎!瓜迪奧拉欽點歐洲三強,頭號黑馬出乎意料

      無視皇馬 + 看扁巴黎!瓜迪奧拉欽點歐洲三強,頭號黑馬出乎意料

      瀾歸序
      2026-03-24 02:21:57
      昔日“催收大王”被催收!永雄集團遭銀行及自家創始人追債共計超5000萬,公司回應

      昔日“催收大王”被催收!永雄集團遭銀行及自家創始人追債共計超5000萬,公司回應

      紅星新聞
      2026-03-24 13:00:06
      2026-03-25 02:16:49
      科技浮世繪 incentive-icons
      科技浮世繪
      文字是假的,熱愛是真的
      150文章數 5關注度
      往期回顧 全部

      數碼要聞

      14歲男孩癡迷科學實驗:把干冰放冰箱半夜引發爆炸

      頭條要聞

      張雪峰因心源性猝死搶救無效去世 終年41歲

      頭條要聞

      張雪峰因心源性猝死搶救無效去世 終年41歲

      體育要聞

      NBA最強左手射手,是個右撇子

      娛樂要聞

      張雪峰經搶救無效不幸去世 年僅41歲

      財經要聞

      特朗普再TACO 可以押注伊朗局勢降級?

      科技要聞

      年僅41歲,教育名師張雪峰猝然離世

      汽車要聞

      尚界Z7雙車預售22.98萬起 問界M6預售26.98萬起

      態度原創

      藝術
      房產
      旅游
      公開課
      軍事航空

      藝術要聞

      300米!非洲最高全鋼混住宅,中國建造又破紀錄!

      房產要聞

      北上廣深二手房集體回暖!三月小陽春行情全面兌現

      旅游要聞

      2025年哈薩克斯坦入境游客持續增長 中國為第四大來源國

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      以色列媒體:美國計劃于4月9日結束對伊朗戰爭

      無障礙瀏覽 進入關懷版