大家好,我是 Ai 學習的老章
最近大模型世界打破消停
谷歌發布了 Gemini 3 Flash,更輕,更便宜,N 個 Benchmark 上超越 Gemini 3 Pro
小米開源了 MoE 模型 MiMo-V2-Flash,號稱編程能力可以與 Claude Sonnet 4.5 一較高下
我看了一下小米這個 MiMo-V2-Flash,也試用了一下,但。。。
先看官方宣傳
最突出的是:極致速度
![]()
** 亮點**: ?? 模型參數:總參數 309B,激活參數 15B。
? 混合注意力:5:1 交錯的 128 窗口 SWA + 全局 | 256K 上下文
?? 在通用基準測試中與 DeepSeek-V3.2 相匹配,但延遲更低
SWE-Bench :73.4% | SWE-Bench 多語言:71.7% — 開源模型的新 SOTA
速度:150 輸出標記/秒
資源:
模型權重:http://hf.co/XiaomiMiMo/MiMo-V2-Flash
博客文章:http://mimo.xiaomi.com/blog/mimo-v2-flash
技術報告:http://github.com/XiaomiMiMo/MiMo-V2-Flash/blob/main/paper.pdf
AI 工坊:http://aistudio.xiaomimimo.com
架構方面:
→ 使用混合注意力:滑動窗口 + 全局,比例為 5:1
→ 8 混合塊(5 個滑動窗口注意力層 → 1 個全局)
→ 128 個標記滑動窗口
→ 256 位專家,每令牌 8 位活躍專家
→ 原生訓練 32K, 擴展到支持 256K 上下文
![]()
從 Deepseek 離職之后加入小米的羅福莉也注冊了推特,詳細介紹了模型細節:
![]()
說實話我是看不懂,就是吃了一個瓜,有 Kimi 工程師銳評一波后被官方賬號拉黑了,小米大模型團隊格局屬實有點小了
![]()
再附一個圖,依然是突出:速度快、價格低
![]()
到底跑分成績呢,N 個 Benchmark 上拳打 Kimi- K2,腳踢 DeepSeek-V3.2
![]()
體現 Code Agent 能力的 SWE-Bench Multilingual 更是遙遙領先
這個圖更形象
![]()
但是我看了一些評測,總結就是:很快,但是能力一般
![]()
小米:你就說快不快吧![]()
![]()
我也去測試了一下我經常使用測試模型閱讀理解和編碼能力的題目,結果如下
不如 Kimi K2 Thinking
![]()
閱讀理解,沒有識別出4次背影
最后是本地部署,我看了 313GB 的模型文件后直接放棄幻想了
![]()
所有推理代碼現在都可在 SGLang 中找到 — 從發布之日起完全開源。
SGLang 部署模型在 H200(單節點)上的結果依然是:快得很
預填充: ~50K 令牌/秒 | TTFT < 1 秒
解碼(3 層 MTP,16K 上下文):5K–15K 每秒標記 | 每請求 115–151 TPS
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.