大家好,我是 Ai 學(xué)習(xí)的老章
最近大模型世界打破消停
谷歌發(fā)布了 Gemini 3 Flash,更輕,更便宜,N 個(gè) Benchmark 上超越 Gemini 3 Pro
小米開(kāi)源了 MoE 模型 MiMo-V2-Flash,號(hào)稱編程能力可以與 Claude Sonnet 4.5 一較高下
我看了一下小米這個(gè) MiMo-V2-Flash,也試用了一下,但。。。
先看官方宣傳
最突出的是:極致速度
![]()
** 亮點(diǎn)**: ?? 模型參數(shù):總參數(shù) 309B,激活參數(shù) 15B。
? 混合注意力:5:1 交錯(cuò)的 128 窗口 SWA + 全局 | 256K 上下文
?? 在通用基準(zhǔn)測(cè)試中與 DeepSeek-V3.2 相匹配,但延遲更低
SWE-Bench :73.4% | SWE-Bench 多語(yǔ)言:71.7% — 開(kāi)源模型的新 SOTA
速度:150 輸出標(biāo)記/秒
資源:
模型權(quán)重:http://hf.co/XiaomiMiMo/MiMo-V2-Flash
博客文章:http://mimo.xiaomi.com/blog/mimo-v2-flash
技術(shù)報(bào)告:http://github.com/XiaomiMiMo/MiMo-V2-Flash/blob/main/paper.pdf
AI 工坊:http://aistudio.xiaomimimo.com
架構(gòu)方面:
→ 使用混合注意力:滑動(dòng)窗口 + 全局,比例為 5:1
→ 8 混合塊(5 個(gè)滑動(dòng)窗口注意力層 → 1 個(gè)全局)
→ 128 個(gè)標(biāo)記滑動(dòng)窗口
→ 256 位專家,每令牌 8 位活躍專家
→ 原生訓(xùn)練 32K, 擴(kuò)展到支持 256K 上下文
![]()
從 Deepseek 離職之后加入小米的羅福莉也注冊(cè)了推特,詳細(xì)介紹了模型細(xì)節(jié):
![]()
說(shuō)實(shí)話我是看不懂,就是吃了一個(gè)瓜,有 Kimi 工程師銳評(píng)一波后被官方賬號(hào)拉黑了,小米大模型團(tuán)隊(duì)格局屬實(shí)有點(diǎn)小了
![]()
再附一個(gè)圖,依然是突出:速度快、價(jià)格低
![]()
到底跑分成績(jī)呢,N 個(gè) Benchmark 上拳打 Kimi- K2,腳踢 DeepSeek-V3.2
![]()
體現(xiàn) Code Agent 能力的 SWE-Bench Multilingual 更是遙遙領(lǐng)先
這個(gè)圖更形象
![]()
但是我看了一些評(píng)測(cè),總結(jié)就是:很快,但是能力一般
![]()
小米:你就說(shuō)快不快吧![]()
![]()
我也去測(cè)試了一下我經(jīng)常使用測(cè)試模型閱讀理解和編碼能力的題目,結(jié)果如下
不如 Kimi K2 Thinking
![]()
閱讀理解,沒(méi)有識(shí)別出4次背影
最后是本地部署,我看了 313GB 的模型文件后直接放棄幻想了
![]()
所有推理代碼現(xiàn)在都可在 SGLang 中找到 — 從發(fā)布之日起完全開(kāi)源。
SGLang 部署模型在 H200(單節(jié)點(diǎn))上的結(jié)果依然是:快得很
預(yù)填充: ~50K 令牌/秒 | TTFT < 1 秒
解碼(3 層 MTP,16K 上下文):5K–15K 每秒標(biāo)記 | 每請(qǐng)求 115–151 TPS
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.