網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

小米的大模型，就問(wèn)你快不快吧

2025-12-18 11:32:07　來(lái)源: 機(jī)器學(xué)習(xí)與Python社區(qū)

北京舉報(bào)

分享至

大家好，我是 Ai 學(xué)習(xí)的老章

最近大模型世界打破消停

谷歌發(fā)布了 Gemini 3 Flash，更輕，更便宜，N 個(gè) Benchmark 上超越 Gemini 3 Pro
小米開(kāi)源了 MoE 模型 MiMo-V2-Flash，號(hào)稱編程能力可以與 Claude Sonnet 4.5 一較高下

我看了一下小米這個(gè) MiMo-V2-Flash，也試用了一下，但。。。

先看官方宣傳

最突出的是：極致速度

** 亮點(diǎn)**： ?? 模型參數(shù)：總參數(shù) 309B，激活參數(shù) 15B。
? 混合注意力：5:1 交錯(cuò)的 128 窗口 SWA + 全局 | 256K 上下文
?? 在通用基準(zhǔn)測(cè)試中與 DeepSeek-V3.2 相匹配，但延遲更低
SWE-Bench ：73.4% | SWE-Bench 多語(yǔ)言：71.7% — 開(kāi)源模型的新 SOTA
速度：150 輸出標(biāo)記/秒

資源：

模型權(quán)重：http://hf.co/XiaomiMiMo/MiMo-V2-Flash
博客文章：http://mimo.xiaomi.com/blog/mimo-v2-flash
技術(shù)報(bào)告：http://github.com/XiaomiMiMo/MiMo-V2-Flash/blob/main/paper.pdf
AI 工坊：http://aistudio.xiaomimimo.com

架構(gòu)方面：

→ 使用混合注意力：滑動(dòng)窗口 + 全局，比例為 5:1
→ 8 混合塊（5 個(gè)滑動(dòng)窗口注意力層 → 1 個(gè)全局）
→ 128 個(gè)標(biāo)記滑動(dòng)窗口
→ 256 位專家，每令牌 8 位活躍專家
→ 原生訓(xùn)練 32K, 擴(kuò)展到支持 256K 上下文

從 Deepseek 離職之后加入小米的羅福莉也注冊(cè)了推特，詳細(xì)介紹了模型細(xì)節(jié)：

說(shuō)實(shí)話我是看不懂，就是吃了一個(gè)瓜，有 Kimi 工程師銳評(píng)一波后被官方賬號(hào)拉黑了，小米大模型團(tuán)隊(duì)格局屬實(shí)有點(diǎn)小了

再附一個(gè)圖，依然是突出：速度快、價(jià)格低

到底跑分成績(jī)呢，N 個(gè) Benchmark 上拳打 Kimi- K2，腳踢 DeepSeek-V3.2

體現(xiàn) Code Agent 能力的 SWE-Bench Multilingual 更是遙遙領(lǐng)先

這個(gè)圖更形象

但是我看了一些評(píng)測(cè)，總結(jié)就是：很快，但是能力一般

小米：你就說(shuō)快不快吧

我也去測(cè)試了一下我經(jīng)常使用測(cè)試模型閱讀理解和編碼能力的題目，結(jié)果如下

不如 Kimi K2 Thinking

閱讀理解，沒(méi)有識(shí)別出4次背影

最后是本地部署，我看了 313GB 的模型文件后直接放棄幻想了

所有推理代碼現(xiàn)在都可在 SGLang 中找到 — 從發(fā)布之日起完全開(kāi)源。

SGLang 部署模型在 H200（單節(jié)點(diǎn)）上的結(jié)果依然是：快得很
預(yù)填充： ~50K 令牌/秒 | TTFT < 1 秒
解碼（3 層 MTP，16K 上下文）：5K–15K 每秒標(biāo)記 | 每請(qǐng)求 115–151 TPS

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.