<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      MiniMax M2.5 發(fā)布:10B 激活參數(shù),打進頭部模型

      0
      分享至

      今天這篇本來早上就該發(fā)的

      MiniMax 凌晨發(fā)了 M2.5,一看數(shù)據(jù)就知道得寫,但這兩天實在有點累,拖到晚上才弄出來。先跟 MiniMax 的朋友們說一句,恭喜,這次發(fā)的東西確實硬

      有個事情官方?jīng)]說:M2.5 為 229B,激活只有 10B


      https://huggingface.co/MiniMaxAI/MiniMax-M2.5/blob/main/config.json

      但在SWE-Bench Verified 80.2%,Multi-SWE-Bench 51.3%(第一),BrowseComp 76.3%。編程跟 Opus 4.6 基本持平,多語言編程直接拿了全行業(yè)最高。搜索和工具調(diào)用也到了頂尖水平


      M2.5 核心 benchmark 一覽

      第一梯隊里參數(shù)規(guī)模最小的旗艦模型。10B 激活參數(shù)打到了跟 Opus 4.6 一個級別。做私有化部署的朋友可以品品這個顯存占用和推理能效比

      看看經(jīng)濟賬:M2.5 有兩個版本,能力完全一樣,速度和價格不同

      快的叫 M2.5-Lightning,100 TPS,每百萬 token 輸入 0.3 美金、輸出 2.4 美金。
      慢的叫 M2.5,50 TPS,價格再砍一半,每百萬 token 輸入 0.3 美金、輸出 1.2 美金。

      兩個版本都支持緩存,按輸出價格算,M2.5 是 Opus、Gemini 3 Pro、GPT-5 的 1/10 到 1/20


      換成更具象的數(shù)字:在以每秒輸出 100 個 token 的情況下,連續(xù)工作一小時只需要 1 美金,而在每秒輸出 50 個 token 的情況下,只需要 0.3 美金。

      1 萬美金,夠一個 Agent 連續(xù)跑 4 年

      這個賬算得過來之后,很多之前「舍不得讓 Agent 長時間跑」的場景就打開了。跑完一整套 SWE-Bench Verified 評測,M2.5 單任務(wù)的總成本只有 Opus 4.6 的 10%

      編程
      編程 benchmark

      有個細節(jié)挺有意思。M2.5 在訓練過程中自己演化出了一個「寫 Spec」的行為,動手寫代碼之前會先從架構(gòu)師視角把功能、結(jié)構(gòu)、UI 設(shè)計全部拆解規(guī)劃一遍。這個行為是涌現(xiàn)出來的,不是手動設(shè)計的

      訓練覆蓋了 10 多種語言(Go、C、C++、TypeScript、Rust、Kotlin、Python、Java、JS、PHP、Lua、Dart、Ruby),在超過 20 萬個真實環(huán)境上跑

      能力不只是修 bug,從 0 到 1 的系統(tǒng)設(shè)計、1 到 10 的開發(fā)、10 到 90 的功能迭代、90 到 100 的 code review 和系統(tǒng)測試,全流程都能接。覆蓋 Web、Android、iOS、Windows 的全棧項目,包含 Server 端 API、業(yè)務(wù)邏輯、數(shù)據(jù)庫

      MiniMax 把 VIBE benchmark 升級了一個 Pro 版,任務(wù)復雜度和領(lǐng)域覆蓋度都拉高了不少。在 VIBE Pro 上,M2.5 跟 Opus 4.5 表現(xiàn)相當


      VIBE Pro 對比

      腳手架泛化性也驗過了。在 Droid 上跑 SWE-Bench,M2.5 是 79.7,Opus 4.6 是 78.9。在 OpenCode 上,M2.5 是 76.1,Opus 4.6 是 75.9。換了腳手架照樣打

      搜索和工具調(diào)用
      搜索 benchmark

      MiniMax 自建了一個評測集叫 RISE(Realistic Interactive Search Evaluation),專門測真實專業(yè)任務(wù)上的搜索能力。邏輯是這樣的:人類專家做搜索任務(wù)的時候,用搜索引擎本身只占一小部分,大量工作是在專業(yè)網(wǎng)頁里深度探索。M2.5 在這類場景上表現(xiàn)很強

      比上一代還省。在 BrowseComp、Wide Search、RISE 多項任務(wù)上,M2.5 用更少的搜索輪次拿到了更好的結(jié)果,輪次消耗比 M2.1 少了大約 20%

      模型學會了用更短的路徑逼近答案

      辦公
      辦公場景對比

      這塊 MiniMax 找了金融、法律、社科領(lǐng)域的資深從業(yè)者一起做訓練數(shù)據(jù),把行業(yè)的隱性知識帶進了模型訓練。Word 排版、PPT 編輯、Excel 金融建模這些場景上有明顯提升

      他們內(nèi)部的 GDPval-MM 評測框架會同時評交付質(zhì)量和 Agent 執(zhí)行軌跡的專業(yè)性,還監(jiān)控全流程 token 成本。對比主流模型平均勝率 59.0%

      速度

      M2.5 比 M2.1 完成 SWE-Bench 任務(wù)快了 37%

      具體來說:端到端運行時間從平均 31.3 分鐘降到 22.8 分鐘,跟 Opus 4.6 的 22.9 分鐘幾乎一樣。每個任務(wù)的 token 消耗從 3.72M 降到了 3.52M

      變快了,還變省了

      迭代速度

      108 天,M2、M2.1、M2.5 三個版本

      在 SWE-Bench Verified 上,M2 系列的進步曲線斜率比 Claude、GPT、Gemini 系列都陡


      M2 系列 vs 同行的進步速度,自己看斜率

      MiniMax 說「行業(yè)最快的進步速度」,從這張圖看,不虛

      Agent RL

      技術(shù)層面簡單記幾個點

      M2.5 的核心訓練框架叫 Forge,原生 Agent RL 框架。通過引入中間層完全解耦了訓推引擎和 Agent,支持任意 Agent 腳手架接入。這讓模型在不同編程工具和 Agent 環(huán)境之間的泛化性很強


      Forge 架構(gòu)

      算法上用的是他們?nèi)ツ瓿跆岢龅?CISPO 算法保障 MoE 模型訓練穩(wěn)定性,加上 Process Reward 做全鏈路監(jiān)控,再用真實任務(wù)耗時作為 Reward 來平衡效果和速度。訓練側(cè)通過樹狀合并樣本實現(xiàn)了大約 40 倍加速


      Agent RL 算法與 Reward 設(shè)計

      MiniMax 說后續(xù)會單獨發(fā)一篇技術(shù)博客詳細講 RL scaling,到時候可以再看看

      MiniMax 內(nèi)部在用

      MiniMax 內(nèi)部已經(jīng)全面上線 M2.5,覆蓋研發(fā)、產(chǎn)品、銷售、HR、財務(wù)
      整體任務(wù)的 30% 由 M2.5 自主完成,編程場景里新提交代碼的 80% 由模型生成

      產(chǎn)品側(cè),MiniMax Agent 做了一套標準化的 Office Skills,在 MAX 模式下會根據(jù)文件類型自動加載對應能力。用戶還可以把 Office Skills 和行業(yè)經(jīng)驗結(jié)合起來創(chuàng)建可復用的「專家」(Expert),目前平臺上已經(jīng)有超過 1 萬個用戶創(chuàng)建的 Expert

      模型權(quán)重會在 HuggingFace 開源,支持本地部署


      更多 benchmark 還沒完...但先碎覺

      這兩天,國產(chǎn)模型扎堆發(fā)布,GLM-5、DeepSeek 更新、M2.5,春節(jié)前的密度有點離譜

      以及....這些 AI 廠的春節(jié)發(fā)布,還沒完

      然后...晚安...碎覺...

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      除夕當天,牢記1不洗、2不倒、3不回、4不空、5要吃,吉祥過大年

      除夕當天,牢記1不洗、2不倒、3不回、4不空、5要吃,吉祥過大年

      秀廚娘
      2026-02-15 08:45:25
      吃著中國,想著日本?哈薩克斯坦距離烏克蘭第二,到底還有多遠?

      吃著中國,想著日本?哈薩克斯坦距離烏克蘭第二,到底還有多遠?

      靜夜史君
      2026-02-15 23:47:18
      米蘭冬奧會速滑男子500米!前三名均破奧運紀錄!高亭宇獲第七

      米蘭冬奧會速滑男子500米!前三名均破奧運紀錄!高亭宇獲第七

      小蘭看體育
      2026-02-15 17:21:27
      是國米球迷!意大利參議院議長:國米在主場贏尤文會感到雙倍快樂

      是國米球迷!意大利參議院議長:國米在主場贏尤文會感到雙倍快樂

      硯底沉香
      2026-02-16 02:03:14
      美媒:美司法部致函國會議員的愛潑斯坦案名單竟出現(xiàn)夢露等人,美議員質(zhì)疑“故意混淆視聽”

      美媒:美司法部致函國會議員的愛潑斯坦案名單竟出現(xiàn)夢露等人,美議員質(zhì)疑“故意混淆視聽”

      環(huán)球網(wǎng)資訊
      2026-02-15 19:38:08
      馬筱梅情人節(jié)曬幸福!汪小菲去臺北過節(jié),小玥兒和箖箖跟后外婆睡

      馬筱梅情人節(jié)曬幸福!汪小菲去臺北過節(jié),小玥兒和箖箖跟后外婆睡

      離離言幾許
      2026-02-14 23:12:38
      TOP14位身高170以上的女神,有顏有燈有演技

      TOP14位身高170以上的女神,有顏有燈有演技

      素然追光
      2026-01-02 02:45:02
      網(wǎng)紅幼虎去世后被“替身”直播,死亡7天后飼養(yǎng)員稱“正曬太陽”;區(qū)政府成立調(diào)查組,信息上報、跨園轉(zhuǎn)運真相成謎

      網(wǎng)紅幼虎去世后被“替身”直播,死亡7天后飼養(yǎng)員稱“正曬太陽”;區(qū)政府成立調(diào)查組,信息上報、跨園轉(zhuǎn)運真相成謎

      大風新聞
      2026-02-15 18:00:11
      體壇名將放棄中國國籍,轉(zhuǎn)為美國國籍,14歲時在亞運會創(chuàng)造歷史

      體壇名將放棄中國國籍,轉(zhuǎn)為美國國籍,14歲時在亞運會創(chuàng)造歷史

      米修體育
      2026-01-24 12:47:31
      應急管理部派出工作組趕赴江蘇東海事故現(xiàn)場指導工作

      應急管理部派出工作組趕赴江蘇東海事故現(xiàn)場指導工作

      國際在線
      2026-02-16 02:55:03
      今年沒有年三十,什么時候貼春聯(lián)最好?2個黃金時段定好

      今年沒有年三十,什么時候貼春聯(lián)最好?2個黃金時段定好

      白淺娛樂聊
      2026-02-15 12:49:58
      佘詩曼辛苦一年終于放假游泰國,偷拍媽媽挑水果背面照充滿幸福

      佘詩曼辛苦一年終于放假游泰國,偷拍媽媽挑水果背面照充滿幸福

      老頭的傳奇色彩
      2026-02-14 19:05:06
      美國歷史上第一位二百五總統(tǒng)即將誕生,就是當今美國總統(tǒng)特朗普…

      美國歷史上第一位二百五總統(tǒng)即將誕生,就是當今美國總統(tǒng)特朗普…

      福建平子
      2026-02-08 13:17:52
      偷雞摸狗,好賭成性?離過年僅四天,何慶魁的體面被兒子撕得粉碎

      偷雞摸狗,好賭成性?離過年僅四天,何慶魁的體面被兒子撕得粉碎

      筆墨V
      2026-02-14 18:34:18
      房子里有“不干凈”的東西,會有以下3種特征,占一樣也不得了

      房子里有“不干凈”的東西,會有以下3種特征,占一樣也不得了

      神奇故事
      2026-01-05 23:24:05
      古巴已進入倒計時。

      古巴已進入倒計時。

      素顏為誰傾城人
      2026-02-15 05:04:46
      原來iPhone信號差是沒開對,這個隱藏設(shè)置一開,信號直接滿格

      原來iPhone信號差是沒開對,這個隱藏設(shè)置一開,信號直接滿格

      小柱解說游戲
      2026-02-13 12:20:15
      谷愛凌再遭美國網(wǎng)友網(wǎng)暴:沒收她的財產(chǎn)!回美國是非法滯留 魯比奧查她

      谷愛凌再遭美國網(wǎng)友網(wǎng)暴:沒收她的財產(chǎn)!回美國是非法滯留 魯比奧查她

      小椰的奶奶
      2026-02-13 08:02:35
      福特號突然出動了,伊朗這下是真難了!

      福特號突然出動了,伊朗這下是真難了!

      Ck的蜜糖
      2026-02-16 02:51:46
      2026春晚第五次彩排完成,趙本山宋丹丹回歸懸疑終揭曉

      2026春晚第五次彩排完成,趙本山宋丹丹回歸懸疑終揭曉

      丁羂解說
      2026-02-15 14:12:01
      2026-02-16 05:08:49
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      293文章數(shù) 36關(guān)注度
      往期回顧 全部

      數(shù)碼要聞

      搭載iPhone芯片的低價MacBook或在下月推出 將提供多種彩色款式

      頭條要聞

      大學生寒假為媽媽店鋪當中老年服裝模特 撞臉明星

      頭條要聞

      大學生寒假為媽媽店鋪當中老年服裝模特 撞臉明星

      體育要聞

      NBA三分大賽:利拉德帶傷第三次奪冠

      娛樂要聞

      2026央視春晚最新劇透 重量級嘉賓登場

      財經(jīng)要聞

      誰在掌控你的胃?起底百億"飄香劑"江湖

      科技要聞

      發(fā)春節(jié)紅包的大廠都被約談了

      汽車要聞

      奔馳中國換帥:段建軍離任,李德思接棒

      態(tài)度原創(chuàng)

      健康
      時尚
      家居
      手機
      數(shù)碼

      轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

      多巴胺失寵了?過年這樣穿彩色時髦又減齡

      家居要聞

      中古雅韻 樂韻伴日常

      手機要聞

      榮耀Magic V6真機現(xiàn)身,圓形Deco、紅色機身

      數(shù)碼要聞

      盲測顯示:音頻發(fā)燒友無法分辨銅線、香蕉與濕泥傳輸?shù)囊纛l信號

      無障礙瀏覽 進入關(guān)懷版