- 克雷西 發自 凹非寺
量子位 | 公眾號 QbitAI
春節檔模型大戰,又殺出一匹黑馬。
今天,MiniMax正式官宣了已經提前兩天開跑的新模型M2.5,依然主打智能體和Vibe Coding,性能比肩Claude Opus 4.6。
它不挑食,PC端、手機App、React Native、Flutter全能寫,而且是前后端帶數據庫的真全棧。
以前的模型頂多給你畫個皮(前端),M2.5是連皮帶骨頭(前端+后端+數據存儲)都能給你交付。
它還是為智能體生態而生的,配合OpenClaw這種腳手架,能把你的自然語言直接變成電腦上的具體操作。
你只需要懂業務邏輯,剩下的全棧代碼實現,它能以100TPS的速度秒回交付給你,而且每小時成本只要1美金。
10B激活參數躋身第一梯隊
M2.5這次在寫代碼和跑任務這兩個硬指標上,直接和Claude Opus 4.6站在了同一條水平線上。
比如在編程最硬核的SWE-Bench Verified榜單上,它拿到了80.2%的高分,在多語言任務Multi-SWE-Bench上更是拿到了第一。
![]()
而且它在Vibe Coding模式下能通吃全棧,能從界面一路寫到后端邏輯和數據庫設計,一次性交付整套能用的代碼。
比如面對一個“豪華貓咪隧道電商網站”的需求,不僅要極簡風、視差滾動效果,后臺還得帶個3D配置器。
![]()
M2.5跑出來的結果能直接呈現出大片級的自動播放視頻效果,連那種可以點著玩的3D配置器也跑得有模有樣,出來的網站整體感覺非常高級,而且是個真正能直接運行的完整項目。

這種底氣來自于它進化出了“原生Spec行為”——在動手寫代碼前,它會像架構師一樣主動拆解功能結構和UI設計。
而且能全棧通吃,是因為它是在Go、Rust、Python等10多種編程語言和幾十萬個真實環境中鍛煉出來的。
在處理長鏈路任務時,M2.5也是專門優化過的,不管是主流框架還是自己寫的腳本,它都能順暢配合。
這里它引入了Process Reward(過程獎勵) 機制,能全鏈路監控完成質量,解決了長任務容易“跑偏”的難題。
這種機制帶來的邏輯能力在處理繁瑣、重復性高的活時特別明顯,比如統計福布斯富豪榜,就需要去抓取凈資產、年齡和財富來源。
![]()
M2.5生成的表格非常老練,它會自動建好Cover、BillionairesData和Sources三個Sheet,把封面、數據源和詳細數據分得清清楚楚,格式規整得像個強迫癥員工做的。
![]()
能干這么重的活,M2.5的激活參數量其實只有10B,是第一梯隊里體型最小的旗艦模型。
配合上深度優化的思考鏈路,它的推理吞吐量飆到了100TPS,這個速度是主流旗艦模型的2倍,跑大規模數據清洗或者改代碼Bug任務時,也能體驗到那種瞬間刷屏的快感。
文能編寫全棧代碼,武能操縱本地系統
前面兩個在線DEMO,只是開胃小菜,接下來就把M2.5帶到真刀真槍的智能體環境當中拉練一番。
按MiniMax的說法,適配各種不同的智能體框架,是M2.5的一大優勢能力。
既然說到智能體框架,那不得不提的就是爆火的OpenClaw了,所以干脆就在我的電腦上安裝一個,然后把M2.5接入進去試試。
由于M2.5剛出,OpenClaw的安裝向導里還沒有這個選項,因此安裝的過程手動折騰了一番,這里也就不詳述了,總之最后是成功接入了進來。
![]()
不過,通過后臺看板和OpenClaw對話實在是太麻煩了,所以我打算把它接到我的飛書里。
![]()
拳腳已經給M2.5搭建好,接下來就看這個大腦怎么發揮了。
我用Python生成了一個裝了100個亂七八糟財務文件的文件夾丟在桌面,然后給OpenClaw一個非常直接的任務:先把所有文件名清洗一遍,統一改成“日期+供應商+金額”的格式。
當然這還不算完,它得把這些數據吃透,按支出分類整理好,最后直接生成一份帶圖表的月度財務分析PPT,不僅要圖文并茂還得看著美觀。
先看一下,整理之前的文件長這樣:
![]()
接下來呢,我們就通過飛書把任務布置給M2.5正在操縱的OpenClaw。
![]()
chua的一下,整個文件夾里的文件齊刷刷改了名字,變成了我們要求的格式。

同時在飛書里,OpenClaw也匯報了它的工作進度,總結了這個月的支出情況。
![]()
至于PPT,顯然我懶得去文件夾里翻找,所以直接通過飛書讓OpenClaw給我發了過來。
![]()
激動人心的驗收時刻馬上就要到了。
M2.5指揮的OpenClaw,自己選了個很有科技感的深色主題,藍綠配色看著就很舒服。
而且它不是光把數據填進去就完事了,還真的看懂了那些賬單。
比如在餅圖里,它一眼就揪出來“云計算服務”占了快90%的大頭,還在核心指標頁里特意標注了第2周支出最高。
在最后一頁它還提出了改進建議,發現在“星云云計算”上花錢太多,直接建議去談個年度合同降本。這種能從數據里挖出業務洞察的能力,已經超越了單純的圖表制作。

可以看出在智能體環境中,M2.5的確是一個合格的大腦,讓我體驗到了一種當老板的感覺?(?■_■)?。
除了智能體之外,還有一項讓MiniMax引以為傲的技能,就是Vibe Coding。
這里我們用VSCode,通過Cline進行連接,看M2.5能不能一勺燴地搞定后端、前端、通信、部署調試這套完整的開發流程。
我讓它用Java Spring Boot寫一個多人實時協作的待辦清單系統。
功能上其實不簡單,得用WebSocket做多端的實時同步,還得卡死權限,誰建的任務誰才能改。
另外對界面美觀度也有要求,必須得呈現出科技感,給人一種黑客終端的感覺。
![]()
接到任務之后,M2.5先從pom.xml和application.yml兩個文檔開始寫起。
這倆文件是Java Spring Boot項目的“心臟”和“大腦”。
pom.xml相當于給構建工具(Maven)看的購物清單。也就是你要做這個“待辦清單”項目,需要用到哪些現成的零件(依賴包)。
application.yml(運行說明書)則是給程序看的設置面板。軟件啟動后具體怎么跑,都在這里定規矩。
![]()
這兩個清單列好之后,就開始寫主體和各個模塊的JAVA代碼,還有前端HTML,另外還創建了一個數據庫文件。
![]()
這一切都寫好之后,M2.5驅動的Cline會自動對程序進行編譯運行,并且如果在這個過程當中遇到了報錯,還會讀取錯誤信息,自動對代碼進行修改。
![]()
一番折騰之后,后臺程序終于開始運行,前端頁面也在8080端口跑起來了,確實界面既簡潔又具有我剛才要求的科技感。
![]()
簡單測試一下任務的新增、刪除和進度調整,還有昵稱的修改,都沒有問題。

但是,這里看到的效果并不能證明真的是后端服務正常運行,因為這樣的效果純靠前端也能實現。
所以接下來還得拿出“照妖鏡”,通過多端同步這項技術要求,看一下是不是真的有后端在工作。
這里我把手機(通過局域網訪問部署在電腦端的頁面)的屏幕都投到了電腦上,然后分別在兩端對任務進行增、刪、改,觀察另外一臺設備的實時變化。
結果所有的操作,都即時同步到了另一端,說明后端正在工作,M2.5是真的把這個系統的前后端全給跑通了。

嗯,M2.5宣傳的全棧工程能力,確實已經比只會在前端搞一些花拳繡腿的模型高出一個level了。
總之,還是我們常說的那句話,測試這些案例只是拋磚引玉,更多新奇的玩法,還等待著你的后續探索。
AI大爆發即將到來
這一波M2.5的出現,給我們帶來了一個明確的信號——AI應用的大爆發,已經就在眼前了。
在過去100多天里,M2系列在代碼能力上的進步速度直接拉出了一條陡峭的陽線,保持著行業最快的迭代節奏。這說明現在的模型,在“腦子好使”這件事上已經準備好了。
![]()
而且它還解決了“貴”和“慢”這兩個最硬的攔路虎,把推理速度干到了100TPS,還帶來了1美金就能讓智能體連續工作一小時的“白菜價”。
![]()
它展現出的那種全棧一肩挑的能力,使得它在MiniMax內部,已經接管了30%的真實業務,從寫代碼到做財務報表什么都干。
它能一口氣把事辦成,開發者不用再天天盯著細節改Bug,能放心大膽地讓AI去跑那些長鏈路的業務。
以前我們總說AI是Copilot,但在M2.5這種能獨立扛事的模型面前,它已經成為你的生產力引擎了。
接下來,你只需要負責踩油門(下達目標),至于引擎蓋底下怎么轉,就是AI的事了。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.