- 克雷西 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
MiniMax最新旗艦級(jí)Coding & Agent模型M2.1,剛剛對(duì)外發(fā)布了。
一邊是港交所聆訊通過(guò)新進(jìn)展,另一邊新模型還在嗖嗖嗖上新——而且還SOTA了。
這一次,它直接甩出了一份硬核成績(jī)單,在衡量多語(yǔ)言軟件工程能力的Multi-SWE-bench榜單中,以?xún)H10B的激活參數(shù)拿下了49.4%的成績(jī),超越了Claude Sonnet 4.5等國(guó)際頂尖競(jìng)品,拿下全球SOTA。
![]()
它試圖解決的,就是此前模型身上嚴(yán)重的“學(xué)科偏科”問(wèn)題。
所謂偏科,指的是過(guò)去的模型,寫(xiě)寫(xiě)Python腳本或Web前端頁(yè)面表現(xiàn)還可以,可一旦涉及到后端架構(gòu),亦或底層邏輯,表現(xiàn)往往會(huì)出現(xiàn)斷崖式下跌。
M2.1的核心進(jìn)化,就在于它終于突破了這個(gè)難題,掌握了后端的開(kāi)發(fā)規(guī)范。
M2.1的發(fā)布,也證明了MiniMax在推進(jìn)上市流程的同時(shí),仍保持著高頻的研發(fā)節(jié)奏。
更懂底層,10B激活參數(shù)拿下SOTA
M2.1將對(duì)工程上下文的理解,轉(zhuǎn)化為了對(duì)開(kāi)發(fā)工具鏈的深度適配。它不僅能生成代碼,更能熟練配合Cursor、Claude Code等主流編程工具,在存量代碼庫(kù)中執(zhí)行精準(zhǔn)的修復(fù)(Fix)或重構(gòu)(Refactor)。
這意味著它不再是一個(gè)只會(huì)寫(xiě)新功能的菜鳥(niǎo),而是一個(gè)能遵循既有架構(gòu)規(guī)范、進(jìn)行工程級(jí)操作的熟手。
具體來(lái)說(shuō),M2.1系統(tǒng)性提升了Rust / Java / Golang / C++ / Kotlin / Objective-C / TypeScript / JavaScript等語(yǔ)言的能力。
在WebDev與AppDev上,M2.1針對(duì)業(yè)界普遍存在的移動(dòng)端開(kāi)發(fā)短板,顯著加強(qiáng)了原生Android / iOS開(kāi)發(fā)能力。
另外,M2.1作為率先引入Interleaved Thinking的模型系列,不僅能關(guān)注代碼執(zhí)行是否正確,還能同時(shí)關(guān)注模型對(duì)“復(fù)合指令約束”的整合執(zhí)行能力。
使用過(guò)程中,M2.1表現(xiàn)出了出色的泛化性,在Claude Code、Droid(Factory AI)、Cline等各類(lèi)編程工具與Agent框架中均有出色表現(xiàn)。
為了驗(yàn)證上述能力在真實(shí)環(huán)境中的表現(xiàn),MiniMax還構(gòu)建并開(kāi)源了全新的測(cè)試基準(zhǔn)VIBE(Visual & Interactive Benchmark for Execution in Application Development),將考核維度從純文本擴(kuò)展到了Web、仿真、Android、iOS及后端五個(gè)領(lǐng)域。
M2.1最終取得了88.6的平均分,綜合水準(zhǔn)逼近Claude Opus 4.5。特別是在開(kāi)發(fā)環(huán)境最為復(fù)雜的Android子項(xiàng)上,它跑出了89.7分,這為那些試圖用AI解決原生客戶(hù)端難題的開(kāi)發(fā)者提供了一個(gè)具備說(shuō)服力的數(shù)據(jù)參考。
![]()
特點(diǎn)說(shuō)了這么多,MiniMax M2.1面對(duì)真實(shí)的編程任務(wù)表現(xiàn)究竟如何,接下來(lái)就真刀真槍地試上一試。
實(shí)測(cè)MiniMax M2.1
先看第一個(gè)案例——H5小游戲開(kāi)發(fā)。
為了更真實(shí)地模擬實(shí)際開(kāi)發(fā)過(guò)程中的場(chǎng)景,我們沒(méi)有一次性提完所有需求,而是將開(kāi)發(fā)過(guò)程分成了三個(gè)階段逐步進(jìn)行。
我們要寫(xiě)的是一個(gè)“星際彈弓”游戲,第一輪的目標(biāo)是搭建出最基本的游戲界面和功能。
![]()
只用不到一分鐘,MiniMax M2.1就完成了HTML架構(gòu)、CSS屬性和JS腳本的搭建。

實(shí)際運(yùn)行結(jié)果也證明,M2.1設(shè)計(jì)的代碼滿(mǎn)足了prompt當(dāng)中的所有要求。

當(dāng)然,這樣設(shè)計(jì)出來(lái)的游戲沒(méi)什么難度,我們需要在這個(gè)基礎(chǔ)之上增加一些額外設(shè)定,這便是第二輪的任務(wù)。
![]()
M2.1會(huì)讀取已有代碼和新的指令,在原有基礎(chǔ)之上進(jìn)行多輪次的修改。
![]()
結(jié)果頁(yè)面當(dāng)中也如期出現(xiàn)了“黑洞”,并且通過(guò)不斷刷新可以發(fā)現(xiàn),黑洞的大小和位置的確都是隨機(jī)產(chǎn)生的。

接著進(jìn)行試玩檢驗(yàn),球的確會(huì)受到黑洞的引力吸引,并且被吸入之后游戲自動(dòng)結(jié)束。

這下難度確實(shí)上來(lái)了,但是好像又太難了,這種水多加面、面多加水的需求,也是實(shí)際開(kāi)發(fā)當(dāng)中經(jīng)常遇到的情況,所以第三個(gè)階段就是再引入一些新機(jī)制,降低一下難度,順便再加一下視覺(jué)特效。
![]()
對(duì)照運(yùn)行結(jié)果,逐一核對(duì)提示中的三點(diǎn)需求,確實(shí)都滿(mǎn)足了。

這樣這個(gè)“星際彈弓”游戲的開(kāi)發(fā)過(guò)程就基本完成了,不過(guò)接下來(lái)還有一道加試題,用Python把這個(gè)程序重寫(xiě)一遍。
M2.1理解了網(wǎng)頁(yè)版的程序邏輯之后,抓住了所要表達(dá)的內(nèi)容,并最終成功實(shí)現(xiàn)了從前端到Python的代碼遷移。
![]()
接下來(lái)我們換一種語(yǔ)言,測(cè)試一下最新模型的后端開(kāi)發(fā)能力。
過(guò)去的模型一直按照前端思路在寫(xiě)后端代碼,造成的結(jié)果就是實(shí)際跑不通或者并不實(shí)用,但實(shí)測(cè)M2.1之后,感覺(jué)后端這塊硬骨頭確確實(shí)實(shí)被啃下來(lái)了。
正好最近量子位官網(wǎng)后臺(tái)需要更新升級(jí),我們就選擇了主流開(kāi)發(fā)語(yǔ)言Java,實(shí)現(xiàn)的功能是權(quán)限設(shè)計(jì)體系。這是每個(gè)系統(tǒng)必不可少的體系,也是面向Agent大規(guī)模落地,從業(yè)者認(rèn)為需要重新設(shè)計(jì)的關(guān)鍵部件。
因?yàn)檫@是一項(xiàng)系統(tǒng)任務(wù),而非小修小補(bǔ),所以我們沒(méi)有選擇直接用提示詞去生成代碼,而是先讓模型根據(jù)需求輸出了一份設(shè)計(jì)文檔,接著再根據(jù)設(shè)計(jì)文檔去實(shí)現(xiàn)代碼。
![]()
模型很快就輸出了一份Markdown文檔,內(nèi)容非常詳細(xì),包括了權(quán)限設(shè)計(jì)需要實(shí)現(xiàn)哪些類(lèi)。
![]()
類(lèi)都包含什么方法和屬性,屬性的類(lèi)型、方法的參數(shù)、返回值和注釋……都寫(xiě)得很清晰。
![]()
同時(shí)還根據(jù)我的需求,把類(lèi)之間的關(guān)系也寫(xiě)清楚了,在設(shè)計(jì)之初很好地利用了Java語(yǔ)言的繼承特性。
![]()
最后也給出了幾個(gè)數(shù)據(jù)庫(kù)表設(shè)計(jì)的建議,定義好了需要哪些字段和對(duì)應(yīng)屬性,看下來(lái)有沒(méi)有感覺(jué)比你那個(gè)不寫(xiě)文檔的同事還好用(Doge)?
![]()
接下來(lái)我們回到和模型的對(duì)話(huà),讓它根據(jù)它自己寫(xiě)的設(shè)計(jì)文檔,生成代碼(doge)。
模型生成的速度依然很快,輸出的項(xiàng)目包結(jié)構(gòu)很清晰,分好了實(shí)體類(lèi)、枚舉和實(shí)現(xiàn)邏輯等,代碼中也寫(xiě)清楚了注釋。IDE的代碼行數(shù)統(tǒng)計(jì)插件顯示,這個(gè)小項(xiàng)目一共有1700多行代碼,而我只花了不到一分鐘時(shí)間,輸入了兩句話(huà)
![]()
接下來(lái),我們又讓M2.1給它配上一套UI界面。
結(jié)果非常驚喜,前面階段所需的全部功能全都實(shí)現(xiàn)了。

再切換到低權(quán)限賬號(hào),能夠進(jìn)行的操作也匹配了一開(kāi)始的設(shè)定。
![]()
總結(jié)下來(lái)呢,M2.1確實(shí)是在后端邏輯的設(shè)計(jì)上有兩把刷子,能夠完成一個(gè)項(xiàng)目從后端到前臺(tái)的完整交付。
當(dāng)然它在多語(yǔ)言支持上修煉的本領(lǐng)還不止如此,像Rust這樣的小眾語(yǔ)言,M2.1也進(jìn)行了專(zhuān)門(mén)學(xué)習(xí)。
比如官方展示的案例當(dāng)中,M2.1用Rust打造了CLI + TUI雙模式的Linux安全審計(jì)利器,支持一鍵對(duì)進(jìn)程、網(wǎng)絡(luò)和SSH等關(guān)鍵項(xiàng)的底層掃描與智能風(fēng)險(xiǎn)評(píng)級(jí)。

而且針對(duì)業(yè)界普遍存在的移動(dòng)端開(kāi)發(fā)短板,M2.1顯著加強(qiáng)了原生Android / iOS開(kāi)發(fā)能力。
比如這個(gè)iOS桌面交互小組件,設(shè)計(jì)了“沉睡圣誕老人”點(diǎn)擊喚醒機(jī)制,邏輯完整且具備原生級(jí)的交互動(dòng)畫(huà)效果。

MiniMax選擇在此時(shí)發(fā)新模型,背后又有怎樣的目的呢?
IPO前夕的硬核自證
在剛剛通過(guò)港交所聆訊這一微妙的時(shí)間節(jié)點(diǎn),MiniMax選擇發(fā)布M2.1,是一種無(wú)聲的戰(zhàn)略宣言。
外界往往因Talkie、海螺等爆款產(chǎn)品給這家公司貼上感性的標(biāo)簽,認(rèn)為其長(zhǎng)板在于語(yǔ)音和視頻等多模態(tài)交互。
但MiniMax今年在M2、M2.1上接連發(fā)力,證明了文本模型的coding、Agent實(shí)力。
長(zhǎng)期以來(lái),行業(yè)內(nèi)默認(rèn)AI僅擅長(zhǎng)Web前端或Python腳本等容錯(cuò)率高的任務(wù),而M2.1通過(guò)對(duì)齊崗位上下文——比如真正理解Go語(yǔ)言的并發(fā)模型或C++的內(nèi)存管理機(jī)制——打破了這一天花板。
M2.1同時(shí)也是MiniMax研發(fā)效率的一種具象化解釋。招股書(shū)披露,公司成立至今僅消耗約5億美元,便構(gòu)建了全模態(tài)能力。
支撐這一效能的關(guān)鍵,在于其內(nèi)部極高的“含AI量”——超過(guò)80%的代碼已由AI完成。M2.1本質(zhì)上就是這位在內(nèi)部長(zhǎng)期服役的“AI實(shí)習(xí)生”的能力外溢。
這種“內(nèi)用轉(zhuǎn)外售”的路徑,意味著該模型在推向市場(chǎng)前,已經(jīng)作為生產(chǎn)力工具支撐了385人團(tuán)隊(duì)的高強(qiáng)度迭代。
在流程高度AI化的背景下,MiniMax對(duì)AI原生組織產(chǎn)生了獨(dú)特的理解——AI需要在更多崗位工種、更真實(shí)的生產(chǎn)場(chǎng)景中創(chuàng)造價(jià)值。
正是基于這種理解,才有了這個(gè)模型的誕生。
對(duì)于開(kāi)發(fā)者而言,這或許比單純的參數(shù)指標(biāo)更具參考價(jià)值。
新模型展現(xiàn)的能力和價(jià)值,就是MiniMax最好的路演。
Talk is cheap,Show you Model~
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.