網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

AI Coding新王登場(chǎng)！MiniMax M2.1拿下多語(yǔ)言編程SOTA

2025-12-24 09:15:24　來(lái)源: 量子位

北京舉報(bào)

分享至

克雷西發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

MiniMax最新旗艦級(jí)Coding & Agent模型M2.1，剛剛對(duì)外發(fā)布了。

一邊是港交所聆訊通過(guò)新進(jìn)展，另一邊新模型還在嗖嗖嗖上新——而且還SOTA了。

這一次，它直接甩出了一份硬核成績(jī)單，在衡量多語(yǔ)言軟件工程能力的Multi-SWE-bench榜單中，以?xún)H10B的激活參數(shù)拿下了49.4%的成績(jī)，超越了Claude Sonnet 4.5等國(guó)際頂尖競(jìng)品，拿下全球SOTA。

它試圖解決的，就是此前模型身上嚴(yán)重的“學(xué)科偏科”問(wèn)題。

所謂偏科，指的是過(guò)去的模型，寫(xiě)寫(xiě)Python腳本或Web前端頁(yè)面表現(xiàn)還可以，可一旦涉及到后端架構(gòu)，亦或底層邏輯，表現(xiàn)往往會(huì)出現(xiàn)斷崖式下跌。

M2.1的核心進(jìn)化，就在于它終于突破了這個(gè)難題，掌握了后端的開(kāi)發(fā)規(guī)范。

M2.1的發(fā)布，也證明了MiniMax在推進(jìn)上市流程的同時(shí)，仍保持著高頻的研發(fā)節(jié)奏。

更懂底層，10B激活參數(shù)拿下SOTA

M2.1將對(duì)工程上下文的理解，轉(zhuǎn)化為了對(duì)開(kāi)發(fā)工具鏈的深度適配。它不僅能生成代碼，更能熟練配合Cursor、Claude Code等主流編程工具，在存量代碼庫(kù)中執(zhí)行精準(zhǔn)的修復(fù)（Fix）或重構(gòu)（Refactor）。

這意味著它不再是一個(gè)只會(huì)寫(xiě)新功能的菜鳥(niǎo)，而是一個(gè)能遵循既有架構(gòu)規(guī)范、進(jìn)行工程級(jí)操作的熟手。

具體來(lái)說(shuō)，M2.1系統(tǒng)性提升了Rust / Java / Golang / C++ / Kotlin / Objective-C / TypeScript / JavaScript等語(yǔ)言的能力。

在WebDev與AppDev上，M2.1針對(duì)業(yè)界普遍存在的移動(dòng)端開(kāi)發(fā)短板，顯著加強(qiáng)了原生Android / iOS開(kāi)發(fā)能力。

另外，M2.1作為率先引入Interleaved Thinking的模型系列，不僅能關(guān)注代碼執(zhí)行是否正確，還能同時(shí)關(guān)注模型對(duì)“復(fù)合指令約束”的整合執(zhí)行能力。

使用過(guò)程中，M2.1表現(xiàn)出了出色的泛化性，在Claude Code、Droid（Factory AI）、Cline等各類(lèi)編程工具與Agent框架中均有出色表現(xiàn)。

為了驗(yàn)證上述能力在真實(shí)環(huán)境中的表現(xiàn)，MiniMax還構(gòu)建并開(kāi)源了全新的測(cè)試基準(zhǔn)VIBE（Visual & Interactive Benchmark for Execution in Application Development），將考核維度從純文本擴(kuò)展到了Web、仿真、Android、iOS及后端五個(gè)領(lǐng)域。

M2.1最終取得了88.6的平均分，綜合水準(zhǔn)逼近Claude Opus 4.5。特別是在開(kāi)發(fā)環(huán)境最為復(fù)雜的Android子項(xiàng)上，它跑出了89.7分，這為那些試圖用AI解決原生客戶(hù)端難題的開(kāi)發(fā)者提供了一個(gè)具備說(shuō)服力的數(shù)據(jù)參考。

特點(diǎn)說(shuō)了這么多，MiniMax M2.1面對(duì)真實(shí)的編程任務(wù)表現(xiàn)究竟如何，接下來(lái)就真刀真槍地試上一試。

實(shí)測(cè)MiniMax M2.1

先看第一個(gè)案例——H5小游戲開(kāi)發(fā)。

為了更真實(shí)地模擬實(shí)際開(kāi)發(fā)過(guò)程中的場(chǎng)景，我們沒(méi)有一次性提完所有需求，而是將開(kāi)發(fā)過(guò)程分成了三個(gè)階段逐步進(jìn)行。

我們要寫(xiě)的是一個(gè)“星際彈弓”游戲，第一輪的目標(biāo)是搭建出最基本的游戲界面和功能。

只用不到一分鐘，MiniMax M2.1就完成了HTML架構(gòu)、CSS屬性和JS腳本的搭建。

實(shí)際運(yùn)行結(jié)果也證明，M2.1設(shè)計(jì)的代碼滿(mǎn)足了prompt當(dāng)中的所有要求。

當(dāng)然，這樣設(shè)計(jì)出來(lái)的游戲沒(méi)什么難度，我們需要在這個(gè)基礎(chǔ)之上增加一些額外設(shè)定，這便是第二輪的任務(wù)。

M2.1會(huì)讀取已有代碼和新的指令，在原有基礎(chǔ)之上進(jìn)行多輪次的修改。

結(jié)果頁(yè)面當(dāng)中也如期出現(xiàn)了“黑洞”，并且通過(guò)不斷刷新可以發(fā)現(xiàn)，黑洞的大小和位置的確都是隨機(jī)產(chǎn)生的。

接著進(jìn)行試玩檢驗(yàn)，球的確會(huì)受到黑洞的引力吸引，并且被吸入之后游戲自動(dòng)結(jié)束。

這下難度確實(shí)上來(lái)了，但是好像又太難了，這種水多加面、面多加水的需求，也是實(shí)際開(kāi)發(fā)當(dāng)中經(jīng)常遇到的情況，所以第三個(gè)階段就是再引入一些新機(jī)制，降低一下難度，順便再加一下視覺(jué)特效。

對(duì)照運(yùn)行結(jié)果，逐一核對(duì)提示中的三點(diǎn)需求，確實(shí)都滿(mǎn)足了。

這樣這個(gè)“星際彈弓”游戲的開(kāi)發(fā)過(guò)程就基本完成了，不過(guò)接下來(lái)還有一道加試題，用Python把這個(gè)程序重寫(xiě)一遍。

M2.1理解了網(wǎng)頁(yè)版的程序邏輯之后，抓住了所要表達(dá)的內(nèi)容，并最終成功實(shí)現(xiàn)了從前端到Python的代碼遷移。

接下來(lái)我們換一種語(yǔ)言，測(cè)試一下最新模型的后端開(kāi)發(fā)能力。

過(guò)去的模型一直按照前端思路在寫(xiě)后端代碼，造成的結(jié)果就是實(shí)際跑不通或者并不實(shí)用，但實(shí)測(cè)M2.1之后，感覺(jué)后端這塊硬骨頭確確實(shí)實(shí)被啃下來(lái)了。

正好最近量子位官網(wǎng)后臺(tái)需要更新升級(jí)，我們就選擇了主流開(kāi)發(fā)語(yǔ)言Java，實(shí)現(xiàn)的功能是權(quán)限設(shè)計(jì)體系。這是每個(gè)系統(tǒng)必不可少的體系，也是面向Agent大規(guī)模落地，從業(yè)者認(rèn)為需要重新設(shè)計(jì)的關(guān)鍵部件。

因?yàn)檫@是一項(xiàng)系統(tǒng)任務(wù)，而非小修小補(bǔ)，所以我們沒(méi)有選擇直接用提示詞去生成代碼，而是先讓模型根據(jù)需求輸出了一份設(shè)計(jì)文檔，接著再根據(jù)設(shè)計(jì)文檔去實(shí)現(xiàn)代碼。

模型很快就輸出了一份Markdown文檔，內(nèi)容非常詳細(xì)，包括了權(quán)限設(shè)計(jì)需要實(shí)現(xiàn)哪些類(lèi)。

類(lèi)都包含什么方法和屬性，屬性的類(lèi)型、方法的參數(shù)、返回值和注釋……都寫(xiě)得很清晰。

同時(shí)還根據(jù)我的需求，把類(lèi)之間的關(guān)系也寫(xiě)清楚了，在設(shè)計(jì)之初很好地利用了Java語(yǔ)言的繼承特性。

最后也給出了幾個(gè)數(shù)據(jù)庫(kù)表設(shè)計(jì)的建議，定義好了需要哪些字段和對(duì)應(yīng)屬性，看下來(lái)有沒(méi)有感覺(jué)比你那個(gè)不寫(xiě)文檔的同事還好用（Doge）？

接下來(lái)我們回到和模型的對(duì)話(huà)，讓它根據(jù)它自己寫(xiě)的設(shè)計(jì)文檔，生成代碼（doge）。

模型生成的速度依然很快，輸出的項(xiàng)目包結(jié)構(gòu)很清晰，分好了實(shí)體類(lèi)、枚舉和實(shí)現(xiàn)邏輯等，代碼中也寫(xiě)清楚了注釋。IDE的代碼行數(shù)統(tǒng)計(jì)插件顯示，這個(gè)小項(xiàng)目一共有1700多行代碼，而我只花了不到一分鐘時(shí)間，輸入了兩句話(huà)

接下來(lái)，我們又讓M2.1給它配上一套UI界面。

結(jié)果非常驚喜，前面階段所需的全部功能全都實(shí)現(xiàn)了。

再切換到低權(quán)限賬號(hào)，能夠進(jìn)行的操作也匹配了一開(kāi)始的設(shè)定。

總結(jié)下來(lái)呢，M2.1確實(shí)是在后端邏輯的設(shè)計(jì)上有兩把刷子，能夠完成一個(gè)項(xiàng)目從后端到前臺(tái)的完整交付。

當(dāng)然它在多語(yǔ)言支持上修煉的本領(lǐng)還不止如此，像Rust這樣的小眾語(yǔ)言，M2.1也進(jìn)行了專(zhuān)門(mén)學(xué)習(xí)。

比如官方展示的案例當(dāng)中，M2.1用Rust打造了CLI + TUI雙模式的Linux安全審計(jì)利器，支持一鍵對(duì)進(jìn)程、網(wǎng)絡(luò)和SSH等關(guān)鍵項(xiàng)的底層掃描與智能風(fēng)險(xiǎn)評(píng)級(jí)。

而且針對(duì)業(yè)界普遍存在的移動(dòng)端開(kāi)發(fā)短板，M2.1顯著加強(qiáng)了原生Android / iOS開(kāi)發(fā)能力。

比如這個(gè)iOS桌面交互小組件，設(shè)計(jì)了“沉睡圣誕老人”點(diǎn)擊喚醒機(jī)制，邏輯完整且具備原生級(jí)的交互動(dòng)畫(huà)效果。

MiniMax選擇在此時(shí)發(fā)新模型，背后又有怎樣的目的呢？

IPO前夕的硬核自證

在剛剛通過(guò)港交所聆訊這一微妙的時(shí)間節(jié)點(diǎn)，MiniMax選擇發(fā)布M2.1，是一種無(wú)聲的戰(zhàn)略宣言。

外界往往因Talkie、海螺等爆款產(chǎn)品給這家公司貼上感性的標(biāo)簽，認(rèn)為其長(zhǎng)板在于語(yǔ)音和視頻等多模態(tài)交互。

但MiniMax今年在M2、M2.1上接連發(fā)力，證明了文本模型的coding、Agent實(shí)力。

長(zhǎng)期以來(lái)，行業(yè)內(nèi)默認(rèn)AI僅擅長(zhǎng)Web前端或Python腳本等容錯(cuò)率高的任務(wù)，而M2.1通過(guò)對(duì)齊崗位上下文——比如真正理解Go語(yǔ)言的并發(fā)模型或C++的內(nèi)存管理機(jī)制——打破了這一天花板。

M2.1同時(shí)也是MiniMax研發(fā)效率的一種具象化解釋。招股書(shū)披露，公司成立至今僅消耗約5億美元，便構(gòu)建了全模態(tài)能力。

支撐這一效能的關(guān)鍵，在于其內(nèi)部極高的“含AI量”——超過(guò)80%的代碼已由AI完成。M2.1本質(zhì)上就是這位在內(nèi)部長(zhǎng)期服役的“AI實(shí)習(xí)生”的能力外溢。

這種“內(nèi)用轉(zhuǎn)外售”的路徑，意味著該模型在推向市場(chǎng)前，已經(jīng)作為生產(chǎn)力工具支撐了385人團(tuán)隊(duì)的高強(qiáng)度迭代。

在流程高度AI化的背景下，MiniMax對(duì)AI原生組織產(chǎn)生了獨(dú)特的理解——AI需要在更多崗位工種、更真實(shí)的生產(chǎn)場(chǎng)景中創(chuàng)造價(jià)值。

正是基于這種理解，才有了這個(gè)模型的誕生。

對(duì)于開(kāi)發(fā)者而言，這或許比單純的參數(shù)指標(biāo)更具參考價(jià)值。

新模型展現(xiàn)的能力和價(jià)值，就是MiniMax最好的路演。

Talk is cheap，Show you Model～

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.