網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

實(shí)測MiniMax M2.7 ：上能拆英偉達(dá)，下能演我爸媽

2026-03-18 22:46:50　來源: 字母榜

北京舉報(bào)

分享至

總覺得MiniMax才發(fā)布M2.5，如今M2.7就上線了。查了一下，真的只隔了一個(gè)月（要知道，中間還隔了一個(gè)春節(jié)）。

MiniMax在官方微信公眾號(hào)文章中表示：“MiniMax M2.7是我們第一個(gè)模型深度參與迭代自己的模型。”

這幾年，“AI自我進(jìn)化”幾乎已經(jīng)從一個(gè)略帶科幻感的說法，變成了行業(yè)里默認(rèn)成立的方向。

谷歌前CEO埃里克·施密特（Eric Schmidt）更是總結(jié)，目前已經(jīng)形成了一個(gè)“硅谷共識(shí)”：隨著人工智能推理能力和記憶系統(tǒng)的發(fā)展，它將重塑人類的運(yùn)作方式。最終我們將達(dá)到所謂的遞歸式自我改進(jìn)——屆時(shí)，系統(tǒng)將以人類無法理解的速度進(jìn)行學(xué)習(xí)。

目前，這件事已經(jīng)被拆解成更具體的工程路徑：用模型生成數(shù)據(jù)、用模型做評(píng)測，甚至讓模型參與到代碼修改和實(shí)驗(yàn)流程里。

模型被放進(jìn)了一個(gè)可以不斷試錯(cuò)、不斷反饋的循環(huán)系統(tǒng)里。在這個(gè)系統(tǒng)中，模型既是執(zhí)行者，也是部分決策者，而人更多退到設(shè)定目標(biāo)和邊界的位置。

M2.7這次強(qiáng)調(diào)的Agent Harness，也是把原本需要多人協(xié)作完成的一整套研發(fā)流程，盡可能壓縮進(jìn)一個(gè)可以持續(xù)運(yùn)行的循環(huán)里，讓模型去承擔(dān)其中越來越多的環(huán)節(jié)。

MiniMax亮出的Benchmark成績也相當(dāng)亮眼：

這些benchmark對(duì)應(yīng)不同的能力維度：SWE Bench和VIBE-Pro更接近真實(shí)的軟件工程任務(wù)，而Toolathon和MM-ClawBench則強(qiáng)調(diào)模型在復(fù)雜流程中的執(zhí)行能力；相比之下，MLE-Bench等測試則更偏向算法與研究能力。

從結(jié)果來看，M2.7在工程執(zhí)行類任務(wù)中已經(jīng)進(jìn)入第一梯隊(duì)，這一點(diǎn)在幾個(gè)關(guān)鍵指標(biāo)上體現(xiàn)得比較明顯。

比如在SWE Bench Pro上，它的表現(xiàn)已經(jīng)接近甚至超過部分一線模型，這類測試本質(zhì)上是在真實(shí)代碼庫中定位問題并完成修復(fù)，更接近“線上排障”的場景；

而在VIBE-Pro這種端到端項(xiàng)目任務(wù)中，M2.7同樣處在第一梯隊(duì)，這意味著它不只是會(huì)補(bǔ)代碼，而是具備從需求到交付完整產(chǎn)出的能力。

另一個(gè)比較值得注意的是MM-ClawBench這一類Agent測試。這里考查的不是單步能力，而是模型在長流程中的穩(wěn)定執(zhí)行能力，能不能在多步驟任務(wù)中持續(xù)調(diào)用工具、保持上下文、最終把事情做完。

M2.7在這一項(xiàng)上已經(jīng)接近頭部模型，說明它在“能不能把活干完”這件事上，確實(shí)已經(jīng)跨過了一道門檻。

但如果切換到更偏研究和復(fù)雜推理的任務(wù)，比如MLE-Bench這一類測試，M2.7仍有進(jìn)步空間。這類任務(wù)更接近算法工程或科研場景，要求模型具備更強(qiáng)的抽象能力和系統(tǒng)性建模能力，這一部分目前仍然是頭部模型的優(yōu)勢區(qū)間。

好了，硬核的信息放在一邊，拿到MiniMax M2.7內(nèi)測API的那一刻，我們第一反應(yīng)是：“能用它整點(diǎn)什么活？”

把它丟進(jìn)一個(gè)真實(shí)的場景里，看它能不能滿足我的需求，這最直觀，也最接地氣。

所以我們給M2.7設(shè)計(jì)了四場“考試”，難度從低到高，場景從荒誕到嚴(yán)肅：先讓它同時(shí)扮演我爸媽和弟弟在微信群里聊天，再搭一個(gè)Agent Harness框架讓它自主編程（做一個(gè)霓虹燈數(shù)字時(shí)鐘熱熱身，再從零寫一個(gè)貪吃蛇游戲），最后把英偉達(dá)的年報(bào)甩給它，讓它像分析師一樣輸出研究報(bào)告、交互式儀表盤和演示文稿。

玩了一下午，只想說：M2.7，你有點(diǎn)東西。

讓AI同時(shí)扮演我全家人

我們做的第一個(gè)測試，靈感來源于每個(gè)中國人手機(jī)里都有的那個(gè)東西——家族微信群。

你知道的，就是那種群名叫“相親相愛一家人”的群，里面永遠(yuǎn)有人在轉(zhuǎn)發(fā)養(yǎng)生文章，有人在發(fā)語音消息，有人在催你結(jié)婚，還有人在打游戲不回消息。

這個(gè)場景之所以適合測試AI，是因?yàn)樗鼘?duì)“角色一致性”的要求極高。

群里每個(gè)人的說話方式、關(guān)注點(diǎn)，甚至打字習(xí)慣都完全不同，而且他們之間還會(huì)互相接話、抬杠、拌嘴。

我們用M2.7搭了一個(gè)高仿微信界面的網(wǎng)頁應(yīng)用，連手機(jī)外殼、狀態(tài)欄、綠色氣泡都做了出來，力求還原度拉滿。一開始我想了很多人設(shè)，比如前文提到的爺爺奶奶等。

但是最后我敲定了一家四口，他們分別是：

老李（爸爸），55歲國企退休干部，性格暴躁但刀子嘴豆腐心，釣魚狂熱愛好者，最恨吃蔬菜尤其是西蘭花，說話愛引用名人名言，動(dòng)不動(dòng)就“我當(dāng)年……”

媽媽（王秀英），52歲社區(qū)居委會(huì)大媽，超級(jí)嘮叨但滿滿都是愛，養(yǎng)生達(dá)人兼廚藝高手，打字瘋狂用 emoji，喜歡用【】強(qiáng)調(diào)重點(diǎn)，三句話之內(nèi)必催女兒找對(duì)象

李小龍（弟弟），24歲，大學(xué)畢業(yè)兩年了還沒找到正經(jīng)工作，整天在家打原神和王者榮耀，嘴貧愛懟人，滿嘴“yyds”“絕絕子”，最怕爸爸說教，一被罵就裝可憐或者轉(zhuǎn)移話題，經(jīng)常找姐姐借錢但從不還。

頁面如下：

在我并未詳細(xì)要求界面具體呈現(xiàn)的情況下，模型返回的設(shè)計(jì)相當(dāng)讓人滿意，于是我開始嘗試發(fā)送第一句話。

發(fā)送失敗？顯示的是調(diào)用API失敗。于是我讓M2.7給我檢查一下問題所在。

M2.7很快就發(fā)現(xiàn)了BUG，在修復(fù)后終于可以對(duì)話了，但是……

設(shè)定上作為我的父親，他卻不認(rèn)識(shí)我，很顯然，這是一個(gè)人物設(shè)計(jì)上的BUG。于是我又讓M2.7重新編排了一下角色身份，“我”被設(shè)定為家中的長女。

隨后，一切正常，這個(gè)模擬器終于可以運(yùn)行了。

雖然沒有一上來就夢(mèng)幻開局，但是Bug的發(fā)現(xiàn)和修復(fù)都非常絲滑。

M2.7的角色扮演能力很強(qiáng)。但我想強(qiáng)調(diào)的是，多角色群聊的難度遠(yuǎn)不止“給每個(gè)角色設(shè)定不同的語氣”這么簡單。

通過報(bào)錯(cuò)的那張圖可以看到，對(duì)于不同角色，M2.7會(huì)分別調(diào)用模型，而不是說一次生成所有的對(duì)話。

它要求模型同時(shí)維持多個(gè)角色的人格狀態(tài)、理解角色之間的關(guān)系（父女、母女、兄妹、夫妻），并且讓這些關(guān)系在對(duì)話中自然地碰撞出火花。

一家四口，三個(gè)AI角色，每個(gè)人都有自己的小心思和說話習(xí)慣，還要讓他們能和我互動(dòng)起來。

M2.7做到了，而且做得相當(dāng)自然。

一句話，從零造一個(gè)霓虹燈時(shí)鐘

第二場開始，我決定上一點(diǎn)強(qiáng)度。

為了測試M2.7的Agent能力，我專門搭了一個(gè)Agent Harness測試框架。界面長得像一個(gè)深色主題的IDE：左邊是 agent的思考軌跡面板，實(shí)時(shí)顯示它每一步在想什么、打算做什么。

右邊分成三塊——任務(wù)配置區(qū)、虛擬文件系統(tǒng)（顯示它創(chuàng)建了哪些文件）和實(shí)時(shí)預(yù)覽窗口（直接渲染它寫出來的 HTML）。

這個(gè)框架給M2.7提供了五個(gè)工具：write_file（創(chuàng)建/寫入文件）、read_file（讀取文件）、list_files（列出目錄）、execute_js（在沙盒里跑 JavaScript）和 finish（宣布任務(wù)完成）。

除此之外，什么都沒有。相當(dāng)于把一個(gè)程序員扔進(jìn)一間空屋子，只給他一臺(tái)電腦和一個(gè)需求。

第一個(gè)任務(wù)，我讓M2.7做一個(gè)霓虹燈風(fēng)格的數(shù)字時(shí)鐘。M2.7需要理解需求、規(guī)劃方案、寫代碼、自己檢查、最后交付。

點(diǎn)擊“啟動(dòng) Agent”之后，M2.7的ReAct循環(huán)開始轉(zhuǎn)了。最后在第5輪的時(shí)候，M2.7執(zhí)行完了命令，實(shí)際上第4輪就行了，當(dāng)時(shí)我這里出現(xiàn)了一些網(wǎng)絡(luò)波動(dòng)，導(dǎo)致M2.7調(diào)用工具失敗。

說實(shí)話，這個(gè)結(jié)果本身并不讓我們特別驚訝。

一個(gè)數(shù)字時(shí)鐘對(duì)于2026年的大模型來說確實(shí)不算什么。

真正讓人感到驚喜的，是整個(gè)開發(fā)過程非常流暢。

從理解需求到規(guī)劃方案到寫代碼到自檢到交付，整個(gè)Agent工作流跑得行云流水，沒有一步多余的操作。這說明M2.7對(duì)ReAct框架的適配相當(dāng)成熟，它知道什么時(shí)候該想、什么時(shí)候該動(dòng)手、什么時(shí)候該收工。

好，熱身結(jié)束。接下來，繼續(xù)上難度。

讓AI自己寫一個(gè)貪吃蛇游戲

時(shí)鐘畢竟太簡單了。沒有交互邏輯，沒有狀態(tài)管理，沒有邊界條件。

我需要一個(gè)真正能考驗(yàn)Agent自主推理和調(diào)試能力的任務(wù)，比如貪吃蛇。

這回的需求復(fù)雜度完全不在一個(gè)量級(jí)：Canvas繪制、鍵盤事件監(jiān)聽、蛇的移動(dòng)邏輯、食物隨機(jī)生成、碰撞檢測（撞墻和撞自己）、計(jì)分系統(tǒng)、游戲結(jié)束判定、重新開始功能。

同時(shí)我還要求M2.7用Word記錄下來自己的開發(fā)過程。

結(jié)果如下：

在第1輪里，M2.7沒有著急寫代碼，它是先創(chuàng)建了一個(gè)規(guī)劃。“我要開發(fā)什么什么任務(wù)”，“這個(gè)任務(wù)需要用到什么工具”等等。

第2輪，進(jìn)入正題。M2.7會(huì)創(chuàng)建一個(gè)完整的HTML文件，包含所有功能，包括畫布渲染、鍵盤控制、隨機(jī)食物生成、計(jì)分、碰撞檢測以及開始 / 重新開始功能。

第3輪，檢查文件有沒有被正確創(chuàng)建。

第4輪，檢查語法，并且檢查游戲的完整性。

第5輪，檢查所有任務(wù)是否已經(jīng)完成。

整個(gè)任務(wù)只需要5輪，共消耗25882個(gè)token。

不過也要說說不足。

整個(gè)過程并不是一帆風(fēng)順的——Agent 在早期的幾輪迭代中，JSON 格式的工具調(diào)用偶爾會(huì)出錯(cuò)，導(dǎo)致框架解析失敗，返回一個(gè)紅色的錯(cuò)誤提示。

M2.7 看到錯(cuò)誤后能自我糾正，下一輪就輸出了正確格式的 JSON，但這種“先犯錯(cuò)再改”的模式在需要長時(shí)間自主運(yùn)行的 Agent 場景中是一個(gè)隱患——如果連續(xù)幾輪都格式錯(cuò)誤，可能會(huì)耗盡最大輪次限制而任務(wù)失敗。

但總的來說，從時(shí)鐘的“一次過”到貪吃蛇的“寫→查→修→再驗(yàn)證”，這兩個(gè)任務(wù)放在一起看，恰好展現(xiàn)了 M2.7 作為 Agent 的兩面：面對(duì)簡單任務(wù)時(shí)的高效利落，和面對(duì)復(fù)雜任務(wù)時(shí)的自主調(diào)試能力。

這也正是 M2.7 官方最強(qiáng)調(diào)的核心能力——Agent Harness 能力，不僅能在給定的工具框架中完成任務(wù)，還能主動(dòng)迭代和自我糾錯(cuò)。

第四場：2159 億美元的投行級(jí)財(cái)報(bào)分析

前面三個(gè)測試，一個(gè)考“說”，兩個(gè)考“做”。

最后一個(gè)測試，我們想換個(gè)方向。

現(xiàn)在有很多金融行業(yè)的人也在使用Claude Opus這樣的大模型，原因很簡單，它們能把復(fù)雜的數(shù)據(jù)制作成直觀的圖表形式。

我把英偉達(dá)FY2026的完整財(cái)報(bào)數(shù)據(jù)甩給了M2.7。

然后我給了它一個(gè)任務(wù)：基于這些數(shù)據(jù)，生成三個(gè)專業(yè)交付物。

第一個(gè)是深度研究報(bào)告，要求投行風(fēng)格，包含財(cái)務(wù)全景、五大業(yè)務(wù)板塊分析、FY2027 預(yù)測模型、風(fēng)險(xiǎn)評(píng)估和估值分析。

第二個(gè)是交互式財(cái)務(wù)儀表盤，要求是藍(lán)綠色風(fēng)格的深色主題，包含圖表、可調(diào)動(dòng)的滑塊，以及五個(gè)功能標(biāo)簽頁。

第三個(gè)是12頁演示文稿，要求投行風(fēng)格，支持鍵盤翻頁，包含數(shù)據(jù)可視化圖表。

當(dāng)然，這里必須誠實(shí)地說一句，這個(gè)測試的“含金量”需要打個(gè)折扣。因?yàn)樨?cái)報(bào)數(shù)據(jù)是我預(yù)先搜集好喂給它的，而不是讓它自己去搜索和整理的。

M2.7在這個(gè)任務(wù)中，盡職扮演了一個(gè)“拿到所有原材料后進(jìn)行加工和呈現(xiàn)”的分析師，如果我們讓它自己搜集數(shù)據(jù)（這個(gè)對(duì)現(xiàn)在的模型來說并不難），那它完全可以扮演一個(gè)“從零開始做調(diào)研”的研究員。

但即便如此，它對(duì)復(fù)雜金融數(shù)據(jù)的理解能力、對(duì)多種輸出格式的駕馭能力，以及生成專業(yè)級(jí)可視化內(nèi)容的能力，都給我們留下了深刻印象。

這個(gè)測試直接對(duì)應(yīng)了M2.7官方宣傳的復(fù)雜Office自動(dòng)化能力——“支持復(fù)雜 Excel/Word/PPT 辦公任務(wù)及多輪編輯”。從實(shí)測來看，在金融分析這個(gè)場景上，M2.7 確實(shí)能輸出接近專業(yè)水準(zhǔn)的內(nèi)容。

還有一點(diǎn)特別想分享，MiniMax也在做更多有趣的嘗試，這一點(diǎn)也令人驚喜。

比如，MiniMax這次官宣的時(shí)候就提到，他們構(gòu)建了一個(gè) Agent 交互系統(tǒng) OpenRoom（openroom.ai），它將 AI 互動(dòng)置入一個(gè)萬物皆可互動(dòng)的 Web GUI 空間。有意思的是，原型項(xiàng)目已開源，這里面的代碼大部分也是 AI 寫的。

在這里，對(duì)話即驅(qū)動(dòng)，實(shí)時(shí)產(chǎn)生視覺反饋與場景交互，角色可以主動(dòng)地與環(huán)境交互。MiniMax希望能夠隨著模型 Agentic 能力的提升和社區(qū)的共建持續(xù)進(jìn)化，探索出更多人與 Agent 之間全新的交互方式。

這次測下來，我最大的感受其實(shí)不是“它又變強(qiáng)了”，而是你開始能明顯感覺到，一個(gè)模型不再只是等你提問的工具，而是可以被放進(jìn)一個(gè)系統(tǒng)里持續(xù)運(yùn)轉(zhuǎn)的搭檔。

我們?cè)u(píng)測挑選的場景是任何一個(gè)普通用戶都可以上手用到的，從群聊模擬，到寫代碼，再到做分析報(bào)告，這些任務(wù)背后其實(shí)是同一件事：模型開始參與到一個(gè)完整流程里，而不是只負(fù)責(zé)某一個(gè)瞬間的輸出。

當(dāng)然，這一步還遠(yuǎn)遠(yuǎn)沒有到終點(diǎn)。你依然能看到它在復(fù)雜推理、長流程穩(wěn)定性上的邊界，也能看到一些細(xì)節(jié)上的不穩(wěn)定，比如工具調(diào)用格式錯(cuò)誤、需要多輪修正才能收斂。這些問題在“單次對(duì)話”里可能不明顯，但放進(jìn)Agent這種長時(shí)間運(yùn)行的框架里會(huì)被放大。

但有一點(diǎn)是比較直觀的：當(dāng)模型開始能在一個(gè)任務(wù)里自己往前推進(jìn)、自己發(fā)現(xiàn)問題、再自己修正的時(shí)候，整個(gè)使用體驗(yàn)就變了。模型離“你問一句、它答一句”的形態(tài)越來越遠(yuǎn)，開始和你一起把一件事做完。

你的下一個(gè)生活、工作搭子，何必是人類？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.