<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      不卷跑分不養蝦,MiniMax M2.7 帶來了一個真正能打的 Cowork Agent

      0
      分享至


      3月18日晚,Minimax 悄悄上了波大分。

      更新了其最新的M2.7版本,并且官方還給出了一個核心定義:M2.7,是 MiniMax 第一代深度參與自身進化的模型。

      其不僅在指令遵循、辦公協同、Coding 方面有明顯提升,更重要的是它能夠自主搭建 Agent Harness。也就是說,它能搭出一套完整的任務框架,調用各種技能和工具,解決單個模型搞不定的問題,思考干活兩手抓,妥妥的“自我進化”。

      但這不是光說不練,Minimax還甩出了可驗證的測試數據。在測試中,測試員給它甩在了MLE Lite 22道高難度競賽中,M2.7取得了9金5銀1銅的成績,僅次于Opus-4.6、GPT-5.4,與Gemini-3.1持平。

      另外,在當下行業最關注的 Agent 真實任務執行能力評測上,M2.7 的表現同樣出圈。在基于標準化 OpenClaw Agent 測試的 PinchBench 榜單中,剛發布的 M2.7 快速登頂,以 86.2% 的任務成功率擊敗英偉達 Nemotron 3,拿下了 Best score 榜單的全球第四名,僅次于 Claude Sonnet 4.6、GPT-5.4、Claude Opus 4.6,刷新了國內大模型在該榜單的最好成績。


      而此次更新僅僅距離 M2.5 過去一個月。接連刷新的榜單、肉眼可見的能力躍升,都在印證一件事:大模型的能力已經不僅僅局限于答題、寫代碼的基礎能力,正在向自主規劃、自主迭代進化。

      尤其是 OpenClaw 爆火后,大家更在意的,已經不是模型能不能寫代碼了,而是接進真實工作流以后到底好不好用。說白了,就是把模型和工具真正接起來跑任務之后,它會不會掉鏈子,能不能把事情接著往下做。OpenClaw 本身就是沖著這種用法去的,所以現在大家都在找一個更合適的大模型接入。

      我們第一時間拿到了上手評測的機會。這一次,我們核心要驗證的只有一件事:接入 OpenClaw 之后,M2.7 的真實體驗到底如何?M2.7 到底是不是現在國內最好的 Cowork Agent?


      長鏈路任務的穩定性,才是真分水嶺

      最近 OpenClaw 這波熱度,大家應該都感受得到。現在模型能接進去,真不算新鮮事了,真正開始拉開差距的,是接進去以后到底好不好使。任務短的時候,很多模型都還能裝得挺像樣;一旦開始掛 skills、開始疊約束、開始把流程拉長,問題就出來了,前面條件沒吃透,后面補充一句它就亂,做到一半直接掉線。

      OpenClaw 本來就是沖著把模型和工具、會話、任務鏈路接起來去的,所以放在這個環境里測,反而更容易看出一個模型到底靠不靠譜。

      第一個任務是一道約束很多的龍蝦活動題,預算、人群、渠道、門店承載、風險和備選方案全都提前卡死,重點就看它會不會先把條件理清,再往下拆。

      M2.7 這一步給我的感覺還不錯,沒有急著往外發散,而是先把約束撈出來,再拆任務,再給方案,這種起手方式就比較讓人放心。而這也正是 M2.7 本次升級的核心強化方向 —— 復雜長鏈路任務的承接與落地,實測下來的表現的確不俗。

      接著我把任務再拉長一點。先給一版基礎方案,然后一輪一輪往上加條件,不能打折、供應鏈有限、門店人手少、目標人群變了,最后再加一個更像真實業務會提的要求,希望這套活動下個月還能復用成 SOP。

      全程下來,M2.7 沒有出現很多模型常見的 “一加需求就推翻重寫” 的問題,始終能沿著初始的核心邏輯持續優化迭代,這一點對于長流程工作流來說,至關重要。第三輪迭代中它出現了短暫的卡頓,能看出超長鏈路中仍有小幅波動,但在追問之后,它快速補齊了所有內容,包括最小可復用版本、標準化執行環節、人工決策節點,完整承接,沒有出現信息遺漏。

      跑完這兩組全鏈路任務,M2.7 在 OpenClaw 里的表現已經非常清晰:它最核心的價值,不是單輪輸出多么驚艷的答案,而是任務啟動時邏輯清晰、鏈路拉長后不易散架、多輪迭代中不丟約束。在真實的工作流里,這種穩定的持續交付能力,遠比單輪的華麗輸出重要得多。而在復雜長鏈路任務的承接上,M2.7 已經交出了國內最好的 Cowork Agent該有的滿分答卷。


      代碼能力全場景驗證:從 “寫代碼” 到 “做項目” 的工程化躍升

      真要看編程能力,還是得把項目丟過去。MiniMax 這次公開給出的方向里,Coding 的位置明顯更靠前。官方數據顯示,在 SWE-Pro 基準測試中,M2.7 得分 56.22%,無限接近 Claude Opus 的頂級水平;在端到端完整項目交付的 VIBE-Pro 測試中得分 55.6%,在復雜工程系統理解的 Terminal Bench 2 測試中得分 57.0%。更重要的是,它的能力早已跳出了單純的代碼生成,延伸到了日志分析、Bug 定位、故障排障、工程重構等高階開發領域,而這種變化,在實測中有著極為直觀的體感。


      在前端測試環節,我們給出了一個品牌展示官網的全量開發需求,這個任務的難度并非簡單的頁面拼接 ——它會包含品牌調性、視覺配色、頁面節奏、交互動效、粒子特效等多個維度,并且多個維度必須同時達標,最終產出的才是一個能真正商用的官網。很多模型在這里最容易翻車的。而 M2.7 的表現也超出了我的意料,尤其是配合官方 Skill 協同運行時,頁面的完成度直接拉滿,完全沒有常見的模板化痕跡,視覺層次、品牌配色、交互動效完全統一,最終交付的是一個可以直接上線使用的完整站點,而非零散的代碼片段。

      在后端測試環節,我給 M2.7 的不是補幾段接口代碼的小任務,而是一個從零開始往下搭的真實項目。技術棧用的是 Python、FastAPI 和 PostgreSQL,里面既有接口、數據模型、鑒權這些基礎環節,也有遷移、測試、文檔和后續排障。這類任務真正難的地方,不在代碼量,而在上下文要一直對得上,前面定下來的結構,后面每一步都不能亂。 M2.7 這一輪最讓人驚喜的一點,就是它在這種連續工程任務中,更像是資深開發的項目管理思維,而非單純的代碼生成工具:先搭好完整的項目骨架,再逐層補齊數據庫設計、業務接口、測試用例、接口文檔,項目上線跑通后,遇到問題還能自主排查、快速修復,全程邏輯連貫,沒有出現任何架構跑偏、上下文脫節的問題。

      M2.7 這次編程能力最明顯的變化,不是某個點突然特別炸,而是工程感更強了。前端會往展示結果上收,后端也能按項目節奏一路往下推。現在模型會寫代碼已經不稀奇了,真正有價值的是項目跑起來之后還能不能繼續跟。就這一點看,M2.7 已經不只是一個會生成代碼的模型了,而是在往真正能參與開發流程的 Cowork Agent 方向走。放到國內這批模型里,這種工程參與感其實很少見。


      辦公自動化全鏈路考驗:覆蓋完整知識工作流的協同能力

      Office 自動化這塊,我沒有拿簡單表格來試,而是直接上了一條完整鏈路。先生成一套模擬經營數據,再基于數據做復雜金融圖表,最后把圖表和數據整理成網頁數據報告。這里測的已經不是會不會寫公式,而是數據、圖表、分析和展示能不能連成一套結果。


      M2.7 這一輪的表現比較扎實。數據生成不是隨便拼數字,收入、利潤率、現金流、營收這些指標之間有基本邏輯;圖表也不是簡單折線圖,而是把幾個關鍵經營指標放進同一個分析畫面里,信息密度和重點都夠。繼續往下做網頁報告時,它也沒有停在把圖貼上去,而是把核心結論、風險點和管理建議一起整理出來,最后形成的是一份能直接展示的頁面,不是一堆零散素材。


      它現在展現出來的,已經不是基礎表格處理能力了,而是復雜 Office 自動化能力。數據清洗、圖表生成、分析歸納、匯報整理這一整條鏈路,它都能繼續往下做,多輪修改之后結構也沒有明顯散掉。放到真實辦公場景里,這種表現比單獨會做 Excel、會寫報告更有參考價值,因為它開始覆蓋的是更完整的知識工作流程。

      從能力邊界來看,M2.7 的能力已經不只是停留在辦公整理層面。其不僅能完整落地企業經營分析全鏈路任務,并且對于資料歸納、研究鏈路梳理、專業分析與結果匯總這類更高階的知識工作,也能輕松完成。


      最佳 Cowork Agent 來了嗎?

      這一輪測下來,M2.7 給我最明顯的感覺,已經不只是編程能力繼續往上走了一點,真正拉開差距的地方,在于它對智能體工作流的支持更完整了。尤其放進 OpenClaw 之后,這種變化會更明顯。任務交過去,它不只是給一段回答,很多時候是真的能順著任務往下做,過程中也沒那么容易散。單看這一點,我會直接把 M2.7 放在國內最好 Cowork Agent 的位置上。

      如果用幾句話概括 M2.7 這次最值得看的地方,核心還是連續性、穩定性和落地感。

      不過更值得注意的是,它這次已經開始顯出自我迭代能力。

      官方給出的路徑很清楚,不只是讓模型調用 Agent Harness 干活,而是讓它基于短時記憶、自反饋和自優化去反復調整自己的做事方法。內部腳手架優化里,M2.7 可以連續跑超過 100 輪分析失敗軌跡、規劃改動、修改代碼、回跑評測、對比結果,再決定保留還是回退,內部評測效果提升 30%。放到更重的機器學習任務里,它在 MLE Bench Lite 22 個任務上拿到 9 金 5 銀 1 銅,平均得牌率 66.6%。這說明它已經不只是執行任務,也開始參與優化完成任務的路徑。

      當下整個行業都在跟風適配 OpenClaw,忙著教模型怎么用好人類打造的工具,卻很少有人真正去突破模型的能力邊界 —— 讓模型自己造工具、自己搭框架、自己完成迭代進化。M2.7 自主搭建 Agent Harness 的能力,本質上是讓模型擁有了自主打造 “任務操作臺” 的能力,它不再局限于人類給定的工具與框架,而是能根據任務需求,自主搭建完整的任務執行體系,調度多智能體協同作業,甚至能通過自反饋、自優化,持續迭代這套體系本身。

      更重要的是,它已經深度參與到了 MiniMax 自身的模型研發流程中,成為了下一代模型研發的核心參與者,真正實現了 “模型訓練模型” 的正向循環。這種自我迭代的技術創新,不僅讓 M2.7 坐穩了國內最好 Cowork Agent 的位置,更提前搶占了下一代大模型競爭的核心分水嶺,開啟了大模型自主進化的全新紀元。

      顯然,M2.7 更適合那些已經不滿足于簡單問答的人。獨立開發者、全棧工程師、產品型開發者,或者本來就會把模型接進自己工作流的人,用起來會更容易感受到它的價值。因為這類用戶真正關心的,從來不是模型會不會說幾句聰明話,而是能不能把任務拆開、持續推進、出問題后繼續修正,最后把結果交出來。

      借著M2.7,我們似乎也看到了最強的 Cowork Agent 長什么樣子,或許在未來,我們能看到 AI 能承接更多的任務,解決更復雜的任務。

      如果你當下正在關注 OpenClaw 的生態,或是正在尋找一款接入后足夠順手、足夠能打、能真正融入工作流的大模型,M2.7 絕對值得你親自上手實測。

      體驗地址如下,快來試試吧!

      MiniMax Agent:

      agent.minimaxi.com

      Token Plan 訂閱:

      https://platform.minimaxi.com/subscribe/token-plan

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      中東戰還沒結束,第二個伊朗浮出水面,剛要收過路費就被兩國否了

      中東戰還沒結束,第二個伊朗浮出水面,剛要收過路費就被兩國否了

      照亮你的前行之路
      2026-04-25 12:32:33
      中央明確了!社保最低繳費年限要提高,70、80后得早做準備

      中央明確了!社保最低繳費年限要提高,70、80后得早做準備

      云鵬敘事
      2026-04-12 16:36:39
      “只顧自己紋眉,不管女兒死活?”14歲女孩生日照,臉上全是槽點

      “只顧自己紋眉,不管女兒死活?”14歲女孩生日照,臉上全是槽點

      蝴蝶花雨話教育
      2026-04-25 00:45:03
      唐玄宗晚年為何怠政?文治武功,已超太宗,年過五十,何不享樂!

      唐玄宗晚年為何怠政?文治武功,已超太宗,年過五十,何不享樂!

      草莓信箱
      2026-04-26 16:45:27
      張蘭又有大動作!打總監三巴掌,一腳踢滾下車,馬筱梅公司成笑話

      張蘭又有大動作!打總監三巴掌,一腳踢滾下車,馬筱梅公司成笑話

      悄悄史話
      2026-04-26 16:26:47
      湖南男子買煙炫富,致使一家三口被滅,2歲兒子在遺體邊躺了兩天

      湖南男子買煙炫富,致使一家三口被滅,2歲兒子在遺體邊躺了兩天

      莫地方
      2026-04-24 00:10:03
      沉默15天,穆杰塔巴再發聲,除霍爾木茲伊朗還有王牌,普京或下場

      沉默15天,穆杰塔巴再發聲,除霍爾木茲伊朗還有王牌,普京或下場

      共工之錨
      2026-04-27 00:09:38
      女人愛到極致是脫光,男人愛到極致是窩囊:這才是人生最狠的真相

      女人愛到極致是脫光,男人愛到極致是窩囊:這才是人生最狠的真相

      青蘋果sht
      2026-04-07 05:45:55
      飯后出現 4 種癥狀,警惕胰腺癌!尤其是這類人

      飯后出現 4 種癥狀,警惕胰腺癌!尤其是這類人

      新浪財經
      2026-04-26 19:42:17
      演員毛曉彤凌晨從醫美診所離開引網友熱議,其曬醫院檢測報告回應:作為一個從小愛吃面食的天津人,查出面粉不耐受可怎么辦

      演員毛曉彤凌晨從醫美診所離開引網友熱議,其曬醫院檢測報告回應:作為一個從小愛吃面食的天津人,查出面粉不耐受可怎么辦

      魯中晨報
      2026-04-25 08:56:26
      俄專家警告:中國一旦決定對日開戰,必須一擊斃命,掐斷美軍后路

      俄專家警告:中國一旦決定對日開戰,必須一擊斃命,掐斷美軍后路

      貴州霖霖
      2026-04-25 09:12:36
      22公里極限挑釁,阿利耶夫當眾下套,普京面子被踩在腳下

      22公里極限挑釁,阿利耶夫當眾下套,普京面子被踩在腳下

      老馬拉車莫少裝
      2026-04-26 22:37:17
      老板娘問我她穿絲襪好不好看?我該怎么回答?

      老板娘問我她穿絲襪好不好看?我該怎么回答?

      太急張三瘋
      2026-04-26 13:40:08
      有趣,穆西亞拉賽后拉著奧利塞跟他自拍,奧利塞冷臉豎中指

      有趣,穆西亞拉賽后拉著奧利塞跟他自拍,奧利塞冷臉豎中指

      懂球帝
      2026-04-26 15:47:06
      14歲被送上導演的床,17歲拍全裸寫真,被操控半生,如今怎樣了?

      14歲被送上導演的床,17歲拍全裸寫真,被操控半生,如今怎樣了?

      阿訊說天下
      2026-04-18 11:52:55
      女人要多久才能戒掉睡過的男人?男人別再自作多情了

      女人要多久才能戒掉睡過的男人?男人別再自作多情了

      游戲收藏指南
      2026-04-26 18:58:57
      中國需要這樣的老師!線性代數的神,全世界想學這一課程的人,都是他的學生

      中國需要這樣的老師!線性代數的神,全世界想學這一課程的人,都是他的學生

      爆角追蹤
      2026-04-26 11:57:53
      伊朗動蕩:軍閥割據的前兆出現

      伊朗動蕩:軍閥割據的前兆出現

      高博新視野
      2026-04-26 07:30:11
      攻不了也守不住!中國空軍在西藏上空,被印度空軍足足欺負了40年

      攻不了也守不住!中國空軍在西藏上空,被印度空軍足足欺負了40年

      古事尋蹤記
      2026-04-02 07:28:50
      被賣緬甸女大學生后續:園區同意放人,黑幕曝光,父親覺得不對勁

      被賣緬甸女大學生后續:園區同意放人,黑幕曝光,父親覺得不對勁

      奇思妙想草葉君
      2026-04-26 21:01:46
      2026-04-27 01:56:49
      CSDN incentive-icons
      CSDN
      成就一億技術人
      26482文章數 242273關注度
      往期回顧 全部

      數碼要聞

      蘋果有望在2026年躍升為全球第三大筆記本電腦廠商

      頭條要聞

      特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

      頭條要聞

      特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

      體育要聞

      森林狼3比1掘金:逆境中殺出了多孫穆?!

      娛樂要聞

      僅次《指環王》的美劇,有第二季

      財經要聞

      事關新就業群體,中辦、國辦發文

      科技要聞

      漲價浪潮下,DeepSeek推動AI“價格戰”

      汽車要聞

      預售19.38萬元起 哈弗猛龍PLUS七座版亮相

      態度原創

      教育
      數碼
      本地
      公開課
      軍事航空

      教育要聞

      超燃暴擊!孩子們為啥都樂翻天了?!這所人附系學校揭秘

      數碼要聞

      三星Tab S12系列進入固件測試階段 或配10500mAh大電池

      本地新聞

      云游中國|逛世界風箏都 留學生探秘中國傳統文化

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗總統:不會在壓力、威脅下進行談判

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 精品国产美女福到在线不卡| 新源县| 欧美顶级metart裸体自慰| 草草浮力影视CCYYCOM| 无码精品黑人| 91制片厂天美传媒网站进入| 国产丨熟女丨国产熟女??在线| 亚洲国产精彩中文乱码av| 国模小黎自慰gogo人体| 亚洲小视频| 未满十八18禁止免费无码网站| 中文字幕精品久久久久人妻红杏1| 一区二区三区福利午夜| 人妻无码一区二区三区| 精品人妻少妇一区二区三区在线| 1024在线免费观看| 伊人偷拍| 亚洲中文无码永久免| 亚洲精品毛片一区二区三区| 精品无码毛片| 性色av免费观看| AV成人| 国内精品久久人妻无码不卡| 天天躁日日躁狠狠躁欧美| 国产线播放免费人成视频播放| 国产一线二线三线女| 无码人妻精品一区二区三区不卡 | 成人影片在线观看网站18| 亚洲码欧美码一区二区三区| 天天澡日日澡狠狠澡欧美老妇| 在线欧美日韩| 亚洲a成人片在线观看| 精品国内自产拍在线观看视频| 老妇free性videosxx| 国产精品爽爽v在线观看无码| 躁躁躁日日躁| 影音先锋女人aV鲁色资源网站| 亚洲国产成人一区二区| 久久亚洲熟妇熟女| 精选国产av精选一区二区三区| 亚洲中文字幕在线一区二区三区|