![]()
新智元報道
編輯:好困 犀牛
【新智元導讀】跑分最高未必能贏,但最懂Harness的可以。如今,被Hermes、OpenClaw等全球爆火開源Agent項目「欽定」為默認的MiniMax,在OpenRouter上的日均Token消耗已飆到3000億。
昨晚B站,一個老外用四個字炸了彈幕區。
不熟,勿Cue。
![]()
說這話的人是Tommy Eastman,全球最火開源Agent項目Hermes Agent的業務負責人。
首次來中國就被彈幕逼問「你們是不是抄了EvoMap」。
他的回應原話是這樣的:
Hermes Agent的代碼倉庫已經存在一年多了。直到那些推文出現,我才聽說Evo Map。
Nous Research有長期產出前沿研究的記錄,我們是理念驅動的團隊,除了推動開源AI,不會做任何其他事情。
當然,也不會去抄別人的倉庫然后據為己有。
![]()
和Tommy同框的,是MiniMax Agent首席架構師阿島和研發工程師擇因。
爭議三分鐘就翻篇了,但接下來兩個多小時的技術對談,觸及了一個被忽視已久的問題。
當模型能力趨于收斂,AI的下一個競爭維度在哪里?
人類成了瓶頸
現在,阿島的工作方式已經變了。
去年九十月份,他已經不怎么打開IDE了。日常工作狀態是同時并發五六個本地Agent,云端可能還有十個在沙箱里跑。
然后我發現,人類成了瓶頸。
過去幾年,AI行業習慣了誰的模型參數更多、跑分更高的敘事。
但2026年初,OpenClaw一夜爆火,連老黃都在摩根士丹利的論壇上感嘆這可能是有史以來最重要的軟件。
所有人突然意識到,模型再強,不會用工具、不能真正干活,就只是一個聊天機器人。
![]()
一夜之間,行業焦點轉向了Harness。
Harness是Agent的運行框架,包括工具調用編排、記憶管理、Skills系統、沙箱環境等等。
在那篇全網瘋轉的博客「Harness Engineering」中,OpenAI給出了一個清晰的定義——人類掌舵,智能體執行。
![]()
![]()
對此,阿島用高達做了個比喻。
模型是引擎,Harness就是那副機甲。但光有引擎造不出高達,還得有完整的外骨骼才能讓引擎能力最大化。
Claude Code過去兩個月的更新都在龍蝦化。cron定時、連接IM、遠程控制、memory文件夾……我1月初注意到OpenClaw時驚為天人,當時團隊還不認同。后來證明方向是對的。
行業在收斂到同一個方向上。
而阿島自己的感受比這更深一層。
我覺得我就是在被AI蒸餾。工程師構建Harness的過程,就是把自己的工作方式蒸餾成Skill和代碼。
隨后他補充道,「當然,這一切的目的是讓人類去做真正熱愛的事情。就像過去發明蒸汽機、發明電力一樣。」
MiniMax在這波浪潮中動作密集。短短幾周做了三件事,發布業界首個參與自我迭代的模型M2.7,推出全球首個云端沙箱MaxHermes,上線基于OpenClaw架構的云端AI助手MaxClaw。
三者構成了一個閉環。
M2.7從模型層為Harness持續優化底層能力,MaxHermes和MaxClaw從產品層驗證真實場景需求,再反饋回模型訓練。
MiniMax管這叫「Model + Harness」雙向飛輪。
Model × Harness
不卷跑分,卷Token
競爭的維度正在發生根本性轉變。過去比的是模型有多聰明,現在比的是同等Token能產出多少價值。
MiniMax的解法,是讓模型專門為Harness而生。
M2.7是3月18日發布的最新編程模型,也是第一個在訓練過程中深度參與迭代自己的商用大模型。
MiniMax構建了一套內部Agent Harness,讓M2.7作為Agent在其中運行,包含短時記憶、自反饋、自優化三個核心模塊。
這套自我進化體現在三個層次。
1. 模型能基于Harness完成任務,在MiniMax的強化學習團隊已承擔30%-50%的日常工作流。
2. 模型能主動迭代Harness本身,自主運行優化循環超過100輪,評測效果提升30%。
3. 模型還有能力迭代機器學習模型本身的效果,在MLE Lite的22道高難度競賽中取得9金5銀1銅,得牌率66.6%,僅次于Opus-4.6和GPT-5.4。
M2.7的核心優化方向始終瞄準Agent場景,工具調用準確度、復雜Skills遵循、Agent Harness適配。
在40個復雜Skills(每個超過2000 Token)的測試中,M2.7仍能保持97%的Skills遵循率。
![]()
而最先認可這套能力的,是海外開源圈。
從M2.1開始,Hermes的聯合創始人Teknium就在X上多次公開肯定MiniMax模型在工具調用、響應速度與性價比上的表現。
M2.5、M2.7每次發布,Hermes Agent都第一時間接入。而且合作還在層層深入。
如今,MiniMax模型已經是Hermes Agent中使用量最高的模型之一。
Hermes Agent整體日均Token消耗已從20億飆升至近3000億,M2.7在Open Router上日均消耗超過250億Token,占據顯著份額。
![]()
無獨有偶,OpenClaw創始人Peter,也曾連發五條推文公開稱贊MiniMax是最好的開源模型。
他表示,M2.1能以其他模型5%的成本運行OpenClaw,效果完全不輸頂尖閉源模型。
![]()
Notion聯合創始人Akshay Kothari則親自宣布,MiniMax M2.5成為Notion Custom Agents中第一個開源權重模型。
![]()
被稱為「Cursor最強對手」的AI編程工具Kilo Code,也高調宣布MiniMax是默認首選模型。
![]()
Tommy在直播中給了一個判斷,「中國在開源模型方面已經領先了。開源和閉源之間從未有過如此接近的差距。」
在這背后,是一套相互反哺的協作模式。
Hermes社區貢獻了自進化Agent的架構設計和產品理念,MiniMax貢獻了讓這套架構真正運轉的模型能力和工程基礎設施。
Hermes的架構創新為MiniMax的模型優化指明方向,優先級給了工具調用、Skills執行、長上下文一致性這些Agent核心痛點。MiniMax的模型能力提升又拓寬了Hermes架構所能達到的效果邊界。
海外頭部開源項目選MiniMax做默認模型,說明一件事。
模型跑分最高未必能贏,模型最懂Harness才能贏。
養蝦養馬,越養越聰明
模型和Harness的閉環要真正轉起來,還需要產品層的驗證和反饋。
為此,MiniMax同時推了MaxHermes和MaxClaw兩條線,分別對應兩種Agent進化路徑。
MaxHermes基于開源智能體Hermes Agent構建,核心特性是「學習閉環」。
![]()
每完成一項復雜任務,Agent自動從中提煉出可復用的Skills,保存為獨立文檔,下次按需加載并根據反饋持續改進。
加上持久化的跨會話記憶、自然語言定義的定時任務、多個子代理并行運行機制,它是一個能長期運行、持續進化的AI智能體。
在Skills層面,OpenClaw的依賴人工預設與引導,能力在部署那一刻就已固定。
相比之下,MaxHermes的Skills由Agent自主生成、自主迭代,像一個會舉一反三的員工。
![]()
MaxClaw則是基于OpenClaw架構的云端AI助手,解決的痛點更具體,本地部署門檻高、穩定性不夠。上線120小時緊急完成四次擴容,修復了飛書消息無響應等IM問題和進程退出后無法自動恢復等穩定性問題。
功能方面,MaxClaw預置精選專家級Skill,用戶獲得50G云存儲空間。
對原有的圖片理解、視頻理解、網頁提取等Skill做了系統性升級,新增圖片生成、視頻生成等內置工具,全部不產生額外API費用。
安全方面預置「安全診斷Skill」,能自主診斷修復報錯。支持同時部署多個龍蝦,移動端(iOS和安卓)已全球上線。
為了方便大家獲取和使用,MiniMax還上線了Skillhub,精選上百種Skills供探索安裝。最近一次更新他們直接把語音模型和音樂模型也接入了OpenClaw生態,小龍蝦能說話、能唱歌。
![]()
在平臺層面,MiniMax Agent則推出了Expert 2.0。用戶用自然語言描述任務目標,Agent自動完成SOP梳理和能力配置,不需要懂Skill、SubAgent、MCP這些概念。上線以來已有1.6萬+專家Agent被創建和使用。
值得一提的是,MiniMax自己也在吃自己的狗糧。
據阿島透露,公司內部有一個數字員工,擁有獨立的GitHub賬號,每天自動掃描開源項目,發現能用到MiniMax模型的就自己去提PR。
用Agent來推廣Agent背后的模型,而海外開源社區的反饋證明,這招確實管用。
這些產品每天產生的真實場景需求,又反過來驅動M2.7在工具調用、Skills遵循等維度上的持續優化。飛輪就是這么轉起來的。
但光有模型和產品的互補還不夠。要讓這套閉環在云端大規模跑起來,還卡在一個更底層的環節。
最容易卡住的就是沙箱
Agent在云端大規模運行,模型推理只是第一步。更難的是給每個Agent一個安全、隔離、可彈性伸縮的執行環境。
在阿島看來,「最有可能卡住的就是沙箱環節。如果迭代速度慢了,競爭力就會受到影響。」
其中底層Infra(身份認證、支付、沙箱等)創業公司很難做,需要和大廠深度合作。就像移動互聯網時代,支付基礎設施最終由微信和支付寶解決。
MiniMax的做法,是訓練側和部署側分別找了兩家頭部云廠商。
訓練側,MiniMax與騰訊云深度合作,基于騰訊云Agent Runtime沙箱搭建Forge強化學習框架的基礎設施。
Forge進行大規模強化學習訓練時,需要模擬海量并發交互環境,讓Agent在真實、可交互的執行環境中探索和試錯。騰訊云提供80ms極速啟動、每分鐘60萬沙箱實例、成功率99.99%的并發能力,支撐M2.7的自主進化訓練。
部署側,MaxClaw和MaxHermes的云端架構基于阿里云ACK/ACS構建。
MiniMax采用控制平面與執行平面分離的模式,阿里云ACK承載統一控制面,ACS Agent Sandbox提供20-40ms極速實例供給,支持每分鐘15000個沙箱的彈性擴縮,任務按需創建、結束自動釋放。
騰訊云負責訓練,阿里云負責部署。
兩大云廠商同時首選MiniMax作為核心合作伙伴,本身就是對其技術實力和Agent產品規模的雙重背書。
Token的含金量變了
過去幾年大家在比參數、比上下文、比跑分。現在比的是另一件事,同等Token能產出多少價值。
MiniMax CEO閆俊杰在3月的業績電話會上提了一個公式——
AI平臺價值 = 智能密度 × Token吞吐量。
MiniMax的解未必是唯一答案,但它踩中了一個正在被驗證的邏輯,模型為Harness而生,Harness反哺模型進化。
當兩家頭部云廠商同時為它修路、四個海外頭部開源項目同時選它做默認模型的時候,這個邏輯至少在當下是跑通了的。
接下來的問題只剩一個,M3什么時候來。
對此,MiniMax已經透露了幾個關鍵方向:
更大更智能,尤其在coding和通用辦公場景;
原生多模態,支持視頻和圖像輸入;
價格親民,目標讓每個人都負擔得起7×24小時的Agent。
總之,時間不會太遠了。
參考資料:
https://www.bilibili.com/video/BV155djB5ETY
https://www.minimaxi.com/news/minimax-m27-zh
https://agent.minimax.io/max-claw
https://agent.minimax.io/
https://github.com/nousresearch/hermes-agent
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.