<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      35 天,從 M2.5 到 M2.7,模型訓了下一個自己

      0
      分享至


      作者 | 董道力
      郵箱 | dongdaoli@pingwest.com

      M2.5 到 M2.7 的迭代速度,不正常。

      大模型行業有一個默認節奏:一個主力版本發布后,團隊消化反饋、調整訓練方向、重新跑評測,準備周期通常以季度計。Anthropic 從 Claude 3.5 到 Claude 3.7 用了半年,Google 從 Gemini 2.0 到 2.5 用了三個月。

      MiniMax M2.5 是 2 月 12 日發布的。3 月 19 日,M2.7 來了,僅僅 35 天。

      這個速度在任何一家頭部模型公司都不正常。但更不正常的是:這 35 天里,參與迭代的不只是人。

      1

      自己用到"抓狂",才會做出別人沒想到的東西

      理解 M2.7 之前,先要理解 MiniMax 為什么會走到這一步。

      M 系列的起點,是 MiniMax 自己被模型用到抓狂。內部各團隊一直在搭各種 Agent 解決業務問題,但沒有一款模型能同時滿足效果、價格、速度,這逼著 MiniMax 自己去造那個模型。

      所以 M 系列從一開始就不是為了刷榜。M2 把價格打到 Claude 主力模型的 8%。M2.5 推出 Forge 框架,把 Agent 能力和模型基礎能力解耦。

      每一代都在填自己踩過的坑。

      到 M2.7,MiniMax 踩到了一個新坑:AI 研發本身的效率問題。

      用 AI 迭代 AI,是整個行業正在收斂的前沿方向。但"想到"和"跑通"之間,隔著一個關鍵問題:Agent Harness。Harness 是執行層,決定模型怎么調用工具、管理上下文、處理失敗和回退。傳統架構里,模型負責"想",Harness 負責"做",兩者解耦。當用 AI 搭建 Agent 的速度越來越快,真正的瓶頸就暴露出來了:Harness 本身的質量,直接決定模型能力能釋放多少。

      MiniMax 因此有了最強的動力去解決它,也由此走到了讓模型直接改造 Harness、參與下一代迭代的路上。

      內部有一個說法:"我們團隊最高產的成員,就是模型本身。"

      M2.7 是這條路走到今天的結果。

      1

      自我進化是怎么運作的:三個層次

      M2.7 的自迭代能力是三個層次遞進的閉環。

      第一層,獨立接手生產問題。

      以內部 RL 實驗場景為例:研究員從一個實驗想法出發,M2.7 自動監控狀態、讀取日志、排查問題、修復代碼、提交 PR、完成冒煙測試。過去需要多位同事協作的工作,研究員只在關鍵決策節點介入,M2.7 承擔了整個工作流的 30-50%。

      這還只是第一層:它能在真實環境里端到端完成任務。

      第二層,它開始能改造自己運行的環境。

      讓 M2.7 去優化內部 Harness 上的軟件工程表現。它全程自主運行,執行"分析失敗軌跡→規劃改動→修改 Harness 代碼→運行評測→對比結果→決定保留或回退"的迭代循環,超過 100 輪,最終評測集效果提升 30%。

      M2.7 能改造自己運行的 Harness,意味著推理能力可以反哺執行環境。這個飛輪一旦轉起來,迭代速度就不再只取決于人的工作效率。


      第三層,它開始能自主迭代 ML 模型效果。

      MLE-Bench Lite 22 道高難度題,M2.7 拿到 9 金 5 銀 1 銅,得牌率 66.6%,僅次于 Opus-4.6 和 GPT-5.4。

      成績背后的方法更值得關注:每輪結束后自動生成短時記憶文件,對當前結果做自反饋,下一輪基于所有歷史輪次的記憶和反饋鏈規劃優化方向。這套循環不是被提前設計好的,是它自己跑出來的。

      數據印證了這件事。

      M2.7 的 benchmark 漲幅有一個規律:Coding 相關榜單,普遍只漲 1-2 分,屬于正常迭代推進。但 MLE-Bench Lite 從 51.5 跳到 66.6,GDPval-AA 從 35 跳到 50,兩個榜單各提升 15 分,和其他榜單完全不在一個量級。

      這兩個恰好是與自迭代能力最相關的榜單。一個直接測 AI 能否自主迭代 ML 模型,一個測 44 種真實職業場景的工作產出質量。

      提升最大的地方,正是模型自己參與最深的地方。


      第三方數據也在印證。M2.7 發布后迅速攀升至 PinchBench 榜首,在最高分榜單中排名第四,擊敗 Nemotron 3。PinchBench 是專測模型驅動 OpenClaw Agent 時的真實表現:安排會議、寫代碼、分類郵件、管理文件。

      能在這里進前四,說明 M2.7 的提升不是某個方向的偏科。


      1

      數字員工能干什么:自迭代訓練之后

      MiniMax 給 M2.7 的定位是"數字員工"。這次有了可量化的含義:不只是寫代碼,而是能在真實職場環境里處理跨領域復合任務。

      能做到這些,是因為讓模型自己改造 Harness、自己跑優化循環,鍛煉出來的不只是"自我迭代"本身,而是一套可以遷移到任何復雜任務里的工作能力。

      我們測試了三個典型職場場景。

      現場排障:不只是寫代碼,還能讀懂生產環境

      我們假定一個虛擬場景,我們是一個電商平臺,技術棧是 React 前端 + Node.js BFF + Java 后端 + MySQL。今天下午 3 點開始,用戶反饋"商品詳情頁加載很慢,有時候直接白屏"。以下是同一時間段各層的日志,幫我定位根因。

      我們將所有日志丟給 M2.7 后,讓他定位處理問題。

      [14:58:32] ERROR ChunkLoadError: Loading chunk 23 failed

      [14:58:33] ERROR ChunkLoadError: Loading chunk 23 failed

      [14:58:41] WARN LCP 8200ms (threshold: 2500ms)

      [14:59:01] ERROR TypeError: Cannot read properties of undefined (reading 'price')

      [14:59:01] ERROR at ProductDetail.render (ProductDetail.jsx:142)

      [14:59:15] WARN LCP 9800ms (threshold: 2500ms)

      [15:00:03] ERROR TypeError: Cannot read properties of undefined (reading 'price')

      [14:58:31] INFO GET /api/product/detail?id=839201 - start

      [14:58:31] INFO upstream: calling product-service /product/839201

      [14:59:04] WARN upstream: product-service response 33412ms (timeout threshold: 30000ms)

      [14:59:04] ERROR upstream timeout - returning empty payload to client

      [14:59:04] INFO GET /api/product/detail?id=839201 - 504 - 33415ms

      [14:58:44] INFO GET /api/product/detail?id=720155 - start

      [14:58:44] INFO upstream: calling product-service /product/720155

      [14:59:17] WARN upstream: product-service response 33201ms

      [14:59:17] ERROR upstream timeout - returning empty payload to client

      [14:59:17] INFO GET /api/product/detail?id=720155 - 504 - 33204ms

      [14:58:31] INFO ProductController - getProduct(839201) start

      [14:58:31] INFO ProductRepository - executing query:

      SELECT p.*, r.avg_score, r.review_count

      FROM products p

      LEFT JOIN reviews r ON p.id = r.product_id

      WHERE p.id = 839201

      [14:59:03] WARN ProductRepository - slow query detected: 32871ms

      [14:59:03] INFO ProductController - getProduct(839201) complete

      [14:58:31] INFO [DB-POOL] active connections: 18/20

      [14:58:45] WARN [DB-POOL] active connections: 20/20 - pool saturated

      [14:59:01] WARN [DB-POOL] connection wait queue: 7 requests pending

      [14:59:17] WARN [DB-POOL] connection wait queue: 12 requests pending

      Time: 2026-03-19T14:58:31

      Query_time: 32.871 Lock_time: 0.000 Rows_sent: 1 Rows_examined: 2847293

      SELECT p.*, r.avg_score, r.review_count

      FROM products p

      LEFT JOIN reviews r ON p.id = r.product_id

      WHERE p.id = 839201;

      : 2026-03-19T14:58:44

      _time: 33.201 Lock_time: 0.000 Rows_sent: 1 Rows_examined: 2847293

      SELECT p.*, r.avg_score, r.review_count

      FROM products p

      LEFT JOIN reviews r ON p.id = r.product_id

      WHERE p.id = 720155;

      M2.7 沒有被前端日志帶跑。ChunkLoadError、LCP 超標、TypeError,它直接穿透這些表象,落在數據庫層:reviews.product_id 缺索引,284 萬行全表掃描,單次查詢耗時 32 秒。往上的連接池耗盡、BFF 504、前端報錯,是這一個問題的連鎖反應。證據鏈逐層標注,每層日志單獨引用,沒有跳步。




      但修復方案還是比較書本的“標準答案”。它建議直接 CREATE INDEX,沒有提在 284 萬行生產表上這條命令會鎖表,也沒有給出先剝離 reviews 數據讓頁面先能加載的止血思路。

      隨后我們加一句話,就像程序員教實習生那樣。

      promtps:有個問題,思考一下,這張表現在有多少行,高峰期 QPS 大概多少?

      M2.7 從慢查詢日志里推算出規模和請求速率,然后自己說出來:高風險操作,不建議直接執行,鎖表時間 1 到 60 分鐘不等,建議改用 pt-online-schema-change。

      知道要加索引,并在被追問后識別出生產環境加索引本身就是一個新風險——這個反思動作,是數字員工和代碼生成工具之間最實質的差距。


      復雜 Office:處理 716 頁英語招股書

      職場里不是所有工作都在寫代碼。處理 716 頁招股書和跑 Harness 迭代循環,依賴的是同一種能力:在長上下文里定位關鍵信息,不丟失任務主線。

      閱讀英文 PDF 是職場里很常見的麻煩。PDF 沒法網頁一鍵翻譯,劃詞翻譯容易選錯行,圖表里的數字根本沒法復制。我們把 716 頁的 MiniMax 英文招股書丟給 M2.7,三個需求:提取財務數據整理成 Excel、建收入預測模型、寫一份面向港股散戶的 500 字投資者摘要,中文指令,英文輸出。

      promtps: 1、從招股書中提取以下數據,整理成 Excel 表格,按年度排列:總收入、毛利率、研發支出、凈虧損、經調整凈虧損(非 IFRS)、經營現金流。時間跨度覆蓋 2022、2023、2024 年度及 2025 年前三季度。 2、基于以上數據,幫我建一個簡單的收入預測模型,預測 2025 年全年收入。假設 Q4 收入環比 Q3 持平,給出兩個情景:樂觀(維持 Q3 增速)和保守(增速降一半)。 3、基于以上財務數據,用 Word 寫一份 500 字的投資者摘要,受眾是不熟悉 AI 行業的港股散戶投資者,重點說清楚:這家公司現在靠什么賺錢、為什么一直虧損、什么時候可能扭虧。注意:結果用英語輸出

      六項核心財務指標逐一從正文和附件會計師報告中定位,數字與招股書 Appendix I 原文比對無誤差。Non-IFRS、adjusted net loss、cash flows from operating activities,專業術語處理準確。預測模型搭了兩個情景,Word 文檔帶頁眉頁腳和數據表格,交出來的是可以直接給人看的格式。




      當然,初稿不是終稿。M2.7 在部分公式邏輯和敘述框架,還需要使用者在基礎上調整,這和收到一份分析師初稿沒有區別,但從上傳文檔到拿到這份初稿,只花了幾分鐘。

      換一個人來做,翻完這 716 頁,光是找對頁碼就要半個小時。

      用 skill 培養 M2.7,和培養新人一樣

      一個真正的數字員工,不能只在干凈環境里好用。Skill 庫越大越穩,和 Harness 改造里"迭代 100 輪不跑偏"是一回事,復雜約束環境下的指令保持。這不是單獨優化出來的,是自迭代訓練的直接溢出。

      50+ Skills、60-150 個 feature list 堆上去,大多數 Agent 的遵從能力就開始退化。M2.7 在這里做了專項優化:工具庫越大,它越要穩,技能調用不亂、指令不丟、幾十步的長流程也能跑完。


      我們還是以大家最熟悉的前端開發為例。一句話生成網頁的確很酷,但在真實工作場景里,"能跑"和"能交付"完全不同:字體是 AI 最愛的 Inter、配色是紫藍漸變、圖片是灰色占位塊、文案是 Lorem ipsum,每一項都在告訴人這是 AI 做的。

      Frontend Studio 這個 Skill 做的事,就是用復雜的程序將網頁設計規范化。設計系統約束 AI 的審美邊界,動效引擎按場景分配工具庫,內置 Python 腳本直接調 MiniMax API 生成真實素材,營銷文案框架保證內容有說服力,最后過一道質量檢測再交付。

      核心邏輯只有一句話:用復雜的約束換質量

      M2.7 在這個 Skill 里的價值,在于它能穩定走完這條流水線,設計、動效、素材、文案、構建、檢查,六個階段,每一步的規則都不少,指令不丟、技能不亂。把"用 AI 搭一個好看的頁面"這件事,從看運氣變成可重復的工程流程。


      1

      最高產的成員

      MiniMax 說過:"我們團隊最高產的成員,就是模型本身。"

      M2.5 時代,這句話的潛臺詞是:我們把模型用得比別人更狠。M2.7 之后,這句話的含義變了:模型不只是被用的那個,它是參與決策的那個。100 輪 Harness 迭代,它自己跑的;MLE-Bench 的自反饋循環,它自己設計的;下一代模型的部分訓練方向,它參與了。

      這就是為什么 35 天能做到。不是因為人更多、更努力,而是因為團隊里有一個成員不需要休息、不需要對齊會議、可以在晚上自己把評測跑完再給人看結論。迭代快,是數字生產力真正介入研發之后的自然結果。

      從"MiniMax 給自己造了一個模型",到"模型給下一代模型做了研發",這一步的本質是:AI 研發的速度上限,開始由模型自己的能力決定,而不只是工程師的數量。


      點個愛心,再走 吧

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      普通人接觸富人的生活有多震撼?網友:吸引力法則讓我刷到你!

      普通人接觸富人的生活有多震撼?網友:吸引力法則讓我刷到你!

      解讀熱點事件
      2026-03-22 00:05:09
      廣東3消息!杜鋒離隊參加活動,陳老板態度曝光,徐昕回歸沒戲

      廣東3消息!杜鋒離隊參加活動,陳老板態度曝光,徐昕回歸沒戲

      多特體育說
      2026-03-21 23:47:41
      堪稱南北朝版呂不韋,權傾朝野的和士開,如何被一14歲權臣搞死?

      堪稱南北朝版呂不韋,權傾朝野的和士開,如何被一14歲權臣搞死?

      棠棣說史
      2026-03-21 07:20:03
      國足新名單引發爭議,邵佳一棄用4大實力悍將很不明智,自廢武功

      國足新名單引發爭議,邵佳一棄用4大實力悍將很不明智,自廢武功

      零度眼看球
      2026-03-22 07:50:59
      12天票房破12億,力壓《鏢人》輕松奪冠,吳京的全球冠軍夢要碎了

      12天票房破12億,力壓《鏢人》輕松奪冠,吳京的全球冠軍夢要碎了

      影視高原說
      2026-03-20 06:57:54
      特朗普推遲訪華后,中方在北京會見另一位美國客人,信號不簡單!

      特朗普推遲訪華后,中方在北京會見另一位美國客人,信號不簡單!

      知法而形
      2026-03-21 10:15:59
      全網炸鍋!樂華一紙聲明,竟讓百萬網友齊呼:解氣!

      全網炸鍋!樂華一紙聲明,竟讓百萬網友齊呼:解氣!

      阿廢冷眼觀察所
      2026-03-22 08:52:55
      扎心!官方發布:醫學碩士就業率跌破40%

      扎心!官方發布:醫學碩士就業率跌破40%

      醫脈圈
      2026-03-20 12:09:22
      1612場!41歲詹姆斯超越帕里什,加冕NBA歷史出場王!

      1612場!41歲詹姆斯超越帕里什,加冕NBA歷史出場王!

      仰臥撐FTUer
      2026-03-22 08:10:08
      68歲馬秋華:丈夫金鐵霖逝世4年,兒子未成家成最大牽掛

      68歲馬秋華:丈夫金鐵霖逝世4年,兒子未成家成最大牽掛

      楓塵余往逝
      2026-03-21 07:18:35
      官宣!WNBA與工會達成新勞資協議:未來7年球員薪資福利超10億

      官宣!WNBA與工會達成新勞資協議:未來7年球員薪資福利超10億

      越嶺尋蹤
      2026-03-21 06:57:17
      伊朗總統:美以停止侵略才能結束戰爭

      伊朗總統:美以停止侵略才能結束戰爭

      澎湃新聞
      2026-03-22 09:02:08
      特朗普將副總統“政治流放”,萬斯此刻的處境堪稱屈辱

      特朗普將副總統“政治流放”,萬斯此刻的處境堪稱屈辱

      生活魔術專家
      2026-03-21 15:48:21
      莫斯科扛住72小時猛攻!誰也沒料到!俄軍直接斬掉:法國軍官窩點

      莫斯科扛住72小時猛攻!誰也沒料到!俄軍直接斬掉:法國軍官窩點

      趣文說娛
      2026-03-21 16:31:52
      突發!伊朗導彈襲擊美英印度洋基地,距伊本土大約3800公里!此前英國允許美軍使用其軍事基地實施打擊,伊朗回應:將行使自衛權

      突發!伊朗導彈襲擊美英印度洋基地,距伊本土大約3800公里!此前英國允許美軍使用其軍事基地實施打擊,伊朗回應:將行使自衛權

      每日經濟新聞
      2026-03-21 09:58:04
      重慶銅梁龍3-3成都蓉城原因,劉建業賽后點評一針見血

      重慶銅梁龍3-3成都蓉城原因,劉建業賽后點評一針見血

      曉隯就是我
      2026-03-22 02:24:52
      美軍A-10“疣豬”攻擊機在霍爾木茲海峽獵殺伊朗快速攻擊艇

      美軍A-10“疣豬”攻擊機在霍爾木茲海峽獵殺伊朗快速攻擊艇

      假如明天來臨
      2026-03-20 13:26:15
      出場數已達標!不出意外,以杜蘭特本賽季的表現保底最佳三陣!

      出場數已達標!不出意外,以杜蘭特本賽季的表現保底最佳三陣!

      田先生籃球
      2026-03-21 13:03:30
      0-3!英超2強一夜全敗:切爾西4輪3負掉隊,曼聯后7輪4勝=進歐冠

      0-3!英超2強一夜全敗:切爾西4輪3負掉隊,曼聯后7輪4勝=進歐冠

      體育知多少
      2026-03-22 06:42:34
      朱德罕見發怒痛斥彭德懷:這樣搞,你對得起那些跟你出生入死的老兄弟嗎

      朱德罕見發怒痛斥彭德懷:這樣搞,你對得起那些跟你出生入死的老兄弟嗎

      文史明鑒
      2026-03-14 17:33:24
      2026-03-22 09:31:00
      硅星人 incentive-icons
      硅星人
      硅(Si)是創造未來的基礎,歡迎來到這個星球。
      2946文章數 10470關注度
      往期回顧 全部

      科技要聞

      庫克在華這四天,一場既定的市場秀

      頭條要聞

      男子在壺口瀑布外拍視頻喊"門口要錢"被投訴 景區回應

      頭條要聞

      男子在壺口瀑布外拍視頻喊"門口要錢"被投訴 景區回應

      體育要聞

      誰在決定字母哥未來?

      娛樂要聞

      田栩寧終于涼了?出軌風波影響惡劣

      財經要聞

      通脹警報拉響,加息潮要來了?

      汽車要聞

      小鵬汽車2025年Q4盈利凈賺3.8億 全年營收767億

      態度原創

      教育
      本地
      藝術
      游戲
      公開課

      教育要聞

      校長講好五類故事,凝聚辦學人心

      本地新聞

      春色滿城關不住|紹興春日頂流,這片櫻花海藏不住了

      藝術要聞

      你的母校在嗎?毛主席親筆題名的 20 所大學合集

      全球先鋒賽:爆大冷,Chovy又倒了!G2零封GEN,挺進決賽

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版