1美元時薪？這才是打工人的「夢中情模」

2026-02-13 15:28:39　來源: 機器之心Pro

河北舉報

分享至

編輯｜張倩、Panda

Anthropic 的 Opus 4.6 剛發(fā)布，智商確實高到讓人頭皮發(fā)麻，但看著那個價格表，我的錢包也開始發(fā)麻了。

這就很尷尬了。Opus 4.6 的出現(xiàn)，直接在開發(fā)者圈子里制造了一場「智力焦慮」：模型好用是真好用，貴也是真貴。原版價格紋絲不動就算了，那個號稱「極速版」的家伙，每百萬輸出 Token 的成本居然從 25 美元直接飆到了 150 美元。

整整 6 倍的漲幅！看著 Token 計費表像風(fēng)一樣自由地狂奔，本來想用 AI 釋放生產(chǎn)力的我，現(xiàn)在按回車鍵之前都得先在心里過一遍賬單。這哪里是請了個助手，簡直是供了個「吞金獸」。

這種「生產(chǎn)力稅」的存在，逼得打工人不得不進(jìn)入一種尷尬的模式：一邊渴望頂級智力帶來的效率，一邊在按回車鍵時反復(fù)權(quán)衡賬單。難道高智力和高性價比，真的像魚和熊掌一樣不可兼得？難道我們這些普通打工人，就不配擁有「智力自由」？

就在大家捂著錢包嘆氣的時候，MiniMax 反手甩出了一個王炸：MiniMax M2.5

這個模型相當(dāng)能打，無論是 coding 還是 agent 能力，都能與 Claude Opus 4.6 掰掰手腕，甚至在某些維度上掰贏了。

數(shù)據(jù)不會說謊：M2.5 在多語言任務(wù) Multi-SWE-Bench 上拿下了行業(yè)第一；而在 SWE-Bench Verified 評測集上，基于 Droid 和 OpenCode 的實戰(zhàn)測試中，它的通過率（79.7% / 76.1%）更是雙雙反超了 Opus 4.6。

在 BrowseComp、Wide Search 等搜索和工具調(diào)用榜單的評測中，M2.5 也達(dá)到了行業(yè)頂尖的水平。

更具沖擊力的是它在 MiniMax 內(nèi)部的真實表現(xiàn)：在 MiniMax 內(nèi)部業(yè)務(wù)場景中，整體任務(wù)的 30% 由 M2.5 自主完成；而在編程場景中，M2.5 生成的代碼已占新提交代碼的 80%。

它不僅 Coding 和 Agent 能力硬剛 Claude Opus 4.6 不落下風(fēng)，在專業(yè)的辦公領(lǐng)域更是「偷偷補過課」。為了讓模型真正懂行，MiniMax 拉來了金融、法律、社會科學(xué)等領(lǐng)域的資深從業(yè)者當(dāng)「教官」，把行業(yè)隱性知識灌進(jìn)模型。

在內(nèi)部嚴(yán)苛的 Cowork Agent 評測（GDPval-MM）中，M2.5 在 Word 排版、Excel 金融建模等高階場景下，對主流模型拿下了 59.0% 的平均勝率。這意味著它交付的不再是簡單的草稿，而是具備專業(yè)水準(zhǔn)的「半成品」。

但最離譜的是，這樣一個全能選手，居然參數(shù)量只有 10B，是第一梯隊中參數(shù)規(guī)模最小的旗艦?zāi)Ｐ停恍枰嘿F的設(shè)備就能私有化部署。

好家伙，這哪是輔助駕駛啊，這分明是搶方向盤來了！

MiniMax M2.5 表現(xiàn)卓越，也為這家剛上市一個多月的公司的股價帶來了一波強勁上漲：

1 美元時薪的頂級打工人

這么小的體積，再加上「思考」鏈路的深度優(yōu)化，M2.5 的吞吐量可以達(dá)到 100 TPS，推理速度可以達(dá)到 Opus 4.6 的 2 倍。在 SWE-Bench Verified 測試中，M2.5 的端到端任務(wù)運行耗時從平均 31.3 分鐘減少到了 22.8 分鐘，這一速度與 Claude Opus 4.6 基本持平。

在需要即時反饋的場景里，這種「跟手」的感覺簡直太爽了。更爽的是，你完全不需要有「每按一次回車就少喝一杯奶茶」的心理負(fù)擔(dān)。來看看這個顛覆性的定價：

在每秒輸出 100 個 token 的情況下，連續(xù)工作一小時只需要 1 美元，而在每秒輸出 50 個 token 的情況下，只需要 0.3 美元。

1 美元就能雇傭一個頂級專家給你干一小時苦力！換算一下，1 萬美金可以讓 4 個 Agent 連續(xù)工作一年

這就很有意思了。以前我們不敢跑復(fù)雜 Agent，是因為怕跑著跑著就破產(chǎn)了；現(xiàn)在有了 M2.5，我們終于實現(xiàn)了 Agent 自由；讓 AI 24 小時持續(xù)上工，也不再是有余糧的地主家才能有的奢侈。

目前，M2.5 的 Vibe Coding 支持 PC 端、App 端、RN/Flutter 跨端甚至帶數(shù)據(jù)庫的前后端全棧開發(fā)，用起來非常方便，普通打工人可以隨時上手。

為了驗證這個「10B 戰(zhàn)神」是不是真的能在性能比肩旗艦的同時，把生產(chǎn)力成本打下來，我們準(zhǔn)備了幾個真實的使用 Case。下面直接進(jìn)入實測。

一手實測

MiniMax M2.5 真能成為打工人的得力助手嗎？

作為苦逼的媒體人，我們最怕的就是在那堆長達(dá)幾小時的圓桌論壇速記里「淘金」。大佬們聊嗨了往往也是車轱轆話來回說，我們要想提煉點干貨，眼睛都得看瞎。

這種臟活累活，我是不敢交給 Opus 的，太貴。但現(xiàn)在既然 M2.5 這么便宜，那就不客氣了。

我們決定搞個破壞性測試：直接把一堆巨大的 HTML 格式的速記文件「喂」給它，讓它不僅要提煉觀點，還要分析趨勢、找分歧，甚至還要做橫向?qū)Ρ取?/p>

你是一個專業(yè)的行業(yè)圓桌論壇速讀分析師。我會逐個上傳論壇速記 / 紀(jì)要文件，你的任務(wù)是：1）提取核心觀點，用 bullet points 列出每位發(fā)言人的關(guān)鍵論斷和論據(jù)；2）識別趨勢信號（正在形成共識的方向）和分歧點（存在爭議的立場或預(yù)測）；3）標(biāo)注任何提及的具體數(shù)據(jù)、產(chǎn)品名或時間節(jié)點。每處理完一篇，輸出一份結(jié)構(gòu)化摘要。待我告知 "全部結(jié)束" 后，綜合所有文件，輸出一份總覽：橫向?qū)Ρ雀鲌稣搲闹貜?fù)主題與獨特視角，提煉出 3-5 條跨論壇的強趨勢，以及 2-3 個值得持續(xù)觀察的核心分歧。保持簡潔，避免泛化總結(jié)，優(yōu)先引用發(fā)言人原話或具體案例。

MiniMax M2.5 接到任務(wù)后，絲毫沒有「消化不良」。面對超大文件，它甚至自作主張地啟動了多個 Agent 并行開工（頗有一種「兄弟們一起上」的既視感）：

15 分鐘后，幾十萬 Token 跑完，一份高質(zhì)量報告出爐：

搞定了閱讀，再來試試寫代碼。

作為小編，我們每天都要跟排版做斗爭。雖然我們的排版規(guī)則不復(fù)雜（正文 15px、特定顏色加粗、版權(quán)信息居中……），但每次手動調(diào)也很煩。

既然官方宣稱 M2.5 具備「架構(gòu)師思維」，能原生 Spec 行為。也就是說，不同于普通模型上來就盲目堆代碼，M2.5 在動手前會先像資深架構(gòu)師一樣做規(guī)劃，主動拆解功能、結(jié)構(gòu)和 UI。無論是 Rust、C++ 還是 Python，從 0-1 的系統(tǒng)設(shè)計到最后的 Code Review，它都能像老手一樣 Hold 住全場。那我們就讓它手搓一個「微信公眾號 Markdown 編輯器」。

需求很簡單：復(fù)制進(jìn)來 →自動格式化 → 支持微調(diào) → 一鍵復(fù)制帶樣式。

第一步，為了防止它「聽不懂人話」，我們先讓它把我的需求翻譯成更專業(yè)的提示詞。

可以看到，MiniMax M2.5 大體上正確地理解了我們的需求，但在版權(quán)信息處出現(xiàn)了一點幻覺，輕松修改后，我們只需一句提示詞就能實現(xiàn)它：「讀取微信公眾號 Markdown 編輯器開發(fā)提示詞.md 文件并實現(xiàn)它」。

生成時長 2 分半，接杯水的功夫，M2.5 輕輕松松就實現(xiàn)了這個實用小工具。找篇文章試試效果：

仔細(xì)檢查了一下，我們給出的需求都得到了滿足。

作為一家專業(yè)的 AI 媒體，日常收集 AI 社區(qū)名人觀點的素材也是工作的一部分，但問題是有時候只顧著收集，并沒有真正將這些素材用起來，它們都沉睡在我們的資料庫中。借助 MiniMax M2.5 + Claude Code，我們可以輕松地挖掘我們的知識倉庫，真正利用起塵封的知識。

首先，打開我們的選題庫，發(fā)現(xiàn)早期的文件和最近的文件命名格式不統(tǒng)一，而 M2.5 可以輕松解決這個問題，就一句話的事兒：

接下來，M2.5 還可以為我們將這些 docx 文檔轉(zhuǎn)換成兼容 Obsidian 的 Markdown 格式。這里我們可以引入 Obsidian 創(chuàng)始人 Steph Ango 親自開源的 obsidian-skills，給 M2.5 一個參考手冊。我們的提示詞也很簡單：

基于 Skills，將文件夾中的所有文件都轉(zhuǎn)換成符合 Obsidian 規(guī)范的 Markdown 文件。

接下來我們可以將轉(zhuǎn)換好的文件放入一個 Obsidian 倉庫來進(jìn)行管理，而 MiniMax M2.5 也可以跟隨我們一起。比如這里，我們可以讓 M2.5 提取選題中所有與 Andrej Karpathy 和吳恩達(dá)相關(guān)的選題：

可以看到，M2.5 找到了 5 個與 Andrej Karpathy 相關(guān)的選題，找到了 14 個與吳恩達(dá)相關(guān)的選題，并對選題進(jìn)行了總結(jié)同時還標(biāo)記了出處，而得益于 M2.5 10B 的輕量級參數(shù)規(guī)模，整個過程耗時不到 1 分鐘。

最后，我們還讓 M2.5 基于我們的選題文檔總結(jié)了近幾個月 AI 領(lǐng)域的發(fā)展趨勢，大家可以看看總結(jié)得是否正確：

M2.5 背后

108 天極速進(jìn)化的秘密

在前面的測評中，M2.5 已經(jīng)表現(xiàn)出明顯不同于普通模型的智能體能力。但比單次測評成績更令人細(xì)思極恐的，是 MiniMax 展現(xiàn)出的「進(jìn)化速度」。

在過去短短 108 天里，MiniMax 陸續(xù)更新了 M2、M2.1 和 M2.5 三個版本！

這讓 M2 系列模型在編程領(lǐng)域最具代表性的 SWE-Bench Verified 榜單上，相比 Claude、GPT 和 Gemini 等頂級模型系列，保持了行業(yè)最快的進(jìn)步速度 —— 這從上圖折線的斜率也能看出。

這種超越預(yù)期的迭代效率不是憑空出現(xiàn)的，也不是單純靠堆算力堆出來的。要理解它為什么能跑得這么快，就得看一眼它背后的訓(xùn)練體系：原生 Agent RL 框架 Forge

智能體訓(xùn)練的第一道坎，在于「語言模型」和「任務(wù)執(zhí)行者」這兩個身份之間的鴻溝。大模型原生是自回歸 Token 預(yù)測器，它可以模擬很多形式，但并不是為持續(xù)交互和工具調(diào)用而生。為了解決這一問題，MiniMax 引入了 Forge 原生 Agent RL 框架。

Forge 在設(shè)計上通過引入中間層完全解耦了底層訓(xùn)推引擎與 Agent，把「模型只負(fù)責(zé)處理 Token」這件事做到了極致。模型訓(xùn)練和推理看到的都是同一種 Token 形態(tài)，不去理解什么工具調(diào)用、環(huán)境狀態(tài)這些復(fù)雜結(jié)構(gòu)。而 Agent 那一側(cè)則通過標(biāo)準(zhǔn)的 OpenAI 接口和模型通信，專心處理環(huán)境交互和上下文管理。

這種徹底解耦的好處是：模型能力不會被綁定在某一個具體 Agent 產(chǎn)品上，它可以接入不同的工具體系和腳手架，實現(xiàn)更強的泛化。

更大的難題是長鏈路下的信用分配（Credit Assignment）。任務(wù)執(zhí)行幾十步后才知道結(jié)果，模型很難回溯究竟是哪一步導(dǎo)致了失敗。MiniMax M2.5 引入了過程獎勵機制（Process Reward），對生成質(zhì)量進(jìn)行全鏈路監(jiān)控，而不僅看最終成敗。同時，為對齊真實用戶體驗，他們將任務(wù)完成耗時也納入獎勵函數(shù)。這套獎勵設(shè)計讓模型在智能度與響應(yīng)速度之間實現(xiàn)了可量化的最優(yōu)權(quán)衡。

這些算法創(chuàng)新要真正跑起來，還得過工程這一關(guān)。智能體數(shù)據(jù)天然有大量公共前綴，如果每條樣本獨立訓(xùn)練，同一段系統(tǒng)提示要反復(fù)計算數(shù)十遍。M2.5 將多條前綴相同的樣本合并為一棵前綴樹，通過樹狀合并訓(xùn)練樣本策略，實現(xiàn)了約 40 倍的訓(xùn)練加速。

另一項優(yōu)化是強化學(xué)習(xí)的調(diào)度策略：智能體任務(wù)耗時差異巨大，簡單任務(wù)秒回，復(fù)雜任務(wù)需等待。MiniMax 優(yōu)化了異步調(diào)度策略，平衡系統(tǒng)吞吐和樣本的 off-policyness，最終在系統(tǒng)吞吐量與訓(xùn)練效率之間達(dá)成了平衡。

Intelligence with Everyone

回到開頭 Claude Opus 4.6 的定價話題。極速版 Opus 4.6 高達(dá) 150 美元的輸出價格足以說明，在真正的生產(chǎn)力環(huán)境中，值錢的不只是智力本身，速度等影響效率的因素如今也變得舉足輕重。打工人真正需要的，是一個智力、速度等各方面都優(yōu)秀的「六邊形戰(zhàn)士」。

然而，頂級智力的高昂溢價正在制造一場隱形的技術(shù)分層：預(yù)算決定了你的 AI 助理是「滿血」還是「殘血」，是極速還是降速。在這一背景下，MiniMax M2.5 憑借 10B 級的輕巧規(guī)模承載了同級別的旗艦智力，不僅是當(dāng)前市場的性價比標(biāo)桿，更是將高階智能從「奢侈品」拉回到了「生產(chǎn)力工具」的范疇。

這更像是一場技術(shù)普惠，而非針對少數(shù)人的技術(shù)特權(quán)。此刻，MiniMax 所堅持的「服務(wù)普通人的 AI」「Intelligence with Everyone」具像化了。

如果把 M2.5 和 MiniMax 前段時間發(fā)布的桌面端 Agent 放在一起看，它的價值就更具像化了：一個是可以本地部署的超強大腦，一個是包含本地文件系統(tǒng)訪問、瀏覽器控制、代碼編輯器集成、后臺常駐運行等完善功能的腳手架。二者強強聯(lián)合，有望成為白領(lǐng)與程序員手中那個隨時待命、不計成本的「主力機」。

這種頂級智力的全民普惠，才是整個社會生產(chǎn)力提升的最強動力。

文中視頻鏈接：https://mp.weixin.qq.com/s/5zxoNnuxUfQk6dg4VsHFPw

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.