<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      1美元時薪?這才是打工人的「夢中情模」

      0
      分享至



      編輯|張倩、Panda

      Anthropic 的 Opus 4.6 剛發(fā)布,智商確實高到讓人頭皮發(fā)麻,但看著那個價格表,我的錢包也開始發(fā)麻了。

      這就很尷尬了。Opus 4.6 的出現(xiàn),直接在開發(fā)者圈子里制造了一場「智力焦慮」:模型好用是真好用,貴也是真貴。原版價格紋絲不動就算了,那個號稱「極速版」的家伙,每百萬輸出 Token 的成本居然從 25 美元直接飆到了 150 美元。

      整整 6 倍的漲幅!看著 Token 計費表像風(fēng)一樣自由地狂奔,本來想用 AI 釋放生產(chǎn)力的我,現(xiàn)在按回車鍵之前都得先在心里過一遍賬單。這哪里是請了個助手,簡直是供了個「吞金獸」。

      這種「生產(chǎn)力稅」的存在,逼得打工人不得不進(jìn)入一種尷尬的模式:一邊渴望頂級智力帶來的效率,一邊在按回車鍵時反復(fù)權(quán)衡賬單。難道高智力和高性價比,真的像魚和熊掌一樣不可兼得?難道我們這些普通打工人,就不配擁有「智力自由」?

      就在大家捂著錢包嘆氣的時候,MiniMax 反手甩出了一個王炸:MiniMax M2.5

      這個模型相當(dāng)能打,無論是 coding 還是 agent 能力,都能與 Claude Opus 4.6 掰掰手腕,甚至在某些維度上掰贏了。

      數(shù)據(jù)不會說謊:M2.5 在多語言任務(wù) Multi-SWE-Bench 上拿下了行業(yè)第一;而在 SWE-Bench Verified 評測集上,基于 Droid 和 OpenCode 的實戰(zhàn)測試中,它的通過率(79.7% / 76.1%)更是雙雙反超了 Opus 4.6。



      在 BrowseComp、Wide Search 等搜索和工具調(diào)用榜單的評測中,M2.5 也達(dá)到了行業(yè)頂尖的水平。



      更具沖擊力的是它在 MiniMax 內(nèi)部的真實表現(xiàn):在 MiniMax 內(nèi)部業(yè)務(wù)場景中,整體任務(wù)的 30% 由 M2.5 自主完成;而在編程場景中,M2.5 生成的代碼已占新提交代碼的 80%。

      它不僅 Coding 和 Agent 能力硬剛 Claude Opus 4.6 不落下風(fēng),在專業(yè)的辦公領(lǐng)域更是「偷偷補過課」。為了讓模型真正懂行,MiniMax 拉來了金融、法律、社會科學(xué)等領(lǐng)域的資深從業(yè)者當(dāng)「教官」,把行業(yè)隱性知識灌進(jìn)模型。

      在內(nèi)部嚴(yán)苛的 Cowork Agent 評測(GDPval-MM) 中,M2.5 在 Word 排版、Excel 金融建模等高階場景下,對主流模型拿下了 59.0% 的平均勝率。這意味著它交付的不再是簡單的草稿,而是具備專業(yè)水準(zhǔn)的「半成品」。



      但最離譜的是,這樣一個全能選手,居然參數(shù)量只有 10B,是第一梯隊中參數(shù)規(guī)模最小的旗艦?zāi)P停恍枰嘿F的設(shè)備就能私有化部署。

      好家伙,這哪是輔助駕駛啊,這分明是搶方向盤來了!

      MiniMax M2.5 表現(xiàn)卓越,也為這家剛上市一個多月的公司的股價帶來了一波強勁上漲:



      1 美元時薪的頂級打工人

      這么小的體積,再加上「思考」鏈路的深度優(yōu)化,M2.5 的吞吐量可以達(dá)到 100 TPS,推理速度可以達(dá)到 Opus 4.6 的 2 倍。在 SWE-Bench Verified 測試中,M2.5 的端到端任務(wù)運行耗時從平均 31.3 分鐘減少到了 22.8 分鐘,這一速度與 Claude Opus 4.6 基本持平。

      在需要即時反饋的場景里,這種「跟手」的感覺簡直太爽了。更爽的是,你完全不需要有「每按一次回車就少喝一杯奶茶」的心理負(fù)擔(dān)。來看看這個顛覆性的定價:

      在每秒輸出 100 個 token 的情況下,連續(xù)工作一小時只需要 1 美元,而在每秒輸出 50 個 token 的情況下,只需要 0.3 美元。

      1 美元就能雇傭一個頂級專家給你干一小時苦力!換算一下,1 萬美金可以讓 4 個 Agent 連續(xù)工作一年

      這就很有意思了。以前我們不敢跑復(fù)雜 Agent,是因為怕跑著跑著就破產(chǎn)了;現(xiàn)在有了 M2.5,我們終于實現(xiàn)了 Agent 自由;讓 AI 24 小時持續(xù)上工,也不再是有余糧的地主家才能有的奢侈。

      目前,M2.5 的 Vibe Coding 支持 PC 端、App 端、RN/Flutter 跨端甚至帶數(shù)據(jù)庫的前后端全棧開發(fā),用起來非常方便,普通打工人可以隨時上手。

      為了驗證這個「10B 戰(zhàn)神」是不是真的能在性能比肩旗艦的同時,把生產(chǎn)力成本打下來,我們準(zhǔn)備了幾個真實的使用 Case。下面直接進(jìn)入實測。

      一手實測

      MiniMax M2.5 真能成為打工人的得力助手嗎?

      作為苦逼的媒體人,我們最怕的就是在那堆長達(dá)幾小時的圓桌論壇速記里「淘金」。大佬們聊嗨了往往也是車轱轆話來回說,我們要想提煉點干貨,眼睛都得看瞎。

      這種臟活累活,我是不敢交給 Opus 的,太貴。但現(xiàn)在既然 M2.5 這么便宜,那就不客氣了。

      我們決定搞個破壞性測試:直接把一堆巨大的 HTML 格式的速記文件「喂」給它,讓它不僅要提煉觀點,還要分析趨勢、找分歧,甚至還要做橫向?qū)Ρ取?/p>

      你是一個專業(yè)的行業(yè)圓桌論壇速讀分析師。我會逐個上傳論壇速記 / 紀(jì)要文件,你的任務(wù)是:1)提取核心觀點,用 bullet points 列出每位發(fā)言人的關(guān)鍵論斷和論據(jù);2)識別趨勢信號(正在形成共識的方向)和分歧點(存在爭議的立場或預(yù)測);3)標(biāo)注任何提及的具體數(shù)據(jù)、產(chǎn)品名或時間節(jié)點。每處理完一篇,輸出一份結(jié)構(gòu)化摘要。待我告知 "全部結(jié)束" 后,綜合所有文件,輸出一份總覽:橫向?qū)Ρ雀鲌稣搲闹貜?fù)主題與獨特視角,提煉出 3-5 條跨論壇的強趨勢,以及 2-3 個值得持續(xù)觀察的核心分歧。保持簡潔,避免泛化總結(jié),優(yōu)先引用發(fā)言人原話或具體案例。

      MiniMax M2.5 接到任務(wù)后,絲毫沒有「消化不良」。面對超大文件,它甚至自作主張地啟動了多個 Agent 并行開工(頗有一種「兄弟們一起上」的既視感):



      15 分鐘后,幾十萬 Token 跑完,一份高質(zhì)量報告出爐:



      搞定了閱讀,再來試試寫代碼。

      作為小編,我們每天都要跟排版做斗爭。雖然我們的排版規(guī)則不復(fù)雜(正文 15px、特定顏色加粗、版權(quán)信息居中……),但每次手動調(diào)也很煩。

      既然官方宣稱 M2.5 具備「架構(gòu)師思維」,能原生 Spec 行為。也就是說,不同于普通模型上來就盲目堆代碼,M2.5 在動手前會先像資深架構(gòu)師一樣做規(guī)劃,主動拆解功能、結(jié)構(gòu)和 UI。無論是 Rust、C++ 還是 Python,從 0-1 的系統(tǒng)設(shè)計到最后的 Code Review,它都能像老手一樣 Hold 住全場。那我們就讓它手搓一個「微信公眾號 Markdown 編輯器」。

      需求很簡單:復(fù)制進(jìn)來 →自動格式化 → 支持微調(diào) → 一鍵復(fù)制帶樣式。

      第一步,為了防止它「聽不懂人話」,我們先讓它把我的需求翻譯成更專業(yè)的提示詞。



      可以看到,MiniMax M2.5 大體上正確地理解了我們的需求,但在版權(quán)信息處出現(xiàn)了一點幻覺,輕松修改后,我們只需一句提示詞就能實現(xiàn)它:「讀取 微信公眾號 Markdown 編輯器開發(fā)提示詞.md 文件并實現(xiàn)它」。



      生成時長 2 分半,接杯水的功夫,M2.5 輕輕松松就實現(xiàn)了這個實用小工具。找篇文章試試效果:



      仔細(xì)檢查了一下,我們給出的需求都得到了滿足。

      作為一家專業(yè)的 AI 媒體,日常收集 AI 社區(qū)名人觀點的素材也是工作的一部分,但問題是有時候只顧著收集,并沒有真正將這些素材用起來,它們都沉睡在我們的資料庫中。借助 MiniMax M2.5 + Claude Code,我們可以輕松地挖掘我們的知識倉庫,真正利用起塵封的知識。

      首先,打開我們的選題庫,發(fā)現(xiàn)早期的文件和最近的文件命名格式不統(tǒng)一,而 M2.5 可以輕松解決這個問題,就一句話的事兒:



      接下來,M2.5 還可以為我們將這些 docx 文檔轉(zhuǎn)換成兼容 Obsidian 的 Markdown 格式。這里我們可以引入 Obsidian 創(chuàng)始人 Steph Ango 親自開源的 obsidian-skills,給 M2.5 一個參考手冊。我們的提示詞也很簡單:

      基于 Skills,將文件夾中的所有文件都轉(zhuǎn)換成符合 Obsidian 規(guī)范的 Markdown 文件。



      接下來我們可以將轉(zhuǎn)換好的文件放入一個 Obsidian 倉庫來進(jìn)行管理,而 MiniMax M2.5 也可以跟隨我們一起。比如這里,我們可以讓 M2.5 提取選題中所有與 Andrej Karpathy 和吳恩達(dá)相關(guān)的選題:



      可以看到,M2.5 找到了 5 個與 Andrej Karpathy 相關(guān)的選題,找到了 14 個與吳恩達(dá)相關(guān)的選題,并對選題進(jìn)行了總結(jié)同時還標(biāo)記了出處,而得益于 M2.5 10B 的輕量級參數(shù)規(guī)模,整個過程耗時不到 1 分鐘。

      最后,我們還讓 M2.5 基于我們的選題文檔總結(jié)了近幾個月 AI 領(lǐng)域的發(fā)展趨勢,大家可以看看總結(jié)得是否正確:



      M2.5 背后

      108 天極速進(jìn)化的秘密

      在前面的測評中,M2.5 已經(jīng)表現(xiàn)出明顯不同于普通模型的智能體能力。但比單次測評成績更令人細(xì)思極恐的,是 MiniMax 展現(xiàn)出的「進(jìn)化速度」。

      在過去短短 108 天里,MiniMax 陸續(xù)更新了 M2、M2.1 和 M2.5 三個版本!



      這讓 M2 系列模型在編程領(lǐng)域最具代表性的 SWE-Bench Verified 榜單上,相比 Claude、GPT 和 Gemini 等頂級模型系列,保持了行業(yè)最快的進(jìn)步速度 —— 這從上圖折線的斜率也能看出。

      這種超越預(yù)期的迭代效率不是憑空出現(xiàn)的,也不是單純靠堆算力堆出來的。要理解它為什么能跑得這么快,就得看一眼它背后的訓(xùn)練體系:原生 Agent RL 框架 Forge



      智能體訓(xùn)練的第一道坎,在于「語言模型」和「任務(wù)執(zhí)行者」這兩個身份之間的鴻溝。大模型原生是自回歸 Token 預(yù)測器,它可以模擬很多形式,但并不是為持續(xù)交互和工具調(diào)用而生。為了解決這一問題,MiniMax 引入了 Forge 原生 Agent RL 框架。

      Forge 在設(shè)計上通過引入中間層完全解耦了底層訓(xùn)推引擎與 Agent,把「模型只負(fù)責(zé)處理 Token」這件事做到了極致。模型訓(xùn)練和推理看到的都是同一種 Token 形態(tài),不去理解什么工具調(diào)用、環(huán)境狀態(tài)這些復(fù)雜結(jié)構(gòu)。而 Agent 那一側(cè)則通過標(biāo)準(zhǔn)的 OpenAI 接口和模型通信,專心處理環(huán)境交互和上下文管理。

      這種徹底解耦的好處是:模型能力不會被綁定在某一個具體 Agent 產(chǎn)品上,它可以接入不同的工具體系和腳手架,實現(xiàn)更強的泛化。

      更大的難題是長鏈路下的信用分配(Credit Assignment)。任務(wù)執(zhí)行幾十步后才知道結(jié)果,模型很難回溯究竟是哪一步導(dǎo)致了失敗。MiniMax M2.5 引入了過程獎勵機制(Process Reward),對生成質(zhì)量進(jìn)行全鏈路監(jiān)控,而不僅看最終成敗。同時,為對齊真實用戶體驗,他們將任務(wù)完成耗時也納入獎勵函數(shù)。這套獎勵設(shè)計讓模型在智能度與響應(yīng)速度之間實現(xiàn)了可量化的最優(yōu)權(quán)衡。



      這些算法創(chuàng)新要真正跑起來,還得過工程這一關(guān)。智能體數(shù)據(jù)天然有大量公共前綴,如果每條樣本獨立訓(xùn)練,同一段系統(tǒng)提示要反復(fù)計算數(shù)十遍。M2.5 將多條前綴相同的樣本合并為一棵前綴樹,通過樹狀合并訓(xùn)練樣本策略,實現(xiàn)了約 40 倍的訓(xùn)練加速。

      另一項優(yōu)化是強化學(xué)習(xí)的調(diào)度策略:智能體任務(wù)耗時差異巨大,簡單任務(wù)秒回,復(fù)雜任務(wù)需等待。MiniMax 優(yōu)化了異步調(diào)度策略,平衡系統(tǒng)吞吐和樣本的 off-policyness,最終在系統(tǒng)吞吐量與訓(xùn)練效率之間達(dá)成了平衡。

      Intelligence with Everyone

      回到開頭 Claude Opus 4.6 的定價話題。極速版 Opus 4.6 高達(dá) 150 美元的輸出價格足以說明,在真正的生產(chǎn)力環(huán)境中,值錢的不只是智力本身,速度等影響效率的因素如今也變得舉足輕重。打工人真正需要的,是一個智力、速度等各方面都優(yōu)秀的「六邊形戰(zhàn)士」。

      然而,頂級智力的高昂溢價正在制造一場隱形的技術(shù)分層:預(yù)算決定了你的 AI 助理是「滿血」還是「殘血」,是極速還是降速。在這一背景下,MiniMax M2.5 憑借 10B 級的輕巧規(guī)模承載了同級別的旗艦智力,不僅是當(dāng)前市場的性價比標(biāo)桿,更是將高階智能從「奢侈品」拉回到了「生產(chǎn)力工具」的范疇。

      這更像是一場技術(shù)普惠,而非針對少數(shù)人的技術(shù)特權(quán)。此刻,MiniMax 所堅持的「服務(wù)普通人的 AI」「Intelligence with Everyone」具像化了。

      如果把 M2.5 和 MiniMax 前段時間發(fā)布的桌面端 Agent 放在一起看,它的價值就更具像化了:一個是可以本地部署的超強大腦,一個是包含本地文件系統(tǒng)訪問、瀏覽器控制、代碼編輯器集成、后臺常駐運行等完善功能的腳手架。二者強強聯(lián)合,有望成為白領(lǐng)與程序員手中那個隨時待命、不計成本的「主力機」。

      這種頂級智力的全民普惠,才是整個社會生產(chǎn)力提升的最強動力。

      文中視頻鏈接:https://mp.weixin.qq.com/s/5zxoNnuxUfQk6dg4VsHFPw

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      002355,超48萬手封單漲停!利好不斷,自動駕駛板塊逆市飆漲

      002355,超48萬手封單漲停!利好不斷,自動駕駛板塊逆市飆漲

      數(shù)據(jù)寶
      2026-02-13 12:41:56
      日媒:王博豪認(rèn)為日本U23節(jié)奏達(dá)歐洲水平,這說明日本大學(xué)聯(lián)賽質(zhì)量高

      日媒:王博豪認(rèn)為日本U23節(jié)奏達(dá)歐洲水平,這說明日本大學(xué)聯(lián)賽質(zhì)量高

      懂球帝
      2026-02-13 11:42:05
      票房破95億,只是開始!吳京、沈騰、謝霆鋒要掀起一波新高潮了

      票房破95億,只是開始!吳京、沈騰、謝霆鋒要掀起一波新高潮了

      小丸子的娛樂圈
      2026-02-12 19:05:58
      米切爾一句話揭露了烏度卡不要哈登的原因!火箭重新重建已成必然

      米切爾一句話揭露了烏度卡不要哈登的原因!火箭重新重建已成必然

      呂彍極限手工
      2026-02-13 14:40:22
      演都不演了?李詠美國下葬8年后,哈文帶著女兒走上了姜昆的老路

      演都不演了?李詠美國下葬8年后,哈文帶著女兒走上了姜昆的老路

      姩姩有娛
      2026-02-13 14:14:23
      回顧探花大神:害人害己,多位女主被親戚認(rèn)出當(dāng)場“社死”

      回顧探花大神:害人害己,多位女主被親戚認(rèn)出當(dāng)場“社死”

      就一點
      2025-10-09 12:19:42
      大學(xué)女老師出軌學(xué)生:開房使用工具助興,高顏值照流出,細(xì)節(jié)曝光

      大學(xué)女老師出軌學(xué)生:開房使用工具助興,高顏值照流出,細(xì)節(jié)曝光

      博士觀察
      2026-02-13 15:22:25
      尼日爾正式向法國宣戰(zhàn),局勢緊張升級!

      尼日爾正式向法國宣戰(zhàn),局勢緊張升級!

      樂天派WMQ
      2026-02-13 00:46:02
      好不容易打首節(jié)卻崩了!攻守+籃板弊端盡顯,本賽季恐很難重用了

      好不容易打首節(jié)卻崩了!攻守+籃板弊端盡顯,本賽季恐很難重用了

      籃球資訊達(dá)人
      2026-02-13 13:16:12
      剛撕毀中企合同就遭報應(yīng)?國際仲裁啟動,巴拿馬恐賠光十年 GDP

      剛撕毀中企合同就遭報應(yīng)?國際仲裁啟動,巴拿馬恐賠光十年 GDP

      百科密碼
      2026-02-13 16:22:53
      有人預(yù)測:若不出意外,春節(jié)以后,國內(nèi)將迎來3個變化,很真實!

      有人預(yù)測:若不出意外,春節(jié)以后,國內(nèi)將迎來3個變化,很真實!

      青梅侃史啊
      2026-02-13 16:33:49
      收評|誰在砸!A股紅包炸了!

      收評|誰在砸!A股紅包炸了!

      龍行天下虎
      2026-02-13 15:05:57
      曾有10隊想簽他!索漢決定加盟尼克斯:為紐約提升多個位置深度

      曾有10隊想簽他!索漢決定加盟尼克斯:為紐約提升多個位置深度

      羅說NBA
      2026-02-13 06:00:24
      1923年,婉容讓孫耀庭伺候沐浴,她解開衣衫,孫耀庭:奴才肚子痛

      1923年,婉容讓孫耀庭伺候沐浴,她解開衣衫,孫耀庭:奴才肚子痛

      浩渺青史
      2026-02-11 15:12:31
      孤獨婚車?yán)铈闷毓猓偶以谵r(nóng)村,公婆勤勞婚房氣派,人民日報點贊

      孤獨婚車?yán)铈闷毓猓偶以谵r(nóng)村,公婆勤勞婚房氣派,人民日報點贊

      離離言幾許
      2026-02-13 10:51:36
      羅永浩懟段永平“懂個屁”,這個全是“破爛”的時代

      羅永浩懟段永平“懂個屁”,這個全是“破爛”的時代

      不正確
      2026-02-11 22:53:03
      朱元璋斬了十幾萬貪官,貪官卻越來越多,雍正只用2招就藥到病除

      朱元璋斬了十幾萬貪官,貪官卻越來越多,雍正只用2招就藥到病除

      銘記歷史呀
      2026-02-11 13:00:33
      女子假信佛與多位高僧發(fā)生不當(dāng)關(guān)系,秘密錄制5600段視頻。

      女子假信佛與多位高僧發(fā)生不當(dāng)關(guān)系,秘密錄制5600段視頻。

      特約前排觀眾
      2026-02-09 00:05:05
      抽象!C羅在自己的紀(jì)錄中使用梅西2014年丟冠當(dāng)素材!

      抽象!C羅在自己的紀(jì)錄中使用梅西2014年丟冠當(dāng)素材!

      氧氣是個地鐵
      2026-02-13 15:46:43
      緬甸撣邦南北交通要道設(shè)卡!運中國商品的貨車一律禁止通行,勒令折返

      緬甸撣邦南北交通要道設(shè)卡!運中國商品的貨車一律禁止通行,勒令折返

      緬甸中文網(wǎng)
      2026-02-12 13:49:57
      2026-02-13 17:32:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12303文章數(shù) 142564關(guān)注度
      往期回顧 全部

      科技要聞

      DeepSeek更新后被吐槽變冷變傻?

      頭條要聞

      俄駐日大使:俄日關(guān)系跌至"戰(zhàn)后最低點"

      頭條要聞

      俄駐日大使:俄日關(guān)系跌至"戰(zhàn)后最低點"

      體育要聞

      這張照片背后,是米蘭冬奧最催淚的故事

      娛樂要聞

      米蘭冬奧摘銀 谷愛凌再遭美國網(wǎng)友網(wǎng)暴

      財經(jīng)要聞

      華萊士母公司退市 瘋狂擴張下的食安隱憂

      汽車要聞

      探秘比亞迪巴西工廠 居然是這個畫風(fēng)!

      態(tài)度原創(chuàng)

      數(shù)碼
      教育
      旅游
      時尚
      本地

      數(shù)碼要聞

      雷蛇旋風(fēng)黑鯊V3 (Xbox授權(quán))無線電競耳麥新增白色版本

      教育要聞

      小升初求面積,很多學(xué)生不會

      旅游要聞

      千城勝景|云南臨滄臨翔:油菜花海染金妝

      50+女人怎么穿更好看?過來人告訴你答案,越老越美贏麻了

      本地新聞

      下一站是嘉禾望崗,請各位乘客做好哭泣準(zhǔn)備

      無障礙瀏覽 進(jìn)入關(guān)懷版