<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Harness正在如何改變token經濟學

      0
      分享至

      過去兩年,圍繞大模型商業模式的討論,常常被壓縮成一個看似簡單的問題:每百萬 token究竟多少錢。于是,行業里最常見的比較方式,變成了誰更便宜,誰更省,誰更適合大規模調用。

      但是,當智能體開始變成長時運行、分工協作、反復評估的系統之后,token 的價值單位正在發生“漂移”。衡量一個模型,除了看它生成一段文本要花多少錢,還要看它把一個任務可靠做完,最終要花多少錢,而且后者越來越重要。

      Anthropic最近用一篇工程文章,探討了如何為長時間應用開發設計智能體。把單智能體和全套 harness放在同一任務上正面比較,如用 Claude Opus 4.5 做一個 2D 復古游戲制作器時,solo 版本運行 20 分鐘,成本 9 美元;全套harness 運行 6 小時,成本 200 美元,表面上貴了二十多倍。

      但二者的差別并不只是“一個更貴,一個更慢”,而是結果層級完全不同。單智能體雖然做出了界面,但真正試玩時核心游戲邏輯是壞的,實體不響應輸入;全套 harness 則把一句話需求擴展成 16 個功能點、10 個 迭代周期(sprint) 的完整規格,并且做出了更多真正可用的功能,包括動畫、行為模板、音效、AI 輔助生成和導出分享。

      這個對比揭示出一個新的經濟學事實:在智能體時代,token 的主要用途不再只是“把東西生成出來”,而是把一個看似完成的演示,變得真正能用。


      也就是說,harness 正在迫使我們從token 單價轉向結果單價。在舊范式里,一次調用往往對應一輪問答,token 成本和輸出長度大體掛鉤,所以價格越低越有優勢。可一旦任務變成長時軟件開發、復雜工具調用和多輪自我修正,成本的決定因素就不再只是模型輸出了多少字,而是系統為了得到一個可靠結果,要經歷多少輪規劃、執行、測試、返工和重新生成。具體而言,上下文重置雖然能緩解長任務中的一致性崩塌和“上下文焦慮”,但代價是額外的 調度復雜性、token 開銷和延遲。換句話說,harness 不是免費的工程包裝,而是一種明確增加 token 消耗的結構性投資。

      這就引出了 harness 改變token 經濟學的第一重機制:它把 token 從內容成本變成了控制成本。

      在 Anthropic 的前端設計實驗里,生成器和評估器形成了一個循環,評估器用 Playwright MCP 實際操作頁面、截圖、打分,再把批評反饋給生成器。這樣的循環通常會跑 5 到 15 輪,完整一次可持續四小時。這里消耗的大量 token,并不是為了讓模型多寫幾段 HTML,而是為了讓模型在一個可驗證的反饋回路里不斷偏離默認答案,逼近更好的答案。token 的作用從一次性生成,轉向了長程控制、外部校驗和方向修正;它買到的不是文本,而是路徑。

      更深一步看,harness 還重排了token 在整個工作流中的分布。數字音樂站(DAW)的實驗給出了一組很有啟發性的賬單。也就是說,在一個復雜智能體式編碼系統里,真正吞噬預算的并不是思考和審核,而是做出;但決定這筆大額生成支出是否有效的,恰恰又是那筆相對小得多的規劃和驗證開銷。便宜的規劃器與評估器,在某種意義上成了昂貴的構建器的資本監督者。token 經濟學因此需要用少量監督 token,約束大量生成 token ,避免浪費。


      這正是 harness 改寫成本結構的關鍵所在。過去人們習慣把 質量保障 (QA)、規劃、代碼審查看成模型之外的附屬環節,現在它們本身成了 token消費的一部分,也成了產出質量的一部分。而且評估器發現的,都不是表面瑕疵,而是能直接導致功能失效的深層 bug,例如拖拽填充未真正觸發、刪除條件判斷錯誤、API 路由順序導致 422 返回。

      單智能體最大的問題,不是風格不夠好看,而是會生成看起來像成功、實際上并未打通邏輯的偽成品。harness 的作用,就是用額外 token 把這種“偽完成”打碎,讓系統從演示性產出走向可驗證產出。于是,token 的邊際價值也改變了:最貴的 token 未必最重要,最能減少返工和幻覺的 token 才最值錢。

      harness 的價值不是固定的。隨著 Claude Opus 4.6 發布,作者開始主動拆除原先在 4.5 時期十分關鍵的腳手架。Opus 4.6 更會規劃、更能維持長時間智能體任務、更能在大代碼庫中穩定工作,也更擅長代碼審核和消除bug。于是,原先依賴迭代拆解和頻繁評估器介入的結構,被明顯簡化了。對那些已經落入Opus 4.6 自身能力邊界之內的任務,評估器會變成不必的開銷。這說明 harness 并不是越多越好,而是只在模型能力邊界附近最有經濟價值。模型一旦內生地學會了某些能力,原先承擔補償功能的 harness 組件就會從“投資”變成“稅負”。

      因此,harness 改變token 經濟學的第二重機制,是讓成本結構變成動態的、邊界驅動的。

      每一個 harness 組件,本質上都編碼了一個假設:模型單獨做不好這件事,所以要用外部結構來補。每個 harness 組件都體現了關于模型自己做不到什么的判斷,而這些判斷需要不斷壓力測試,因為模型進步很快,舊假設會迅速過時。于是,今天值得花的 token,明天可能就不值得花了。token 經濟學不再是一個固定價目表,而更像一張隨模型能力移動的邊際收益曲線。

      放到商業背景里看,變化會更清楚。Anthropic 當前官方定價已經開始對低延遲、合規性和高能力單獨收費。Claude Opus 4.6 的快速模式是標準價的 6 倍,輸入和輸出分別是每百萬 token 30 美元和 150 美元;如果要求美國境內推理,還要在所有 token 類別上加收 1.1 倍。OpenAI也在走類似方向。

      再看OpenAI。GPT-5.4 標準短上下文輸入為每百萬 token 2.50 美元,輸出為 15 美元,而一些區域處理還要加收 10%;同時,內建工具所消耗的 token 也是按所選模型的 token 費率計費。這里隱含的商業邏輯是:在智能體時代,用戶買的已經不只是“文本生成”,而是速度、驗證、工具調用、地域處理和長時執行這些系統能力。harness 越成為主流,token 就越像生產流程中的通用燃料,而不是聊天接口里的字數費用。

      所以,harness 正在如何改變token 經濟學?它把 token 從一個靜態的計量單位,變成了一個動態的組織資源。以前它是關于一次調用用了多少 token;現在是關于這些 token 分別花在了規劃、生成、驗證、返工和工具調用的哪個環節,它們有沒有減少失敗、有沒有提升完成率、有沒有把一個像樣的結果推到真正可交付的結果。

      在這個意義上,未來最重要的價格指標,可能不再是每百萬 token 單價,而是每完成一個真實任務的總成本,每減少一次返工所節省的預算,以及每提高一個成功率百分點所需要付出的邊際 token。行業真正在意的,并不是 harness 比單智能體更貴,而是智能體時代真正昂貴的,從來不是 token 本身,而是失敗、返工和偽完成。harness 之所以重要,不是因為它讓 token 變多了,而是因為它開始決定哪些 token 值得花,哪些 token 只是白白燃燒。

      最后,弄懂了harness/token經濟學,你還去爭論大模型和harness哪個重要嗎?

      參考:

      https://www.anthropic.com/engineering/harness-design-long-running-apps

      https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      定了!國際刑事法院宣判:菲律賓前總統被判“反人類罪”!

      定了!國際刑事法院宣判:菲律賓前總統被判“反人類罪”!

      深析古今
      2026-04-28 06:16:03
      買課9天后蕃茄田藝術閉店,維權家長超百人,預付款超30萬元

      買課9天后蕃茄田藝術閉店,維權家長超百人,預付款超30萬元

      半島晨報
      2026-04-27 15:00:47
      葉柯被網友拍下生圖,模樣大變有些嚇人!被吐槽:像低配版唐嫣

      葉柯被網友拍下生圖,模樣大變有些嚇人!被吐槽:像低配版唐嫣

      娛樂團長
      2026-04-26 14:55:48
      我敢打賭99%的男人會選白衣服女孩做老婆,看腿型就知道

      我敢打賭99%的男人會選白衣服女孩做老婆,看腿型就知道

      朗威談星座
      2026-04-26 10:47:21
      為什么山姆越來越多,麥德龍卻快倒光了?網友:降本增效的問題

      為什么山姆越來越多,麥德龍卻快倒光了?網友:降本增效的問題

      另子維愛讀史
      2026-04-13 13:14:30
      G3和G4的表現都非常一般,湖人先發控衛的表現突然間出現下滑了?

      G3和G4的表現都非常一般,湖人先發控衛的表現突然間出現下滑了?

      稻谷與小麥
      2026-04-28 00:32:35
      血管堵塞的6個信號,別等堵死才發現!錯過可能拖成大病

      血管堵塞的6個信號,別等堵死才發現!錯過可能拖成大病

      孟大夫之家1
      2026-04-27 13:20:05
      竇靖童和宋妍霏巴黎被偶遇,留著寸頭很帥氣,兩人在一起很久了

      竇靖童和宋妍霏巴黎被偶遇,留著寸頭很帥氣,兩人在一起很久了

      老好人的憤怒
      2026-04-27 08:07:21
      杜月笙面館吃飯,一伙地痞流氓找他要保護費,杜月笙:嫌命長嗎?

      杜月笙面館吃飯,一伙地痞流氓找他要保護費,杜月笙:嫌命長嗎?

      千秋文化
      2026-04-01 20:35:51
      德國緊隨韓國之后,也發布了“中文標語”,引起了中國游客的不滿

      德國緊隨韓國之后,也發布了“中文標語”,引起了中國游客的不滿

      今墨緣
      2026-04-24 13:36:06
      因為沒錢,社會上已經出現了4大“反常現象”,看看你碰到了沒?

      因為沒錢,社會上已經出現了4大“反常現象”,看看你碰到了沒?

      細說職場
      2026-04-26 14:29:20
      2859.2克黃金制品被警方扣押三十年 最新進展:雙方約定見面溝通賠償事宜 代理律師:和解的可能性很大

      2859.2克黃金制品被警方扣押三十年 最新進展:雙方約定見面溝通賠償事宜 代理律師:和解的可能性很大

      每日經濟新聞
      2026-04-27 18:05:32
      比披絲巾更可怕的是“瑜伽褲外穿”,廉價又卡襠,三角區更尷尬

      比披絲巾更可怕的是“瑜伽褲外穿”,廉價又卡襠,三角區更尷尬

      生命之泉的奧秘
      2026-03-20 03:56:49
      石破茂:我當過首相所以我最清楚,沒有中國,日本根本不可能存在

      石破茂:我當過首相所以我最清楚,沒有中國,日本根本不可能存在

      黑翼天使
      2026-04-27 00:25:04
      特朗普:失望、很不爽,美國會記仇的!美國被曝正考慮暫停西班牙北約資格,桑切斯:美以對伊朗軍事行動非法

      特朗普:失望、很不爽,美國會記仇的!美國被曝正考慮暫停西班牙北約資格,桑切斯:美以對伊朗軍事行動非法

      每日經濟新聞
      2026-04-27 18:44:01
      窮可以讓一個女人卑微到什么程度?看網友的評論引起萬千共鳴

      窮可以讓一個女人卑微到什么程度?看網友的評論引起萬千共鳴

      夜深愛雜談
      2026-03-01 21:28:54
      99年我回村葬母無人搭理,只有1戶人家熱心幫忙,15年后我去報恩

      99年我回村葬母無人搭理,只有1戶人家熱心幫忙,15年后我去報恩

      千秋文化
      2025-09-05 11:30:00
      教師工資比公務員工資高多了,向公務員看齊,老師可就吃大虧了?

      教師工資比公務員工資高多了,向公務員看齊,老師可就吃大虧了?

      郭愛華追問教育
      2026-04-28 06:17:01
      連夜斷供、聯手封殺!只因張雪把國產摩托售后做到了極致

      連夜斷供、聯手封殺!只因張雪把國產摩托售后做到了極致

      劉哥談體育
      2026-04-25 17:34:46
      美國質問中國:若中國真的愛好和平,為何還要大力發展軍事?

      美國質問中國:若中國真的愛好和平,為何還要大力發展軍事?

      墨羽怪談
      2026-04-21 18:29:25
      2026-04-28 07:15:00
      未盡研究 incentive-icons
      未盡研究
      新能源、人工智能、合成生物、地緣X
      366文章數 63關注度
      往期回顧 全部

      科技要聞

      DeepSeek V4上線三天,第一批實測出來了

      頭條要聞

      坐在特朗普身邊親歷槍擊案的女記者 身份非常不一般

      頭條要聞

      坐在特朗普身邊親歷槍擊案的女記者 身份非常不一般

      體育要聞

      人類馬拉松"破二"新紀元,一場跑鞋軍備競賽

      娛樂要聞

      黃楊鈿甜為“耳環風波”出鏡道歉:謠言已澄清

      財經要聞

      Meta 140億收購Manus遭中國發改委否決

      汽車要聞

      不那么小眾也可以 smart的路會越走越寬

      態度原創

      時尚
      藝術
      數碼
      公開課
      軍事航空

      絲巾的10種系法,愛美的女人必看

      藝術要聞

      幸福就是住著小院子,過著小日子

      數碼要聞

      6K/3K雙模切換!三星這款顯示器什么水平?

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗外長折返伊斯蘭堡內情披露

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲欧美综合中文| 午夜欧美精品久久久久久久| 在线视频中文字幕二区| 若羌县| 亚洲精品午夜精品| 久久成人网站| 精品无码成人片一区二区98| 中文字幕在线精品视频入口一区| 婷婷久久久久| av高清无码在线观看| 人妻窝窝WWW聚色窝| 亚洲精品日韩在线观看| 久久香蕉国产线熟妇人妻| 精品人妻大屁股白浆无码| 狠狠色综合tv久久久久久| 亚洲一区av无码专区在线观看| 久久国产亚洲一区二区三区| 成人精品久久一区二区三区| 精品一区二区在线观看欧美日韩黑人| 伊在人间香蕉最新视频| 国产精品国产成人国产三级| 国产线播放免费人成视频播放| 77777五月色婷婷丁香视频| 九九成人在线| 国产九色AV刺激露脸对白| 日本乱码伦视频免费播放| 久久久www免费人成精品| 黑人变态另类videos| 真实国产乱子伦视频| 超碰热| 男女性高爱潮免费网站| 四虎永久在线精品国产| 亚洲伊人影院| 麻豆a级片| 亚洲国产熟女一区二区三区| 国产麻豆精品一区二区三区v视界 久久99精品久久久久久 | 久久国产免费福利永久| 成人片黄网站a毛片免费| 福利精品| 久久精品a一国产成人免费网站| 亚洲一区二区|