網易首頁 > 網易號 > 正文申請入駐

Harness正在如何改變token經濟學

2026-03-31 14:25:38　來源: 未盡研究

上海舉報

分享至

過去兩年，圍繞大模型商業模式的討論，常常被壓縮成一個看似簡單的問題：每百萬 token究竟多少錢。于是，行業里最常見的比較方式，變成了誰更便宜，誰更省，誰更適合大規模調用。

但是，當智能體開始變成長時運行、分工協作、反復評估的系統之后，token 的價值單位正在發生“漂移”。衡量一個模型，除了看它生成一段文本要花多少錢，還要看它把一個任務可靠做完，最終要花多少錢，而且后者越來越重要。

Anthropic最近用一篇工程文章，探討了如何為長時間應用開發設計智能體。把單智能體和全套 harness放在同一任務上正面比較，如用 Claude Opus 4.5 做一個 2D 復古游戲制作器時，solo 版本運行 20 分鐘，成本 9 美元；全套harness 運行 6 小時，成本 200 美元，表面上貴了二十多倍。

但二者的差別并不只是“一個更貴，一個更慢”，而是結果層級完全不同。單智能體雖然做出了界面，但真正試玩時核心游戲邏輯是壞的，實體不響應輸入；全套 harness 則把一句話需求擴展成 16 個功能點、10 個迭代周期（sprint）的完整規格，并且做出了更多真正可用的功能，包括動畫、行為模板、音效、AI 輔助生成和導出分享。

這個對比揭示出一個新的經濟學事實：在智能體時代，token 的主要用途不再只是“把東西生成出來”，而是把一個看似完成的演示，變得真正能用。

也就是說，harness 正在迫使我們從token 單價轉向結果單價。在舊范式里，一次調用往往對應一輪問答，token 成本和輸出長度大體掛鉤，所以價格越低越有優勢。可一旦任務變成長時軟件開發、復雜工具調用和多輪自我修正，成本的決定因素就不再只是模型輸出了多少字，而是系統為了得到一個可靠結果，要經歷多少輪規劃、執行、測試、返工和重新生成。具體而言，上下文重置雖然能緩解長任務中的一致性崩塌和“上下文焦慮”，但代價是額外的調度復雜性、token 開銷和延遲。換句話說，harness 不是免費的工程包裝，而是一種明確增加 token 消耗的結構性投資。

這就引出了 harness 改變token 經濟學的第一重機制：它把 token 從內容成本變成了控制成本。

在 Anthropic 的前端設計實驗里，生成器和評估器形成了一個循環，評估器用 Playwright MCP 實際操作頁面、截圖、打分，再把批評反饋給生成器。這樣的循環通常會跑 5 到 15 輪，完整一次可持續四小時。這里消耗的大量 token，并不是為了讓模型多寫幾段 HTML，而是為了讓模型在一個可驗證的反饋回路里不斷偏離默認答案，逼近更好的答案。token 的作用從一次性生成，轉向了長程控制、外部校驗和方向修正；它買到的不是文本，而是路徑。

更深一步看，harness 還重排了token 在整個工作流中的分布。數字音樂站（DAW）的實驗給出了一組很有啟發性的賬單。也就是說，在一個復雜智能體式編碼系統里，真正吞噬預算的并不是思考和審核，而是做出；但決定這筆大額生成支出是否有效的，恰恰又是那筆相對小得多的規劃和驗證開銷。便宜的規劃器與評估器，在某種意義上成了昂貴的構建器的資本監督者。token 經濟學因此需要用少量監督 token，約束大量生成 token ，避免浪費。

這正是 harness 改寫成本結構的關鍵所在。過去人們習慣把質量保障（QA）、規劃、代碼審查看成模型之外的附屬環節，現在它們本身成了 token消費的一部分，也成了產出質量的一部分。而且評估器發現的，都不是表面瑕疵，而是能直接導致功能失效的深層 bug，例如拖拽填充未真正觸發、刪除條件判斷錯誤、API 路由順序導致 422 返回。

單智能體最大的問題，不是風格不夠好看，而是會生成看起來像成功、實際上并未打通邏輯的偽成品。harness 的作用，就是用額外 token 把這種“偽完成”打碎，讓系統從演示性產出走向可驗證產出。于是，token 的邊際價值也改變了：最貴的 token 未必最重要，最能減少返工和幻覺的 token 才最值錢。

harness 的價值不是固定的。隨著 Claude Opus 4.6 發布，作者開始主動拆除原先在 4.5 時期十分關鍵的腳手架。Opus 4.6 更會規劃、更能維持長時間智能體任務、更能在大代碼庫中穩定工作，也更擅長代碼審核和消除bug。于是，原先依賴迭代拆解和頻繁評估器介入的結構，被明顯簡化了。對那些已經落入Opus 4.6 自身能力邊界之內的任務，評估器會變成不必的開銷。這說明 harness 并不是越多越好，而是只在模型能力邊界附近最有經濟價值。模型一旦內生地學會了某些能力，原先承擔補償功能的 harness 組件就會從“投資”變成“稅負”。

因此，harness 改變token 經濟學的第二重機制，是讓成本結構變成動態的、邊界驅動的。

每一個 harness 組件，本質上都編碼了一個假設：模型單獨做不好這件事，所以要用外部結構來補。每個 harness 組件都體現了關于模型自己做不到什么的判斷，而這些判斷需要不斷壓力測試，因為模型進步很快，舊假設會迅速過時。于是，今天值得花的 token，明天可能就不值得花了。token 經濟學不再是一個固定價目表，而更像一張隨模型能力移動的邊際收益曲線。

放到商業背景里看，變化會更清楚。Anthropic 當前官方定價已經開始對低延遲、合規性和高能力單獨收費。Claude Opus 4.6 的快速模式是標準價的 6 倍，輸入和輸出分別是每百萬 token 30 美元和 150 美元；如果要求美國境內推理，還要在所有 token 類別上加收 1.1 倍。OpenAI也在走類似方向。

再看OpenAI。GPT-5.4 標準短上下文輸入為每百萬 token 2.50 美元，輸出為 15 美元，而一些區域處理還要加收 10%；同時，內建工具所消耗的 token 也是按所選模型的 token 費率計費。這里隱含的商業邏輯是：在智能體時代，用戶買的已經不只是“文本生成”，而是速度、驗證、工具調用、地域處理和長時執行這些系統能力。harness 越成為主流，token 就越像生產流程中的通用燃料，而不是聊天接口里的字數費用。

所以，harness 正在如何改變token 經濟學？它把 token 從一個靜態的計量單位，變成了一個動態的組織資源。以前它是關于一次調用用了多少 token；現在是關于這些 token 分別花在了規劃、生成、驗證、返工和工具調用的哪個環節，它們有沒有減少失敗、有沒有提升完成率、有沒有把一個像樣的結果推到真正可交付的結果。

在這個意義上，未來最重要的價格指標，可能不再是每百萬 token 單價，而是每完成一個真實任務的總成本，每減少一次返工所節省的預算，以及每提高一個成功率百分點所需要付出的邊際 token。行業真正在意的，并不是 harness 比單智能體更貴，而是智能體時代真正昂貴的，從來不是 token 本身，而是失敗、返工和偽完成。harness 之所以重要，不是因為它讓 token 變多了，而是因為它開始決定哪些 token 值得花，哪些 token 只是白白燃燒。

最后，弄懂了harness/token經濟學，你還去爭論大模型和harness哪個重要嗎？

參考：

https://www.anthropic.com/engineering/harness-design-long-running-apps

https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.