過去兩年,圍繞大模型商業模式的討論,常常被壓縮成一個看似簡單的問題:每百萬 token究竟多少錢。于是,行業里最常見的比較方式,變成了誰更便宜,誰更省,誰更適合大規模調用。
但是,當智能體開始變成長時運行、分工協作、反復評估的系統之后,token 的價值單位正在發生“漂移”。衡量一個模型,除了看它生成一段文本要花多少錢,還要看它把一個任務可靠做完,最終要花多少錢,而且后者越來越重要。
Anthropic最近用一篇工程文章,探討了如何為長時間應用開發設計智能體。把單智能體和全套 harness放在同一任務上正面比較,如用 Claude Opus 4.5 做一個 2D 復古游戲制作器時,solo 版本運行 20 分鐘,成本 9 美元;全套harness 運行 6 小時,成本 200 美元,表面上貴了二十多倍。
但二者的差別并不只是“一個更貴,一個更慢”,而是結果層級完全不同。單智能體雖然做出了界面,但真正試玩時核心游戲邏輯是壞的,實體不響應輸入;全套 harness 則把一句話需求擴展成 16 個功能點、10 個 迭代周期(sprint) 的完整規格,并且做出了更多真正可用的功能,包括動畫、行為模板、音效、AI 輔助生成和導出分享。
這個對比揭示出一個新的經濟學事實:在智能體時代,token 的主要用途不再只是“把東西生成出來”,而是把一個看似完成的演示,變得真正能用。
![]()
也就是說,harness 正在迫使我們從token 單價轉向結果單價。在舊范式里,一次調用往往對應一輪問答,token 成本和輸出長度大體掛鉤,所以價格越低越有優勢。可一旦任務變成長時軟件開發、復雜工具調用和多輪自我修正,成本的決定因素就不再只是模型輸出了多少字,而是系統為了得到一個可靠結果,要經歷多少輪規劃、執行、測試、返工和重新生成。具體而言,上下文重置雖然能緩解長任務中的一致性崩塌和“上下文焦慮”,但代價是額外的 調度復雜性、token 開銷和延遲。換句話說,harness 不是免費的工程包裝,而是一種明確增加 token 消耗的結構性投資。
這就引出了 harness 改變token 經濟學的第一重機制:它把 token 從內容成本變成了控制成本。
在 Anthropic 的前端設計實驗里,生成器和評估器形成了一個循環,評估器用 Playwright MCP 實際操作頁面、截圖、打分,再把批評反饋給生成器。這樣的循環通常會跑 5 到 15 輪,完整一次可持續四小時。這里消耗的大量 token,并不是為了讓模型多寫幾段 HTML,而是為了讓模型在一個可驗證的反饋回路里不斷偏離默認答案,逼近更好的答案。token 的作用從一次性生成,轉向了長程控制、外部校驗和方向修正;它買到的不是文本,而是路徑。
更深一步看,harness 還重排了token 在整個工作流中的分布。數字音樂站(DAW)的實驗給出了一組很有啟發性的賬單。也就是說,在一個復雜智能體式編碼系統里,真正吞噬預算的并不是思考和審核,而是做出;但決定這筆大額生成支出是否有效的,恰恰又是那筆相對小得多的規劃和驗證開銷。便宜的規劃器與評估器,在某種意義上成了昂貴的構建器的資本監督者。token 經濟學因此需要用少量監督 token,約束大量生成 token ,避免浪費。
![]()
這正是 harness 改寫成本結構的關鍵所在。過去人們習慣把 質量保障 (QA)、規劃、代碼審查看成模型之外的附屬環節,現在它們本身成了 token消費的一部分,也成了產出質量的一部分。而且評估器發現的,都不是表面瑕疵,而是能直接導致功能失效的深層 bug,例如拖拽填充未真正觸發、刪除條件判斷錯誤、API 路由順序導致 422 返回。
單智能體最大的問題,不是風格不夠好看,而是會生成看起來像成功、實際上并未打通邏輯的偽成品。harness 的作用,就是用額外 token 把這種“偽完成”打碎,讓系統從演示性產出走向可驗證產出。于是,token 的邊際價值也改變了:最貴的 token 未必最重要,最能減少返工和幻覺的 token 才最值錢。
harness 的價值不是固定的。隨著 Claude Opus 4.6 發布,作者開始主動拆除原先在 4.5 時期十分關鍵的腳手架。Opus 4.6 更會規劃、更能維持長時間智能體任務、更能在大代碼庫中穩定工作,也更擅長代碼審核和消除bug。于是,原先依賴迭代拆解和頻繁評估器介入的結構,被明顯簡化了。對那些已經落入Opus 4.6 自身能力邊界之內的任務,評估器會變成不必的開銷。這說明 harness 并不是越多越好,而是只在模型能力邊界附近最有經濟價值。模型一旦內生地學會了某些能力,原先承擔補償功能的 harness 組件就會從“投資”變成“稅負”。
因此,harness 改變token 經濟學的第二重機制,是讓成本結構變成動態的、邊界驅動的。
每一個 harness 組件,本質上都編碼了一個假設:模型單獨做不好這件事,所以要用外部結構來補。每個 harness 組件都體現了關于模型自己做不到什么的判斷,而這些判斷需要不斷壓力測試,因為模型進步很快,舊假設會迅速過時。于是,今天值得花的 token,明天可能就不值得花了。token 經濟學不再是一個固定價目表,而更像一張隨模型能力移動的邊際收益曲線。
放到商業背景里看,變化會更清楚。Anthropic 當前官方定價已經開始對低延遲、合規性和高能力單獨收費。Claude Opus 4.6 的快速模式是標準價的 6 倍,輸入和輸出分別是每百萬 token 30 美元和 150 美元;如果要求美國境內推理,還要在所有 token 類別上加收 1.1 倍。OpenAI也在走類似方向。
再看OpenAI。GPT-5.4 標準短上下文輸入為每百萬 token 2.50 美元,輸出為 15 美元,而一些區域處理還要加收 10%;同時,內建工具所消耗的 token 也是按所選模型的 token 費率計費。這里隱含的商業邏輯是:在智能體時代,用戶買的已經不只是“文本生成”,而是速度、驗證、工具調用、地域處理和長時執行這些系統能力。harness 越成為主流,token 就越像生產流程中的通用燃料,而不是聊天接口里的字數費用。
所以,harness 正在如何改變token 經濟學?它把 token 從一個靜態的計量單位,變成了一個動態的組織資源。以前它是關于一次調用用了多少 token;現在是關于這些 token 分別花在了規劃、生成、驗證、返工和工具調用的哪個環節,它們有沒有減少失敗、有沒有提升完成率、有沒有把一個像樣的結果推到真正可交付的結果。
在這個意義上,未來最重要的價格指標,可能不再是每百萬 token 單價,而是每完成一個真實任務的總成本,每減少一次返工所節省的預算,以及每提高一個成功率百分點所需要付出的邊際 token。行業真正在意的,并不是 harness 比單智能體更貴,而是智能體時代真正昂貴的,從來不是 token 本身,而是失敗、返工和偽完成。harness 之所以重要,不是因為它讓 token 變多了,而是因為它開始決定哪些 token 值得花,哪些 token 只是白白燃燒。
最后,弄懂了harness/token經濟學,你還去爭論大模型和harness哪個重要嗎?
參考:
https://www.anthropic.com/engineering/harness-design-long-running-apps
https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.