這篇文章的思路來自 Philipp Schmid,由 minghao 推薦https://www.philschmid.de/agent-harness-2026
很多人,會有這個體驗
有些模型,在排行榜上分數很高,但實際用起來經常翻車
問個問題還行,讓干活就開始犯蠢
原因很簡單
排行榜測的是單輪能力,或者幾輪簡單交互
但真實場景里,你讓 Agent 跑一個復雜任務,可能要調用幾十上百次工具,跑幾個小時
排行榜 1% 的差距,測不出 50 步之后的差異
這就是「持久性」問題
有些模型,可能足夠聰明,一兩次嘗試就能解開難題
但跑了一個小時后,可能無法遵循最初的指令,或者在中間步驟的推理出錯
怎么解決?
Philipp Schmid 提了一個概念,叫 Agent Harness
Harness 是什么
Harness 本意是馬具、挽具,引申為「駕馭某物的裝置」
軟件領域最常見的用法是 test harness 測試框架
Agent Harness 是同樣的思路:
包裹在 AI 模型外層,管理 Agent 長周期運行的基礎設施層
用計算機來類比:
模型是 CPU,提供原始算力
上下文窗口是內存,有限的、易失的工作記憶
Agent Harness 是操作系統,管理上下文、處理啟動流程、提供標準驅動
Agent 是應用程序,運行在操作系統之上的具體用戶邏輯
![]()
Philipp Schmid 畫的示意圖,一目了然
Harness 的層級比 Agent 框架更高
框架提供的是構建模塊,工具接口、Agent 循環的實現
Harness 提供的是預設 Prompt、工具調用的規范化處理、生命周期鉤子,以及開箱即用的能力,規劃、文件系統訪問、子 Agent 管理
對開發者來說,這意味著可以跳過「造操作系統」,直接專注于定義 Agent 的獨特邏輯
目前通用型 Harness 還很少。Claude Code 是這個品類的典型代表,Claude Agent SDK 和 LangChain DeepAgents 也在嘗試標準化
Harness 能做三件事
驗證真實進展
新模型頻繁發布,Harness 讓用戶能快速測試最新模型在自己場景下的表現,而不是看排行榜猜
釋放模型潛力
沒有 Harness,用戶體驗可能落后于模型能力。好的 Harness 讓開發者能用經過驗證的工具和最佳實踐來構建 Agent
創造反饋閉環
Harness 把模糊的、多步驟的 Agent 工作流轉化為可記錄、可評分的結構化數據。哪一步出了問題,一目了然
苦澀教訓
Rich Sutton 寫過一篇文章叫《苦澀的教訓》
核心觀點:利用算力的通用方法,每次都能打敗手工編碼的人類知識
這個教訓正在 Agent 開發領域上演
Manus 在六個月內重構了五次 Harness,去除僵化的假設
LangChain 一年內重新架構了三次「Open Deep Research」Agent
Vercel 砍掉了 80% 的 Agent 工具,換來更少的步驟、更少的 Token、更快的響應
每次新模型發布,都有不同的最優 Agent 架構方式
2024 年需要復雜手工流水線的能力,到 2026 年可能只需要一個上下文窗口內的 Prompt 就能搞定
如果過度設計控制流,下一次模型更新就會讓系統崩潰
怎么做
至于該怎么做,原作者給到了三條原則:
從簡單開始
不要構建龐大的控制流。提供健壯的原子工具,讓模型自己規劃。實現護欄、重試和驗證
為刪除而構建
讓架構模塊化。新模型會替代你的邏輯,必須隨時準備好撕掉代碼
Harness 就是數據集
競爭優勢不再是 Prompt,而是 Harness 捕獲的軌跡數據。每一次 Agent 在工作流后期未能遵循指令的失敗案例,都可以用來訓練下一代模型
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.