最近,Anthropic 發了一篇不太像“技術博客”的文章,《Demystifying evals for AI agents(揭開 AI agents 評測的迷霧)》,基本可視為一份“Agent 時代的產品生存指南”。
![]()
這篇文章背后隱含的一個判斷是,如果你做的是 AI Agent,卻還在用“模型 benchmark”那一套方式來評估它,那基本就是在扯淡。
Agent 的問題,不是模型準不準,而是它會不會在真實世界里,把事情搞砸。
Anthropic 在文中反復強調一個現實:隨著 AI 從“一次性回答問題”,走向“長時間自主行動”,系統的失敗方式已經發生了根本變化。
錯誤不再是“答錯一道題”,而是一步小錯、持續放大,最終造成不可逆后果。
比如一個研究型 Agent,早期一次資料篩選偏差,后面所有推理都會建立在錯誤前提上;
又比如一個自動化 Agent,在工具調用上出現微小誤判,卻在長鏈條任務中不斷復制這種錯誤。
這些問題,用傳統的評測方式幾乎是測不出來的。
Anthropic 直接點破了一個行業誤區:我們過去評估 AI,更像是在給“考試機器”打分;但 Agent 更像一個“實習生”,你真正關心的是——它在真實任務里能不能被信任。
所以,Anthropic提出,其核心不是“怎么跑 評測”,而是評測到底應該服務什么目標。
他們給出的第一個關鍵轉向是,從靜態結果評測,轉向過程與行為評測。
在 Agent 系統中,最終結果是否正確固然重要,但遠遠不夠。更關鍵的是:
它是否遵循了預期的決策路徑
是否在不確定時主動求證
是否在失敗后調整策略
是否在高風險節點表現得足夠保守
換句話說,評測不只是“對不對”,而是“像不像一個你敢用的 Agent”。
![]()
第二個非常現實的判斷是:Agent 的 評測永遠不可能一次性完成。
Anthropic 明確指出,Agent 的評估是一個“持續對抗”的過程。
你修復了一個失敗模式,很可能立刻引入一個新的失敗方式。
這點對所有做產品的人都很殘酷,也很真實:Agent 并不存在“評測通過 → 可以放心上線”的時刻,只有“暫時可控”。
因此,Anthropic建議,把評測變成和訓練、部署同等重要的基礎設施,而不是發布前的一個檢查項。
第三個被反復強調的觀點是:不要迷信自動化評測。
在 Agent 場景下,純自動評測往往會遺漏最危險的問題。
很多真正致命的錯誤,只能通過人工設計的 adversarial 測試、失敗案例復盤、極端場景模擬才能發現。
Anthropic 的態度非常清醒:評測不是為了證明系統“很強”,而是為了盡可能早地發現“它會怎么翻車”。
這和當前行業大量“Agent Demo 導向”的做法,形成了非常鮮明的對比。
Anthropic幾乎是為整個 AI 應用層敲了警鐘:當 AI 開始替人“做事”,而不是“回答問題”,評估體系本身就變成了安全邊界的一部分。
這也是為什么 Anthropic 會把評測提到如此高的戰略位置——不是工程細節,而是產品能不能活下去的問題。
對創業者來說,可以反思的是,未來 AI Agent 的競爭,不只是在模型、算力或功能完整度上,而是在誰更早建立起一套可靠的“可控性與信任機制”。
而評測,正是這套機制的第一道防線。
原文鏈接(Anthropic 官方):
https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.