![]()
本項目由斯坦福大學 CS 博士生 Jacky Kwok負責,主要貢獻者包括伯克利 EECS 博士生 Shulu Li。通訊作者為Ion Stoica(UC 伯克利教授、Databricks 創始人)、Azalia Mirhoseini(斯坦福教授,曾任職于 DeepMind 與 Anthropic)、以及 Marco Pavone(英偉達 AI 與自動駕駛研究總監)。
斯坦福、伯克利與英偉達聯合提出 Agent 驗證框架 LLM-as-a-Verifier。該方法是一種通用的驗證機制,可與任意 Agent Harness 和模型結合。
研究表明,通過擴展驗證階段的計算量(scaling verification compute),可以顯著提升 agent 整體性能,并在最有影響力的 AI 編程基準 Terminal-Bench 上超越 GPT-5.5 和 Claude Mythos!
![]()
LLM-as-a-Verifier 在 AI Coding 基準 Terminal-Bench 和 SWE-Bench Verified 上均取得了當前最優(SOTA)性能。 Transformer 論文作者 Lukasz Kaiser 以及 GAN 作者 Bing Xu 也對該工作進行了轉發與關注。
![]()
![]()
- 博客地址:llm-as-a-verifier.notion.site
- 代碼地址:llm-as-a-verifier.github.io
方法概述
大多數 Agent Harness 實際上已經「具備」解決問題的能力 。當我們多次運行同一個 Agent(例如運行 100 次),它往往能夠在某一次嘗試中生成正確答案。但問題在于,它們無法判斷哪一個才是正確的。這一問題在長時序任務(long-horizon tasks)中尤為嚴重。
![]()
LLM-as-a-Verifier 通過 scaling評分 token 的細粒度(score granularity)、多次評估(repeated verification)以及評價標準的分解(criteria decomposition),顯著提升了驗證能力,并進一步提高了下游任務的成功率。此外,團隊發現隨著評分 token 細粒度的提升,正負樣本之間的得分區分度會進一步拉大。
![]()
核心問題:LLM-as-a-Judge 的局限性
標準的 LLM-as-a-Judge 通過提示模型輸出一個評分結果(例如,1 到 8 之間的分數),并選擇概率最高的評分作為最終的離散分數。
然而,這種方法往往存在評分粒度過于粗糙的問題。在比較長時序 agent 軌跡(trajectories )時,LLM-as-a-Judge 通常會為不同的軌跡分配相同的分數(例如,兩條軌跡都被評為 4 分),從而導致平局,無法有效區分它們。
這種粗粒度的評分機制在 Terminal-Bench 上出現了27%的平局情況,限制了評判的精確性和區分能力。
![]()
LLM-as-a-Verifier: 從判分到驗證的范式轉變
從定義上講,judge(裁判者)是對整體情況形成總體判斷并給出結論的人;而 verifier(驗證者)則是對具體事項進行真實及正確性核驗的人,因此需要更細致、更具體的評估。
為此,團隊提出了 LLM-as-a-Verifier。它通過擴展以下三個維度來提供細粒度反饋:
- 重復驗證的次數(repeated verifications)
- 評分 token 的粒度(granularity of score tokens)
- 評估標準的分解(decomposition of evaluation criteria)
![]()
![]()
LLM-as-a-Verifier 將軌跡的獎勵表示為:
![]()
其中:
![]()
在選擇最佳軌跡時,團隊采用循環賽(round-robin tournament):對每一對候選軌跡 (i, j), 驗證器都會利用上述公式計算其 reward。獎勵更高的軌跡獲得勝利,而在全部比較中勝場數最多的軌跡,將被選為最終結果。
實驗結果
1.在 Terminal-Bench 2.0 和 SWE-Bench Verified 等復雜的長時序基準任務中,LLM-as-a-Verifier 的表現全面超越了前沿模型并均取得了當前最優(SOTA)性能。所有實驗結果均來源于官方排行榜。
![]()
2.LLM-as-a-Verifier 能夠在不同的 Agent Harness 框架中實現無縫集成,其通用性驗證于以下三個基準任務:
- ForgeCode:驗證準確率提升至 86.4%
- Terminus-Kira:準確率提升至 79.4%
- Terminus 2:準確率增加至 71.2%
![]()
這表明,無論針對何種 Agent Harness 或模型,該驗證方法皆可高效兼容并提升性能。
3.LLM-as-a-Verifier 在驗證準確率和消除平局方面全面領先于傳統的 LLM-as-a-Judge。即使在增加重復驗證次數的情況下(如 k = 16),Verifier 方法依然保持了至少 7% 的驗證準確率優勢。此外,它完全消除了平局現象。
![]()
4.試驗結果表明,增加評分 token 的粒度(granularity)以及提高重復驗證次數(repeated verifications)均顯著提高驗證準確率。此外,在評分 token 維度的細化分級(1→20)中,量化誤差得到了極大降低,從而更接近真實獎勵。
![]()
5.LLM-as-a-Verifier 放棄傳統的單一評分機制,采用將軌跡驗證解構為三個可組合的評估標準:
- 規范合規性 (Specification):軌跡是否符合所有任務要求(路徑、命名等);
- 輸出格式 (Output Format):驗證輸出的格式是否符合預期結果;
- 錯誤檢測 (Error Checking):軌跡中是否存在明顯的錯誤信號。
![]()
驗證計算作為新的擴展維度
「LLM-as-a-Verifier」是一種通用驗證機制,能夠顯著提升 Agent 的整體性能,并在多個 AI 編程基準上取得當前最優(SOTA)表現,超越了其他前沿模型如 Claude Mythos。
相比傳統的「LLM-as-a-Judge」方法,該框架利用更細致的評分粒度、重復驗證,以及評估標準分解,實現更高的驗證準確率和更精確的區分能力,消除了評分平局現象。
實驗結果表明,它能夠廣泛適配不同的 Agent Harness 和模型,提高多種基準任務中的準確率,同時通過評分機制的細化緩解量化誤差,使驗證結果更接近真實獎勵。
LLM-as-a-Verifier 不僅提升了 Agent 性能,還顯著增強了模型在長時序任務中的安全性和穩定性。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.