網易首頁 > 網易號 > 正文申請入駐

斯坦福推出Agent驗證框架「LLM-as-a-Verifier」

2026-04-27 11:31:24　來源: 機器之心Pro

河北舉報

分享至

本項目由斯坦福大學 CS 博士生 Jacky Kwok負責，主要貢獻者包括伯克利 EECS 博士生 Shulu Li。通訊作者為Ion Stoica（UC 伯克利教授、Databricks 創始人）、Azalia Mirhoseini（斯坦福教授，曾任職于 DeepMind 與 Anthropic）、以及 Marco Pavone（英偉達 AI 與自動駕駛研究總監）。

斯坦福、伯克利與英偉達聯合提出 Agent 驗證框架 LLM-as-a-Verifier。該方法是一種通用的驗證機制，可與任意 Agent Harness 和模型結合。

研究表明，通過擴展驗證階段的計算量（scaling verification compute），可以顯著提升 agent 整體性能，并在最有影響力的 AI 編程基準 Terminal-Bench 上超越 GPT-5.5 和 Claude Mythos！

LLM-as-a-Verifier 在 AI Coding 基準 Terminal-Bench 和 SWE-Bench Verified 上均取得了當前最優（SOTA）性能。 Transformer 論文作者 Lukasz Kaiser 以及 GAN 作者 Bing Xu 也對該工作進行了轉發與關注。

博客地址：llm-as-a-verifier.notion.site
代碼地址：llm-as-a-verifier.github.io

方法概述

大多數 Agent Harness 實際上已經「具備」解決問題的能力。當我們多次運行同一個 Agent（例如運行 100 次），它往往能夠在某一次嘗試中生成正確答案。但問題在于，它們無法判斷哪一個才是正確的。這一問題在長時序任務（long-horizon tasks）中尤為嚴重。

LLM-as-a-Verifier 通過 scaling評分 token 的細粒度（score granularity）、多次評估（repeated verification）以及評價標準的分解（criteria decomposition），顯著提升了驗證能力，并進一步提高了下游任務的成功率。此外，團隊發現隨著評分 token 細粒度的提升，正負樣本之間的得分區分度會進一步拉大。

核心問題：LLM-as-a-Judge 的局限性

標準的 LLM-as-a-Judge 通過提示模型輸出一個評分結果（例如，1 到 8 之間的分數），并選擇概率最高的評分作為最終的離散分數。

然而，這種方法往往存在評分粒度過于粗糙的問題。在比較長時序 agent 軌跡（trajectories ）時，LLM-as-a-Judge 通常會為不同的軌跡分配相同的分數（例如，兩條軌跡都被評為 4 分），從而導致平局，無法有效區分它們。

這種粗粒度的評分機制在 Terminal-Bench 上出現了27%的平局情況，限制了評判的精確性和區分能力。

LLM-as-a-Verifier: 從判分到驗證的范式轉變

從定義上講，judge（裁判者）是對整體情況形成總體判斷并給出結論的人；而 verifier（驗證者）則是對具體事項進行真實及正確性核驗的人，因此需要更細致、更具體的評估。

為此，團隊提出了 LLM-as-a-Verifier。它通過擴展以下三個維度來提供細粒度反饋：

重復驗證的次數（repeated verifications）
評分 token 的粒度（granularity of score tokens）
評估標準的分解（decomposition of evaluation criteria）

LLM-as-a-Verifier 將軌跡的獎勵表示為：

其中：

在選擇最佳軌跡時，團隊采用循環賽（round-robin tournament）：對每一對候選軌跡 (i, j), 驗證器都會利用上述公式計算其 reward。獎勵更高的軌跡獲得勝利，而在全部比較中勝場數最多的軌跡，將被選為最終結果。

實驗結果

1.在 Terminal-Bench 2.0 和 SWE-Bench Verified 等復雜的長時序基準任務中，LLM-as-a-Verifier 的表現全面超越了前沿模型并均取得了當前最優（SOTA）性能。所有實驗結果均來源于官方排行榜。

2.LLM-as-a-Verifier 能夠在不同的 Agent Harness 框架中實現無縫集成，其通用性驗證于以下三個基準任務：

ForgeCode：驗證準確率提升至 86.4%
Terminus-Kira：準確率提升至 79.4%
Terminus 2：準確率增加至 71.2%

這表明，無論針對何種 Agent Harness 或模型，該驗證方法皆可高效兼容并提升性能。

3.LLM-as-a-Verifier 在驗證準確率和消除平局方面全面領先于傳統的 LLM-as-a-Judge。即使在增加重復驗證次數的情況下（如 k = 16），Verifier 方法依然保持了至少 7% 的驗證準確率優勢。此外，它完全消除了平局現象。

4.試驗結果表明，增加評分 token 的粒度（granularity）以及提高重復驗證次數（repeated verifications）均顯著提高驗證準確率。此外，在評分 token 維度的細化分級（1→20）中，量化誤差得到了極大降低，從而更接近真實獎勵。

5.LLM-as-a-Verifier 放棄傳統的單一評分機制，采用將軌跡驗證解構為三個可組合的評估標準：

規范合規性 (Specification)：軌跡是否符合所有任務要求（路徑、命名等）；
輸出格式 (Output Format)：驗證輸出的格式是否符合預期結果；
錯誤檢測 (Error Checking)：軌跡中是否存在明顯的錯誤信號。

驗證計算作為新的擴展維度

「LLM-as-a-Verifier」是一種通用驗證機制，能夠顯著提升 Agent 的整體性能，并在多個 AI 編程基準上取得當前最優（SOTA）表現，超越了其他前沿模型如 Claude Mythos。

相比傳統的「LLM-as-a-Judge」方法，該框架利用更細致的評分粒度、重復驗證，以及評估標準分解，實現更高的驗證準確率和更精確的區分能力，消除了評分平局現象。

實驗結果表明，它能夠廣泛適配不同的 Agent Harness 和模型，提高多種基準任務中的準確率，同時通過評分機制的細化緩解量化誤差，使驗證結果更接近真實獎勵。

LLM-as-a-Verifier 不僅提升了 Agent 性能，還顯著增強了模型在長時序任務中的安全性和穩定性。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.