網易首頁 > 網易號 > 正文申請入駐

評測也很酷，Data Agent 自動化評測的三層框架與實戰

2025-12-11 12:36:24　來源: InfoQ

北京舉報

分享至

作者｜尹小明

編輯｜李忠良

策劃｜AICon 全球人工智能開發與應用大會

在大模型技術飛速發展的當下，大數據領域的各類應用如雨后春筍般涌現，從數倉開發到 ChatBI 問數，再到深度分析 Agent，這些領域的大模型應用極大地提升了數據處理和分析的效率。但與此同時，如何科學、準確地評估這些應用的效果，成為了行業面臨的重要難題。

InfoQ 榮幸邀請到了字節跳動 / 數據平臺大模型評測技術負責人尹小明在 AICon 全球人工智能開發與應用大會·深圳站上分享了《評測也很酷——Agent 自動化評測技術創新與實踐》。作為字節跳動數據平臺的大模型效果評估團隊，他們深耕數據應用 Agent 領域，構建了覆蓋從數據開發到數據應用垂直領域 Agent 應用的評測技術體系，尤其在自動化評測算法、Agent 級評測框架等方面形成了可落地的技術方案。本次分享將聚焦這一領域的技術細節與實踐經驗。

12 月 19～20 日的 AICon 北京站將錨定行業前沿，聚焦大模型訓練與推理、AI Agent、研發新范式與組織革新，邀您共同深入探討：如何構建起可信賴、可規模化、可商業化的 Agentic 操作系統，讓 AI 真正成為企業降本增效、突破增長天花板的核心引擎。

詳細日程見：

https://aicon.infoq.cn/202512/beijing/schedule

以下是演講實錄（經 InfoQ 進行不改變原意的編輯整理）。

為什么“評測也很酷”：

從用例到效果度量

先談今天分享的主題——“評測也很酷”。在傳統軟件測試中，我們編寫并執行用例，核對功能是否正常即可。而在大模型相關場景中，評測的復雜度和挑戰明顯更高。

挑戰主要體現在兩方面：一是如何更加貼切地評價我們所構建應用的實際效果；二是既有的傳統技術是否可復用，若不足，我們應在何處開展探索與創新。那當我們談“模型評測”時，究竟在說什么、常見的評測維度和指標有哪些？

首先是“效果”，也就是大家常說的好不好、準不準。這里有三個常見指標，首先是事實性，指模型在回答時是否遵從通識和常識，在給定上下文的情況下是否依據證據作答，是否存在“幻覺”；其次是有用性，回答是否對任務有幫助，不能只是講了實話卻對問題沒有實質價值；最后是有害性，這是模型訓練和評估都會關注的方向，比如是否觸及政治敏感、是否引導不當行為等；

其次，是性能與推理性能。很多人都有這種體驗：大模型輸出 Token 很慢，我得等很久，眼看著一個字一個字往外蹦。這里通常涉及首個 Token 出現的時間，也就是首字符 / 首 Token 時延，以及完整推理過程中的生成速度等；同時還要看資源消耗，這些都應納入評估口徑；

第三是穩健性，或者說魯棒性。重點在于能不能容錯、持續穩定地輸出，以及面對對抗或異常輸入時的抗攻擊能力。這些都直接關系到上線后的可用性與風險。

明確了該“看什么”，接下來就是“怎么評”。在實際工作中，當前的常見評測方法有以下幾種：

首先人工評測。在大模型生成帶有主觀性的內容時，比如一次性生成幾千張創意圖片，哪個更好、哪個更差，通常要先請領域專家過一遍，并據此寫出清晰的評價標準——我們認為什么是“好”，什么是“壞”；其次是自動化評測。

業界普遍的做法大致有幾類：一類是客觀題（單選或多選），便于直接做結果匹配；文本類會更難一些，常見思路是和標準答案做相似度比較，配合相應算法和指標，比如 BLEU、ROUGE 等；還有一類是基于排序的評估（rank），在 RLHF 里就很典型——不是給一個絕對分，而是讓人對多個候選進行相對優劣比較，從而完成與人的偏好對齊。

此外，人機協同評測。很多場景里，純自動化還達不到足夠準確、足夠讓人放心的程度，于是通常采用機器先給出初步結論和建議，再由人工復核與定判。

不過，落地過程中依然會暴露出一些共性痛點。

一方面當下有很多評測 Benchmark，也有很多評測集。當評測結束之后，大家常有一個痛點：你說現在效果很好，可為什么線上客戶老在吐槽，說“我的感覺沒有你說的分數那么高”？這其實就是靜態評測和線上實際效果脫節的問題。

另一方面：今天很多評測往往針對模型的單一能力，或者若干常見的通用能力。這就像高考考數學、語文、英語；但這些科考完，放到自己的業務里會發現，成績好并不等于能力強。回到實際業務場景，我該怎么綜合評估他的能力？

再者，即便有了一個評測集，業務在變，產品定義在變，線上用戶的使用方式也在變。這個時候，評測就更難反映線上的真實情況。

以上是通用框架，落到數據應用 Agent，具體會碰到哪些垂直適配難點？

第一，領域特殊性。模型的代碼生成能力很強，但在早期訓練語料里，SQL 的占比非常低。所以你會發現：它寫 Python 還不錯，寫 SQL 就明顯吃力。另外，在數據領域，數據“正確性”極其關鍵。

找資料、寫個想法，準不準影響也許不大；但一份數據分析報告，或者一個關鍵數值，最后要給到老板，如果這個數差之千里，后果就很嚴重了。

還有，從評測的維度來看，通用模型通常關注一些基礎能力，比如數學。但一旦落到真正的 Agent 場景，情況就完全不同了。在數據（Data Agent）方向，像“深度研究”這樣的產品形態，涉及的維度非常多。其包括數據源的差異、數據的異構性都很復雜。

因此，對應的評估維度也需要從單一能力，擴展到能夠覆蓋這些復雜因素。

第三，“效率”與“并發”非常關鍵，這里的并發指研發并發，同時嘗試多種方案。這點尤其重要。為什么？因為在做模型時，我們至今并沒有一套被驗證為“最有效”的通用架構；模型本身也在不斷迭代。

很難沿著一條技術路線一直走到底，所以必須做大量嘗試；新模型出來，也要做新的探索。此時能否承載方案空間的復雜度，往往決定成敗。因此，評測的效率就顯得格外重要。一輪回歸測試要做兩周，和一天之內就能判斷一個方案是好是壞，帶來的研發周期差異可想而知。

三層評測框架

前面說的是數據領域里可能會遇到的問題。回到 Agent 這邊，我們提出了一個“三層評測”的體系設計。在構建大模型的 Agent 應用時，通常會同時面對幾層問題。

最下層是技術選型。市面上的模型很多，豆包、千問、文心、DeepSeek 等等。我的 Agent 關注哪些能力，哪些模型能達標、值得進入實驗集？不能盲目把所有模型都往架構里堆，并發和成本都承受不住。先做一輪有依據的篩選，這一步非常關鍵；

中間層是研發迭代。確定了初步架構之后，需要持續優化，并能看清 Agent 的各個部分在哪里拖了后腿。大家熟悉的 Multi-Agent、ReAct、workflow 都會用到。做法上更像“單元測試”式的評測：把子模塊拆開看，既看效果也看速度，把問題收斂到具體模塊，迭代才高效；

最上層才是端到端的業務效果。最終要用一套覆蓋完整鏈路的評測集與流程，加上相應的方法實踐，來衡量這個 Agent 在真實任務中的表現到底如何。

圍繞上述各層，我們開展了配套實踐。

第一個層面是基礎能力評測，對應我們前面說的技術選型階段。做這件事的目的，是先設定一個“準入門檻”。以數據領域為例，我們會關注工具調用能力（Function Call、Tool using、MCP 等）、數值計算與表格理解、數據幻覺的控制、復雜指令遵循，以及編碼與 Text-to-SQL。各個方向基本都有可參考的開源 Benchmark。

比如在 Function Call 方向，我們調研后會采用 ComplexFuncBench；在編碼能力上，早期熟悉的 HumanEval 仍有參考價值，現在也會引入 SWE-Bench（評估代碼 Agent 能力的 Benchmark）。這些評測會接入我們的平臺，提供給數據平臺的各個探索團隊使用。

第二個層面是組件（或子 Agent）的評測，面向的是 Agent 的各個組成部分。可以把一個 Agent 的工作流程拆成幾個階段：先是召回，比如做 Schema Linking；然后是理解與規劃；接著進入洞察、分析與執行；最后是結果總結，把結論寫成報告。

我們要看的，是問題出在第幾個階段，以及每個階段的實際表現如何。放到一個典型的 RAG 應用里，前序召回的上下文質量會直接決定后續表現：Schema 里有沒有找到正確的字段、閾值和指標，都會影響后面 SQL 能不能寫對。如果第一階段就偏差很大，后面再怎么優化 Agent 也很難“拉回”。

第三個層面，是端到端效果評測。一方面，我們針對特定的業務場景構建相應的評測集；層級越往上，我們離業務越近，評測也就越貼近實際的業務場景和產品形態的定義。

我們相應地構建評測集和自動化評測方法；同時，在我們的評估平臺上設有“數據與飛輪”模塊對接業務，把線上的會話日志采集進來，用于 Case Study、回歸評測集的沉淀，以及人工標注。

Data Agent 評測技術創新和實踐

基于上述“三層評測”框架，下一步將聚焦 Data Agent 這一主題，結合兩個具體案例展開說明。

其一為 Text-to-SQL 任務。無論是問答取數類 Agent，還是更綜合的分析型 Data Agent，自然語言查詢通常需要轉化為實際的 SQL 查詢；無論用戶提出具體指標問題（如“昨天的 DAU 是多少”）還是總結性分析請求（如“請分析上一周的數據情況”），底層通常都會拆解為若干查詢任務，核心評估點落在 SQL 查詢的準確率與誤差歸因。

傳統的 Text-to-SQL（或 NL-to-SQL）評測方法與數據集（如 Spider、WikiSQL、BIRD-SQL 等）為通用場景提供了基礎衡量手段，但在面向大數據與真實業務約束的環境中，仍會遭遇諸多適配性與可擴展性問題。

傳統評測方法往往只給出“對 / 錯”的結論，這種二元判定無法體現能力優劣的細微差異。以一條 SQL 為例，若僅在某個條件上將“≥”寫成“>”，其余部分完全正確，執行結果可能只相差極小，但在二元評分下仍被判為零分。

若此類情況高頻出現，模型的實際可用性仍然較強——在數據開發場景中，只需改動個別細節即可投入使用——而傳統方法無法反映這種“接近正確”的價值。

所謂“執行正確性”，是指對每個問題—答案對提供標準 SQL 與測試數據集，分別執行標準 SQL 與模型預測的 SQL，比較結果是否一致，以此判斷對錯。

然而實踐表明，這一方法易產生誤判。根源在于測試數據分布并不完備，可能存在“非等價 SQL 執行結果相同”的情況。例如，age > 34 與 age ≥ 34 在測試集中恰無 34 這一邊界值時，二者輸出一致，導致錯誤地判定為正確。

這里放一個稍微復雜點的例子：我們的gold（ground truth）標準答案其實是一條很簡單的 SQL，問題是“文檔中哪些template_id被使用過”。但模型在預測時，去和另一張template表做了INNER JOIN，按id關聯。

肉眼一看就知道兩者不是一回事。按理說，放到設計更嚴謹的數據集上，應該能把差異測出來；可不幸的是，在 Spider 上兩條 SQL 的執行結果一模一樣，最終造成了誤判。

還有一種做法是比較標準答案 SQL 與預測 SQL 的文本相似度。字面上可以直接比對一致性，并計算一個相似度分數，比如余弦相似度等。但這類方法很難準確反映語義 / 邏輯上的等價：哪怕只是表名或子查詢的別名不同，也可能被判為不一致而誤判。

第三個問題，如果要在大數據引擎（比如 ClickHouse）上構造一套可用于回歸測試的數據集，成本非常高。這些都是傳統 Text-to-SQL 評測在實際落地中的局限。

針對以上問題，我們做了一些改進，核心是提出一套基于語義等價的評測方法。所謂語義等價，是指兩條 SQL 在邏輯含義上相同，那么它們在執行結果上就應當相同；只要判斷這一點即可，并不一定需要真正去跑一次查詢。

做法上，先把 SQL 當作代碼處理，表示成抽象語法樹（AST）。進一步，我們借助Apache Calcite做執行層的下推，把字面 SQL 轉成執行層的語法表示，也就是RelNode。到了這一層，很多寫法上的不一致會被歸一到相同的執行語義。

舉兩個直觀的例子：某些情況下，用JOIN和用IN子查詢是等價的；再比如連接兩個表時，你可以用子查詢，也可以用WHERE條件，最終下推到執行語法樹上的執行過程是一樣的。通過這樣的語義下推和標準化，能抹平大量表面差異。

第二個方法，我們把節點之間的引用關系建立起來：參考答案是一張圖，預測答案也是一張圖，然后訓練一個圖匹配網絡（Graph-Matching Network，GMN）來計算兩條 SQL 在語法 / 表達上的相似度。基于語法樹的匹配這一路，我們稱為RelPM（在執行層面的語法樹上做Partial Matching的局部匹配）：用規則做局部比對并賦權，得到 0～1 的相似度分數，已經明顯優于傳統做法。

進一步，在FuncEvalGMN上，無論對比基于執行正確性的評測、基于文本 / 語義相似度的評測，還是一些基于 BERT 的預訓練模型，我們的效果都有顯著提升。在業務側，這套方法也已經成為我們數據領域的核心算法之一。

以上 Text-to-SQL 更偏向“查詢”類場景，不過 Data Agent 的產品形態在不斷豐富。現在形成了一種新的產品形態——“深度研究”。用戶只需提出一個簡單的問題，或者把意圖描述清楚，系統就會給出一套完整的分析流程，并且能夠同時完成多種分析任務。

評測在這里會明顯更難。它不再是簡單的查數題，比 Text-to-SQL 難得多。我們要回答的不是“查得對不對”這么單一的問題，還要判斷：這份報告是否對業務有用；生成時的推理思路是否合理；內容是否完整，是否覆蓋了我要求它分析的那些角度；最后給出的建議是否有效。

用什么維度來衡量一份深度分析報告“好不好”，以及如何把這些維度做成可執行的自動化評測，都是實打實的挑戰。

因此我們首先定義了一套評測體系。它是指用一套明確的標準來衡量好與壞。就像高考有一整套評價口徑；公司招聘、晉升和績效也都有相應的準則一樣。針對“深度研究”這種產品形態，我們從幾個角度來評：一是分析與洞察的深度與準確性；二是報告在展示上的可讀性、易讀性；三是執行過程的穩定性與成功率。圍繞這些，我們設定了第一層與第二層的評估維度，并分別定義了關鍵指標，并在每項指標下設定可落地的評分點。

接下來談自動化評估技術。這是業界相對前沿的話題，大家可能聽過 “LLM as a Judge” 或 “LLM Judge”。我們最新的探索是用 Agent 來評測 Agent。原因很簡單：寫一份數據分析報告，沒辦法把數據直接丟給大模型就指望一次性產出完整結果，中間需要大量 Agent 能力來完成過程性的工作，所以在評測側同樣要引入 Agent 技術。

從評測角度來講。我們也不可能把一個結果直接交給 LLM 就讓它打分完事，評測仍需要 Agent。這里大家可能會有個自然的疑問：Data Agent 做了那么多架構改進、用了那么多技術和技巧，甚至有那么多專家參與，它都可能算不對；為什么“評測的 Agent”能評得出來？

這是我們一開始必須回答的基礎判斷。我的判斷基于幾個前提：第一，挑錯往往比做對容易；給出一套完全正確的方案很難，但指出其中的問題相對容易。第二，可以復盤過程：把 Data Agent 寫報告的完整流程和數據計算鏈路逐步審閱，像批改應用題一樣看每一步思路是否合理；如果每一步都是對的，結果大概率也是對的。第三，可以做定向優化：針對特定領域或特定評測集進行針對性調優，并結合 Agent 方法增強判斷能力。基于這些，我們認為這條路線是有前景的。

在實現上，我們用到一些基本技術。其一是自我反思：模型先按評分標準完成一次打分，再進入反思環節，檢查自己是否完整遵循了打分邏輯、是否有遺漏。其二是多 Agent 協作架構。

我們把評估對象（報告）、評估過程、問題及相關上下文作為整體輸入，送入一個用于應用評估的系統（我們稱為 Critic Agents）。該系統首先按我們的評分標準與細則完成初評分，然后交給 Reflect（自我反思）模塊，復查本次打分是否存在遺漏或不當之處。

再舉一個我們踩過的坑：寫報告時很容易在單位轉換上出錯。原始計算得到的是一個數，寫進報告卻被表述成“XX 萬”。這既是 Data Agent 的高發錯誤點，也是評估里容易被誤判的點。

針對這類問題，我們會把相關環節交給Reflect的反思流程復查；同時引入多個 Agent，從不同角度、甚至基于不同的底層模型分別打分，最后由“裁判長”統一審閱整條打分鏈路及其與標準答案的對齊情況。

整體架構上，我們還會結合ReAct，讓評測側“自己寫代碼”把關鍵數據復算一遍，核對計算是否正確。遇到特定場景（比如歸因分析），要完成有效評估還需要專業的領域計算工具；這些工具同樣交由評判方調用，才能對該類任務給出評價結果。

為說明方法有效性，以下給出兩個真實案例。

這是第一個案例：我們用自動化評測在報告里定位到數據錯誤。上面的片段是一個典型的歸因場景。機評發現，報告寫到“德芙巧克力單筆銷售額 1.5 萬”等數字沒有真實來源。回溯過程可以看到，右側的 SQL 少寫了一個GROUP BY 商品名。

在這種寫法下，只能查出一系列明細訂單，不可能直接得到“德芙巧克力 1.5 萬”這樣的聚合結論。原始明細里雖然出現過“1.5 萬”這個數，但無法據此推斷它對應“德芙巧克力”。這一問題被機評準確抓出。

在人評場景中，讀過類似報告的同學會有同感：像 OpenAI 的 Deep Research 那樣的長報告，要把其中每個數字都核驗一遍，幾乎不現實；人評非常容易漏錯。相比之下，機評在這類細粒度、很復雜的校驗上更有優勢。

第二個例子，我們評估的是“分析意圖的完成度”。左邊是題目：對 DAU 數據做分析；下面先定義分析對象，再給出一套完整的分析框架，也就是要從哪些角度展開。右邊是自動化評測頁面的截圖。紅框里可以看到：這個題目一共有 18 個分析意圖，這份報告完成了 17 個，對應得分 0.94。系統還會標注哪一個意圖沒有完成，已完成的意圖在報告中對應的是哪些章節。由此能直觀看到機評在這個場景下的實際效果。

最后給一組離線實驗數據：我們做了人評與機評的對比。機評在事實性錯誤上的召回率超過 88%，準確性達到 86%。意思是說，真實存在的錯誤里有 88% 以上能被正確發現；而被機評判為“錯誤”的項里，接近九成判斷是對的。對日常評測，尤其是研發迭代，這樣的能力基本夠用。只要測試集覆蓋充分，就能用來比較兩個版本、兩種架構的優劣。

當然也有目前覆蓋不到的部分。比如易讀性高度依賴人工判斷：圖表展示是否出現圖例堆疊等問題，自動化暫時難以發現；再如報告是否“足夠有深度、足夠有豐富度”，這些判斷偏主觀，我們也尚未做自動化覆蓋。

評估平臺的工具與鏈路建設

開展評測不僅需要方法與算法，也需要完善的平臺與工具支撐。我們在數據平臺內部搭建了面向數據評估的統一平臺，定位于為大模型應用的探索與優化提效。平臺覆蓋數據集管理與標注、自動化與人工評測、指標匯總與分析、結果歸因與對比歸因等完整流程，并提供相應的功能組件。

另外平臺同時引入“數據飛輪”，將線上新增案例持續沉淀為評測集，確保評測隨業務與使用方式演化而更新；在基礎選型環節，提供 Benchmark 與榜單模塊，便于業務側進行判斷與選擇。

這里簡單介紹一下幾個特色功能。第一個“數據飛輪”前面已經提過。第二，我們還提供一系列常用評測算子，既有基于規則實現的，也有基于大模型實現的。

業務方可以自行調用，在“自定義策略”模塊里按業務需要編排這些“原子算子”，實現自己的分析邏輯。針對這類場景，我們還設計了“評估工作流”模塊。用過類似 langchain、Dify、Coze 這類平臺的同學都會熟悉，用工作流可視化地搭建一個 agent；同樣地，我們也支持把評估流程用工作流快速搭建起來，更高效地復用算子，而不是一律寫代碼。

這個模塊的反饋很好，內部評測同學也在用它為業務搭建評測流程。舉個很簡單的用法：先對輸入做基礎處理與歸一化，然后調用一個評估算法，或調用大模型，并寫好自己的 prompt，即可把這條評估鏈路跑通。

未來展望

面向未來，自動化評測在數據領域可能的重點投入方向如下：

首先，評測的維度和體系需要進一步完善。現在對多模態能力的利用還不夠，數據集也需要持續優化；流程要更規范，效率要更高。同時要解決線上與線下的一致性：如何讓線下評估盡可能反映線上的真實能力，而不是做成“線上全量、全人工”的評估。

可以通過有效采樣、時效性校驗等手段，持續衡量線下評測數據集是否過時，讓評測結果真正對應用戶的實際體感。

其次，在應用改進方面，以前常講 TDD（Test-Driven Development）。在大模型時代，我更主張“評估驅動開發”（EDD）。它需要把評估更好地分解到 Agent 架構的各個環節：細化到子模塊的能力、推理的不同階段，并把最終業務指標與過程性指標建立起更有效的關聯。

模型訓練層面，無論是精調（SFT）還是強化學習，歸根到底都是與預期業務效果和人類判斷對齊，這與評測天然相關。我們也在探索用自動化評測去反向驅動訓練流程。

最后，是讓自動化評估的結果更快、更高效地生成對應用改進的建議，切實服務迭代。這能直接幫助到研發與業務兩端：作為用戶方 / 業務方，可以更有效地判斷一個 Agent 是否滿足需求；作為開發者，也能在更高效的評測支持下，用更大的探索空間去嘗試新技術方案，并把最終效果做上去。

AI 重塑組織的浪潮已至，Agentic 企業時代正式開啟！當 AI 不再是單純的輔助工具，而是深度融入業務核心、驅動組織形態與運作邏輯全面革新的核心力量。

把握行業變革關鍵節點，12 月 19 日 - 20 日，AICon 全球人工智能開發與應用大會（北京站）即將重磅啟幕！本屆大會精準錨定行業前沿，聚焦大模型訓練與推理、AI Agent、研發新范式與組織革新，邀您共同深入探討：如何構建起可信賴、可規模化、可商業化的 Agentic 操作系統，讓 AI 真正成為企業降本增效、突破增長天花板的核心引擎。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.