網易首頁 > 網易號 > 正文申請入駐

多輪Agent訓練拐點！清華首創可執行數據閉環，開源超越GPT-5

2026-02-17 15:04:43　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRST

【新智元導讀】清華團隊提出EigenData系統，通過可執行數據閉環優化多輪Agent訓練，在真實場景中使開源模型表現達到與閉源系統相當水平。關鍵在于訓練數據的穩定性和可驗證性，確保模型在交互中能持續學習有效策略，而非依賴不可靠的獎勵信號。

過去一年，Agent的「能力競賽」幾乎走到了一個拐點：單輪工具調用、短鏈路推理的提升還在繼續，但一旦進入真實多輪交互，系統開始暴露出完全不同的脆弱性。

工程團隊越來越頻繁地遇到同一問題：模型在離線評估中表現正常，但一旦進入真實多輪交互，訓練信號就開始頻繁失真。

一次異常的用戶行為、一次工具軌跡跑偏，都會把整段rollout的reward直接歸零，最終把強化學習推向錯誤方向。

越來越多的信號表明Agent訓練中：

多輪Tool-Using Agent的上限，越來越取決于訓練信號是否可歸因、可驗證，而不只是模型規模。

在τ2-bench等真實Tool-Using Agent基準中，研究者觀察到，多輪Agent在進入強化學習階段后，成功率并不總是隨訓練推進而單調提升，反而常伴隨明顯波動，這些波動并非來自模型能力不足，而更多源于長鏈路交互中用戶行為不穩定與獎勵誤歸因的持續放大。

一項最新研究從系統層面重構了多輪Agent的訓練流程：圍繞可執行數據生成、用戶模型穩定化與verifier-based獎勵提出了一套新的訓練范式，并在τ2-bench的三個真實工具域上完成驗證。

論文鏈接：https://arxiv.org/abs/2601.22607

在不引入更大模型規模的前提下，開源Qwen3系列模型在關鍵場景中實現了顯著提升：

Airline中73.0%pass1，與Gemini 3.0 Pro基本持平，明顯高于GPT-5（62.5%）

Telecom中98.3%pass1，達到當前公開的最佳結果，超過Gemini 3.0 Pro、Claude Sonnet與GPT-5

這些結果表明，借助系統級訓練范式的優化，開源模型在真實工具交互任務上的可靠性已經被推至與主流閉源系統同一梯隊。

多輪Agent難訓

并不是「不會用工具」

如果只停留在單輪工具調用層面，Agent的問題看起來并不復雜。

給定輸入、選擇工具、執行一次、返回結果，reward也可以直接對應到這一步是否成功。

但一旦把視角拉到真實的多輪交互中，情況就完全變了。

對話被拉長為長鏈路的trajectory，工具調用不再是孤立事件，而是與用戶反饋交錯出現；用戶狀態也不再是靜態前提，而是在交互過程中不斷暴露、甚至發生漂移。

此時，Agent 面對的已經不是「會不會用工具」，而是能否在一個持續變化的系統中保持決策一致性。

而在現實訓練環境中，模型往往表現出明顯的不穩定性，模型容易學偏，甚至出現效果隨訓練波動、難以收斂的問題。

研究結果指明主要原因集中在兩點：

1. 缺乏真正「可用」的訓練數據

真正可用于多輪Agent訓練的數據，必須同時覆蓋：

多輪對話+ 多步工具執行 + 用戶側信息逐步透露/改變偏好。

問題在于，這樣的數據在現實中幾乎不可能通過人工標注規模化獲得。而自動合成的數據，看似緩解了數據稀缺的問題，卻引入了新的隱患。

在大量樣本中，工具調用軌跡在文本層面「看起來合理」，但只要真正執行一遍，就會觸發不可完成狀態，trajectory 在中途失敗。

最終，Agent 學到的并不是穩定、可復現的工具使用能力，而是一種停留在表層的策略模式（surface-level policy），即它看起來像在做事，卻無法在真實系統中跑通。

2. 用戶模擬的不穩定性會直接污染RL信號

在interactive RL設置中，用戶模擬器是驅動對話不可或缺的一環。但我們發現，開源模型充當用戶時經常無法穩定遵循指令，甚至會隨意調用工具，導致 rollout 提前失敗。

在多輪Tool-Using Agent的訓練中，reward不再只取決于某一次工具調用是否成功，而是由整段交互trajectory的最終狀態統一決定。這意味著，只要鏈路中任何一個環節出現偏差：一次用戶行為異常、一次工具誤調用、一次狀態提前終止，整段rollout的reward都可能被直接歸零。

從結果上看，Agent「失敗」了；但從系統內部看，失敗并不一定來自agent policy本身，也可能來自于用戶模型本身的不穩定性。

在真實訓練過程中，user model往往并不能始終穩定地遵循任務設定。它可能偏離指令、誤調用工具，甚至在關鍵步驟提前結束對話。

這些行為本身并非agent決策的結果，卻會直接決定最終reward。

于是，情況就變成Agent在局部決策上是正確的，但由于用戶行為偏移，最終環境狀態失敗，reward被統一判為0

從強化學習的視角看，這構成了嚴重的credit assignment failure。reward無法區分失敗究竟源于 agent policy，還是來自user policy的異常行為。在這種條件下，強化學習并不會「修正」問題，而是會不斷將噪聲反向傳播到agent上，最終推動策略朝著錯誤方向收斂。

從這個角度看，多輪Agent的訓練瓶頸，并不完全是算法問題，而是一個系統結構問題。

基于這一判斷，論文并沒有繼續在強化學習算法層面疊加復雜性，而是選擇從更底層的訓練流程入手，重新拆解agent與user的角色分工。

EigenData不「生成更多數據」

讓數據自己進化

在多輪Tool-Using Agent的訓練中，數據問題往往被簡化為一個數量問題：數據夠不夠多、覆蓋夠不夠廣。

但在真實long-horizon交互場景下，這個假設并不成立。

大量 synthetic data 在文本層面看起來合理，邏輯自洽、對話完整，但一旦真正執行工具調用，就會暴露出根本性問題：工具參數不合法、狀態無法到達、任務在中途進入不可完成區域。

這意味著，模型并不是在「失敗中學習」，而是在用不可執行的軌跡訓練自己。因此原文中EigenData的設計重點關注了如何構建一個可閉環演化的數據生成過程，即：

生成數據 → 發現失敗 → 自動修正prompt與workflow → 再生成

EigenData并不是傳統意義上的synthetic data pipeline，而是一個能夠根據失敗反饋持續迭代的多智能體系統，結合自檢與自修復機制，逐步構建出高質量的數據集合。

在EigenData的工作流程中，每條訓練樣本都被要求必須滿足一個硬性條件：其對應的工具調用軌跡可以被完整執行，并由verifier在代碼層面驗證最終環境狀態。

如果執行失敗，失敗信息會被回流，用于自動修正 prompt、workflow 以及生成策略本身。

這使得數據分布并不是一次性生成的結果，而是會隨著失敗反饋持續向「可執行區域」收斂。通過自動生成多輪對話并執行真實工具調用，每一條數據實例都會配套一個「可執行驗證器」，使得 Agent 行為是否成功可以通過代碼直接判斷，因此能夠保證數據質量「越跑越好」。

從系統角度看，通過這一動作，EigenData不斷縮小了模型可以學習到的行為空間，使其對齊真實系統的可行解集。這一步保證了模型在RL介入之前，每個reward都可以真正對應到一個已經被系統驗證后的結果，使訓練信號本身是可執行、可驗證、可復現的。

先訓用戶模型，再訓Agent

即便訓練數據本身是可執行的，多輪 Agent 的訓練仍然可能失敗。

原因在于，在interactive agent場景中，用戶模型本身就是系統的一部分。

如果user policy存在漂移或不穩定性，即便 agent 的局部決策是正確的，整段 trajectory 仍可能因為用戶行為異常而失敗，最終 reward 被統一歸零。

基于這一認識，研究者們將訓練流程拆分為兩步：

首先，使用EigenData生成的可執行對話數據，對user model進行SFT微調，使其行為穩定、可控，并與任務設定對齊；
在用戶側不再成為主要噪聲源之后，才引入強化學習優化agent policy。

這一拆分并不是額外的工程復雜度，而是一個系統級前置條件。它從根本上減少了 reward 的混雜來源，使強化學習不再頻繁懲罰「正確但被用戶行為破壞的決策」，訓練曲線也因此變得穩定、可預測。

用「可執行結果」替代主觀獎勵

在強化學習階段，該方法不再依賴模糊的reward model，而是用任務自帶的驗證函數（verifier）直接檢查最終環境狀態，實現「對 / 錯」的可執行、可審計獎勵信號。

在此基礎上，引入GRPO的group-relative advantage：針對同一任務采樣多條trajectory，進行組內相對優勢學習，以降低long-horizon交互導致的高方差與不穩定性。

同時使用dynamic filtering剔除「全對/全錯」的低信息樣本，將訓練預算集中于具有區分度的任務子集。

在這些設計的共同作用下，RL信號更干凈、更穩定，訓練過程也更不易出現策略漂移。

實驗結果

開源模型訓練至接近封閉模型水準

為了驗證這一套系統級訓練范式在真實交互場景中的有效性，研究者在τ2-bench的三個真實工具任務（Airline / Retail / Telecom）上進行了系統評估。評估采用pass1指標，即要求Agent在一次完整多輪交互中成功完成任務，這一指標能夠更直接反映 Agent 在 long-horizon 場景下的穩定性與可靠性。

結果顯示，性能提升并非偶然，而是在多個場景中穩定出現。

在規則最復雜的Telecom場景中，Qwen3-235B-A22B-2507經SFT + RL訓練后，pass1提升至98.3%，進入當前公開結果的最強梯隊；
在Airline場景中，同一模型達到73.0% pass1，整體表現已與主流閉源系統對齊。
更關鍵的是，在三域混合訓練設置下，一個模型同時學習多個工具環境，最終仍能保持81.3% 的平均 pass1，表明該方法學到的并非單一場景下的「投機策略」，而是更具通用性的 tool-using 能力。

進一步的消融實驗揭示了這些提升的來源。

一旦移除validation / verifier或數據自進化機制，SFT 階段的性能便出現明顯下降，說明數據的可執行性與多樣性是能力形成的基礎；而如果在未對用戶模型進行穩定化預訓練的情況下直接引入強化學習，整體性能反而會退化。這一結果表明，只有在用戶行為被有效控制的前提下，強化學習才能持續帶來正向增益。

可執行訓練信號并不是一個「錦上添花」的技巧，而是一條明確的系統分界線。

當 Tool-Using Agent 進入真實多輪交互，問題不再只是「強化學習還能不能收斂」，而是訓練信號本身是否具備工程意義：它是否可執行、可歸因、可驗證，是否真正對應到一個可復現的系統結果。這正是EigenData介入的位置。

通過將數據生成、工具執行與verifier校驗統一進一個閉環系統，EigenData不只是為RL提供了「更干凈的reward」，而是重新定義了什么樣的訓練信號才值得被強化學習放大。在這一前提下，GRPO、dynamic filtering等優化策略才第一次擁有清晰、穩定的作用對象。

論文給出的判斷標準其實非常直接：如果一個多輪Agent的訓練流程無法明確回答「reward 到底在獎勵誰、失敗究竟由誰導致、同一任務下哪條軌跡更好」，那它在工程上仍停留在「看起來能跑」的 workflow，而不是「可以持續優化」的system。

從這個角度看，訓練中出現的performance oscillation、reward 被異常用戶行為清零、RL 反而帶來退化，并不是實現細節上的瑕疵，而是訓練信號尚未被系統性構造的必然結果。

這項工作的核心貢獻，并不在于提出一種新的RL技巧，而在于通過EigenData將多輪Agent的post-training推向一個新的工程范式：

當訓練信號先被構造成可執行、可歸因、可驗證的系統對象時，強化學習才真正成為一種可控的系統優化；在此之前，再多的 rollout 和更大的模型，也只是在噪聲之上疊加計算。

參考資料：

https://arxiv.org/abs/2601.22607

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.