訓(xùn)練獎勵太稀疏？港中文聯(lián)合美團(tuán)給Agent加上「過程分」

2026-02-25 17:27:26　來源: 機(jī)器之心Pro

河北舉報

分享至

在很多大模型和 Agent 的訓(xùn)練里，最常見的一種做法就是只看結(jié)果：最后答案對了就給獎勵，錯了就當(dāng) 0 分。

在單輪問答里，這樣「只看結(jié)果」還勉強(qiáng)能用；可一旦換成 Agent 這種要多輪對話、搜索、刷網(wǎng)頁、寫代碼、讀文件的長鏈任務(wù)，就變成用一個 bit 去概括一整條復(fù)雜軌跡。

結(jié)果就是：差一點(diǎn)就做成功的過程，和從第一步就跑偏的過程，在獎勵眼里沒區(qū)別；訓(xùn)練看不出哪種失敗更有價值，手寫規(guī)則或人工細(xì)粒度打分又很難覆蓋開放環(huán)境、多模態(tài)這些復(fù)雜情況。

港中文和美團(tuán)在這篇工作里，盯上的就是這個核心矛盾：

Agent 需要長程、細(xì)粒度的反饋，但我們手里大多只有終局對錯這樣的粗粒度獎勵。

論文標(biāo)題：Exploring Reasoning Reward Model for Agents
論文鏈接：https://arxiv.org/pdf/2601.22154
項(xiàng)目地址：https://github.com/kxfan2002/Reagent

為了解決這個矛盾，作者先造了一個「懂推理、看得懂工具調(diào)用」的評審器，給 Agent 的整條軌跡打「過程分」和「評語」，再把這份反饋喂回訓(xùn)練。

這也是 Reagent 框架的核心出發(fā)點(diǎn)：讓 Agent 不再只看結(jié)果，而是也要為自己的思考和工具調(diào)用過程負(fù)責(zé)。

給 Agent 的思路打個分

這篇工作最重要的一步，就是不再只看 Agent 最后有沒有把題做對，而是開始認(rèn)真給整個思考過程打分。

研究團(tuán)隊(duì)先搭了一套專門面向智能體的「思考評分類」數(shù)據(jù)：里面收集了各種真實(shí)的 Agent 軌跡，有推理順暢但執(zhí)行失誤的，有一路亂猜卻剛好蒙對的，也有工具用得亂七八糟的。每一條軌跡，都被標(biāo)注成一份「閱卷意見」，既指出思路哪里站得住腳、哪里明顯跑偏，也給出一個 0～1 之間的整體分?jǐn)?shù)。

基于這套數(shù)據(jù)，他們訓(xùn)練了一個專門的「思考評分模型」——Agent-RRM。它不會只看最后一行答案，而是把整個過程從頭看到尾，然后輸出三樣?xùn)|西：一段內(nèi)部分析、一小段給 Agent 看的批評意見，再加上一個綜合分?jǐn)?shù)。

舉個簡單的例子：

兩條軌跡最后都答對了，但一條邏輯跳躍嚴(yán)重、工具亂用，只是誤打誤撞到達(dá)正確答案，那 Agent-RRM 可能只給個 0.3；
另一條從一開始就分析清楚、什么時候該搜、什么時候該點(diǎn)進(jìn)網(wǎng)頁、怎么利用信息都說得明明白白，這種思路就可能拿到 0.9。

就像老師改卷，不是只看「A/B/C/D」選了啥，還會看你中間的演算過程，給「過程分」。這一招的目標(biāo)很明確：

教會 Agent「怎么想」「怎么用工具」，而不是教它「怎么猜對答案」。

統(tǒng)一文本批評和獎勵信號：Reagent 框架

有了會打「思維分」的 Agent-RRM，還要想清楚怎么把這些反饋喂回給 Agent。這就是 Reagent 框架要解決的事情：把「文字點(diǎn)評」和「分?jǐn)?shù)獎勵」統(tǒng)一起來，用在智能體訓(xùn)練里。

作者設(shè)計了三種用法，可以理解成三檔「加持程度」：

① 只加點(diǎn)評，不改模型（Reagent-C）

最輕的一種：不動 Agent 參數(shù)，只在推理時多一步「聽老師講評」。

大致流程就是：Agent 先做一遍題，Agent-RRM 看完給一小段 critique，指出關(guān)鍵問題，然后讓 Agent 在這段點(diǎn)評的基礎(chǔ)上重做一遍。這相當(dāng)于給任何現(xiàn)成的大模型，外掛一個「老師幫你看一眼再交卷」的過程。

② 給獎勵加一條「過程分」（Reagent-R）

再往上走一步，就是把 Agent-RRM 打出來的分?jǐn)?shù)，當(dāng)成額外獎勵加進(jìn)來。

以前的訓(xùn)練只看「做對 / 做錯」那一分，現(xiàn)在變成「結(jié)果對錯 + 過程好壞」兩條線一起算：哪怕最后沒完全做對，只要思路清晰、工具用得合理，也不會被當(dāng)作垃圾樣本一票否決。這對長鏈、多工具的任務(wù)特別重要，可以緩解那種「一不小心就全是 0 分」的獎勵稀疏問題。

③ 把「第一次想」和「批評后再想」一起訓(xùn)（Reagent-U）

最強(qiáng)的一檔，是這篇文章重點(diǎn)強(qiáng)調(diào)的 Reagent-U。它一口氣把兩種反饋都用上：

一方面，讓 Agent 學(xué)會第一次就少犯低級錯誤；
另一方面，也教它「聽完批評以后，怎樣更聰明地改答案」。

訓(xùn)練時，同一個問題會有「首答」和「聽完點(diǎn)評后的再答」兩條軌跡，它們都拿到「結(jié)果獎勵 + 過程分?jǐn)?shù)」，一起放進(jìn)同一個訓(xùn)練循環(huán)里優(yōu)化。這樣做的好處是：模型不會只在某一種模式上刷分，而是整體上把「想清楚」「用好工具」「能根據(jù)反饋修正自己」這幾件事，一起學(xué)進(jìn)去。

實(shí)際部署時，Reagent-U 又不用再依賴外部的 Agent-RRM 提點(diǎn)評，直接就能像普通 Agent 一樣用 —— 那些「老師改卷時說過的話」，已經(jīng)被揉進(jìn)模型參數(shù)里了。

這套設(shè)計帶來了什么提升？

在實(shí)驗(yàn)里，作者主要看了三件事：文字點(diǎn)評本身有沒有用、過程分?jǐn)?shù)能不能幫 RL 學(xué)得更好、統(tǒng)一之后是不是有效提升。

先看最輕量的那種：只加一段文本點(diǎn)評、不改模型參數(shù)。結(jié)果表明，在不少數(shù)學(xué)和搜索任務(wù)上，「聽完一段 Agent-RRM 的批評再答一次」，確實(shí)能穩(wěn)定把正確率拉上去。

再把過程分?jǐn)?shù)加進(jìn)訓(xùn)練里之后，Agent 不是只會去迎合最后那一個對錯信號，而是更愿意走那些「雖然這次沒完全做成，但整體思路是對的」的方向。

最后，當(dāng)文本批評和獎勵分?jǐn)?shù)在 Reagent-U 里統(tǒng)一起來時，提升就更直觀了：

在 GAIA 這個通用 Agent 基準(zhǔn)的文本子集上，基于 8B 模型的 Reagent-U，可以把平均成績拉到43.7%，基本追上甚至部分超過了一些更大參數(shù)量的開源 Agent。在 WebWalkerQA、HLE、xbench 等其他復(fù)雜任務(wù)上，也普遍比「只看終局獎勵」的版本更穩(wěn)，更不容易被「瞎蒙對」或者「瞎忙活」帶偏。

作者還測試了模型在 GAIA 全集上的表現(xiàn)，面對多模態(tài)的通用 agent 任務(wù)，Reagent-U 也依然能打。

港中文聯(lián)合美團(tuán)這套 Reagent 框架，把「老師給過程打分」這件事，真正搬進(jìn)了 Agent 訓(xùn)練里。結(jié)果證明，只要能看懂、能評價思考過程，8B 級別的 Agent 也有機(jī)會在很多復(fù)雜任務(wù)上打出和大模型一樣好看的成績單。

更多細(xì)節(jié)請參考論文原文。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.