<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      訓(xùn)練獎勵太稀疏?港中文聯(lián)合美團(tuán)給Agent加上「過程分」

      0
      分享至



      在很多大模型和 Agent 的訓(xùn)練里,最常見的一種做法就是只看結(jié)果:最后答案對了就給獎勵,錯了就當(dāng) 0 分。

      在單輪問答里,這樣「只看結(jié)果」還勉強(qiáng)能用;可一旦換成 Agent 這種要多輪對話、搜索、刷網(wǎng)頁、寫代碼、讀文件的長鏈任務(wù),就變成用一個 bit 去概括一整條復(fù)雜軌跡。

      結(jié)果就是:差一點(diǎn)就做成功的過程,和從第一步就跑偏的過程,在獎勵眼里沒區(qū)別;訓(xùn)練看不出哪種失敗更有價值,手寫規(guī)則或人工細(xì)粒度打分又很難覆蓋開放環(huán)境、多模態(tài)這些復(fù)雜情況。

      港中文和美團(tuán)在這篇工作里,盯上的就是這個核心矛盾:

      Agent 需要長程、細(xì)粒度的反饋,但我們手里大多只有終局對錯這樣的粗粒度獎勵。



      • 論文標(biāo)題:Exploring Reasoning Reward Model for Agents
      • 論文鏈接:https://arxiv.org/pdf/2601.22154
      • 項(xiàng)目地址:https://github.com/kxfan2002/Reagent

      為了解決這個矛盾,作者先造了一個「懂推理、看得懂工具調(diào)用」的評審器,給 Agent 的整條軌跡打「過程分」和「評語」,再把這份反饋喂回訓(xùn)練。

      這也是 Reagent 框架的核心出發(fā)點(diǎn):讓 Agent 不再只看結(jié)果,而是也要為自己的思考和工具調(diào)用過程負(fù)責(zé)。

      給 Agent 的思路打個分

      這篇工作最重要的一步,就是不再只看 Agent 最后有沒有把題做對,而是開始認(rèn)真給整個思考過程打分。

      研究團(tuán)隊(duì)先搭了一套專門面向智能體的「思考評分類」數(shù)據(jù):里面收集了各種真實(shí)的 Agent 軌跡,有推理順暢但執(zhí)行失誤的,有一路亂猜卻剛好蒙對的,也有工具用得亂七八糟的。每一條軌跡,都被標(biāo)注成一份「閱卷意見」,既指出思路哪里站得住腳、哪里明顯跑偏,也給出一個 0~1 之間的整體分?jǐn)?shù)。

      基于這套數(shù)據(jù),他們訓(xùn)練了一個專門的「思考評分模型」——Agent-RRM。它不會只看最后一行答案,而是把整個過程從頭看到尾,然后輸出三樣?xùn)|西:一段內(nèi)部分析、一小段給 Agent 看的批評意見,再加上一個綜合分?jǐn)?shù)。

      舉個簡單的例子:

      • 兩條軌跡最后都答對了,但一條邏輯跳躍嚴(yán)重、工具亂用,只是誤打誤撞到達(dá)正確答案,那 Agent-RRM 可能只給個 0.3;
      • 另一條從一開始就分析清楚、什么時候該搜、什么時候該點(diǎn)進(jìn)網(wǎng)頁、怎么利用信息都說得明明白白,這種思路就可能拿到 0.9。

      就像老師改卷,不是只看「A/B/C/D」選了啥,還會看你中間的演算過程,給「過程分」。這一招的目標(biāo)很明確:

      教會 Agent「怎么想」「怎么用工具」,而不是教它「怎么猜對答案」。

      統(tǒng)一文本批評和獎勵信號:Reagent 框架

      有了會打「思維分」的 Agent-RRM,還要想清楚怎么把這些反饋喂回給 Agent。這就是 Reagent 框架要解決的事情:把「文字點(diǎn)評」和「分?jǐn)?shù)獎勵」統(tǒng)一起來,用在智能體訓(xùn)練里。



      作者設(shè)計了三種用法,可以理解成三檔「加持程度」:

      ① 只加點(diǎn)評,不改模型(Reagent-C)

      最輕的一種:不動 Agent 參數(shù),只在推理時多一步「聽老師講評」。

      大致流程就是:Agent 先做一遍題,Agent-RRM 看完給一小段 critique,指出關(guān)鍵問題,然后讓 Agent 在這段點(diǎn)評的基礎(chǔ)上重做一遍。這相當(dāng)于給任何現(xiàn)成的大模型,外掛一個「老師幫你看一眼再交卷」的過程。

      ② 給獎勵加一條「過程分」(Reagent-R)

      再往上走一步,就是把 Agent-RRM 打出來的分?jǐn)?shù),當(dāng)成額外獎勵加進(jìn)來。

      以前的訓(xùn)練只看「做對 / 做錯」那一分,現(xiàn)在變成「結(jié)果對錯 + 過程好壞」兩條線一起算:哪怕最后沒完全做對,只要思路清晰、工具用得合理,也不會被當(dāng)作垃圾樣本一票否決。這對長鏈、多工具的任務(wù)特別重要,可以緩解那種「一不小心就全是 0 分」的獎勵稀疏問題。

      ③ 把「第一次想」和「批評后再想」一起訓(xùn)(Reagent-U)

      最強(qiáng)的一檔,是這篇文章重點(diǎn)強(qiáng)調(diào)的 Reagent-U。它一口氣把兩種反饋都用上:

      • 一方面,讓 Agent 學(xué)會第一次就少犯低級錯誤;
      • 另一方面,也教它「聽完批評以后,怎樣更聰明地改答案」。

      訓(xùn)練時,同一個問題會有「首答」和「聽完點(diǎn)評后的再答」兩條軌跡,它們都拿到「結(jié)果獎勵 + 過程分?jǐn)?shù)」,一起放進(jìn)同一個訓(xùn)練循環(huán)里優(yōu)化。這樣做的好處是:模型不會只在某一種模式上刷分,而是整體上把「想清楚」「用好工具」「能根據(jù)反饋修正自己」這幾件事,一起學(xué)進(jìn)去。

      實(shí)際部署時,Reagent-U 又不用再依賴外部的 Agent-RRM 提點(diǎn)評,直接就能像普通 Agent 一樣用 —— 那些「老師改卷時說過的話」,已經(jīng)被揉進(jìn)模型參數(shù)里了。

      這套設(shè)計帶來了什么提升?

      在實(shí)驗(yàn)里,作者主要看了三件事:文字點(diǎn)評本身有沒有用、過程分?jǐn)?shù)能不能幫 RL 學(xué)得更好、統(tǒng)一之后是不是有效提升。





      先看最輕量的那種:只加一段文本點(diǎn)評、不改模型參數(shù)。結(jié)果表明,在不少數(shù)學(xué)和搜索任務(wù)上,「聽完一段 Agent-RRM 的批評再答一次」,確實(shí)能穩(wěn)定把正確率拉上去。

      再把過程分?jǐn)?shù)加進(jìn)訓(xùn)練里之后,Agent 不是只會去迎合最后那一個對錯信號,而是更愿意走那些「雖然這次沒完全做成,但整體思路是對的」的方向。

      最后,當(dāng)文本批評和獎勵分?jǐn)?shù)在 Reagent-U 里統(tǒng)一起來時,提升就更直觀了:

      在 GAIA 這個通用 Agent 基準(zhǔn)的文本子集上,基于 8B 模型的 Reagent-U,可以把平均成績拉到43.7%,基本追上甚至部分超過了一些更大參數(shù)量的開源 Agent。在 WebWalkerQA、HLE、xbench 等其他復(fù)雜任務(wù)上,也普遍比「只看終局獎勵」的版本更穩(wěn),更不容易被「瞎蒙對」或者「瞎忙活」帶偏。

      作者還測試了模型在 GAIA 全集上的表現(xiàn),面對多模態(tài)的通用 agent 任務(wù),Reagent-U 也依然能打。



      港中文聯(lián)合美團(tuán)這套 Reagent 框架,把「老師給過程打分」這件事,真正搬進(jìn)了 Agent 訓(xùn)練里。結(jié)果證明,只要能看懂、能評價思考過程,8B 級別的 Agent 也有機(jī)會在很多復(fù)雜任務(wù)上打出和大模型一樣好看的成績單。

      更多細(xì)節(jié)請參考論文原文。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      吹響集結(jié)號!歐亞53國達(dá)成共識,澤連斯基宣布不再將美國視為盟友

      吹響集結(jié)號!歐亞53國達(dá)成共識,澤連斯基宣布不再將美國視為盟友

      史政先鋒
      2026-04-19 13:45:53
      悲劇!廣東一96年女生開會時心梗猝死,網(wǎng)友稱她為20000月薪太拼

      悲劇!廣東一96年女生開會時心梗猝死,網(wǎng)友稱她為20000月薪太拼

      火山詩話
      2026-04-19 09:35:22
      5月1日起物業(yè)行業(yè)徹底大變天!新規(guī)落地,業(yè)主終于不用再忍氣吞聲

      5月1日起物業(yè)行業(yè)徹底大變天!新規(guī)落地,業(yè)主終于不用再忍氣吞聲

      另子維愛讀史
      2026-04-19 19:37:43
      靈隱寺砸飯碗!浙江4000寺廟大洗牌,滿街僧人有玄機(jī)

      靈隱寺砸飯碗!浙江4000寺廟大洗牌,滿街僧人有玄機(jī)

      一口娛樂
      2026-04-20 01:43:39
      哈工大畢業(yè)失業(yè)四五年被吐槽!網(wǎng)友:農(nóng)村大學(xué)生大多數(shù)過得比較差

      哈工大畢業(yè)失業(yè)四五年被吐槽!網(wǎng)友:農(nóng)村大學(xué)生大多數(shù)過得比較差

      火山詩話
      2026-04-19 10:40:38
      沒有不透風(fēng)的墻!沈騰和林允的瓜未必是假的、站姐關(guān)站跑路

      沒有不透風(fēng)的墻!沈騰和林允的瓜未必是假的、站姐關(guān)站跑路

      琴聲飛揚(yáng)
      2026-01-20 14:25:10
      10倍牛股爆雷 ,虛增營收和利潤 ,涉及商業(yè)航天概念,股票將被ST

      10倍牛股爆雷 ,虛增營收和利潤 ,涉及商業(yè)航天概念,股票將被ST

      每日經(jīng)濟(jì)新聞
      2026-04-19 20:03:49
      李雨桐泄露薛之謙手機(jī)號、身份證號,被北京朝陽警方行政拘留

      李雨桐泄露薛之謙手機(jī)號、身份證號,被北京朝陽警方行政拘留

      封面新聞
      2026-04-19 18:38:11
      絕不談判!永久關(guān)閉豁免窗口!中國打響光刻機(jī)反擊戰(zhàn)

      絕不談判!永久關(guān)閉豁免窗口!中國打響光刻機(jī)反擊戰(zhàn)

      素衣讀史
      2026-04-19 21:49:57
      中俄關(guān)系比傳統(tǒng)“聯(lián)盟”更深厚、更可靠

      中俄關(guān)系比傳統(tǒng)“聯(lián)盟”更深厚、更可靠

      看看新聞Knews
      2026-04-19 08:36:10
      2:1!射門15:9,英超天王山,曼城擊敗阿森納,冠軍懸念又來了

      2:1!射門15:9,英超天王山,曼城擊敗阿森納,冠軍懸念又來了

      小徐講八卦
      2026-04-20 05:46:33
      悲哀!10人小群里剩自己“干凈”,30歲女生稱身體忠于丈夫被孤立

      悲哀!10人小群里剩自己“干凈”,30歲女生稱身體忠于丈夫被孤立

      火山詩話
      2026-04-19 07:13:36
      55歲上海炒股冠軍罕見發(fā)聲:如果本金有20W,建議死磕這五條鐵律

      55歲上海炒股冠軍罕見發(fā)聲:如果本金有20W,建議死磕這五條鐵律

      股經(jīng)縱橫談
      2026-04-19 19:03:09
      世錦賽戰(zhàn)報:4-10,賽會第23位冠軍出局,中國2位,16強(qiáng)決出3席了

      世錦賽戰(zhàn)報:4-10,賽會第23位冠軍出局,中國2位,16強(qiáng)決出3席了

      求球不落諦
      2026-04-19 23:35:24
      太缺德!門口突然添兩座墳,開門就能見到,孩子晚上嚇得不敢出門

      太缺德!門口突然添兩座墳,開門就能見到,孩子晚上嚇得不敢出門

      川渝視覺
      2026-04-19 21:31:23
      塔圖姆25+11+7布朗26分,費(fèi)城雙槍打鐵,綠軍大勝76人刷爆紀(jì)錄

      塔圖姆25+11+7布朗26分,費(fèi)城雙槍打鐵,綠軍大勝76人刷爆紀(jì)錄

      釘釘陌上花開
      2026-04-20 05:20:14
      “國營媒體是謊言工廠”,這位總理上臺就宣布關(guān)閉

      “國營媒體是謊言工廠”,這位總理上臺就宣布關(guān)閉

      法經(jīng)社
      2026-04-19 12:34:54
      越南百億高鐵訂單給德國,來華體驗(yàn)12小時高鐵,背后算計太明顯

      越南百億高鐵訂單給德國,來華體驗(yàn)12小時高鐵,背后算計太明顯

      混沌錄
      2026-04-19 17:27:06
      “雷軍被堵車?yán)锞S權(quán)”真相來了!小米高管放話:絕不放任

      “雷軍被堵車?yán)锞S權(quán)”真相來了!小米高管放話:絕不放任

      雷科技
      2026-04-19 22:59:40
      這張照片絕對是李宇春最想刪掉的照片!

      這張照片絕對是李宇春最想刪掉的照片!

      可樂談情感
      2026-04-20 03:34:03
      2026-04-20 06:44:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12795文章數(shù) 142632關(guān)注度
      往期回顧 全部

      科技要聞

      50分26秒破人類紀(jì)錄!300臺機(jī)器人狂飆半馬

      頭條要聞

      半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

      頭條要聞

      半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

      體育要聞

      湖人1比0火箭:老詹比烏度卡像教練

      娛樂要聞

      何潤東漲粉百萬!內(nèi)娛隔空掀桌第一人

      財經(jīng)要聞

      華誼兄弟,8年虧光85億

      汽車要聞

      29分鐘大定破萬 極氪8X為什么這么多人買?

      態(tài)度原創(chuàng)

      數(shù)碼
      家居
      本地
      手機(jī)
      公開課

      數(shù)碼要聞

      華為新機(jī)發(fā)布前瞻:闊折疊X Max+影像旗艦Pura 90,都沒懸念了

      家居要聞

      法式線條 時光靜淌

      本地新聞

      12噸巧克力有難,全網(wǎng)化身超級偵探添亂

      手機(jī)要聞

      8.8英寸小鋼炮!REDMI K Pad 2核心配置揭曉

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版