<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      開源RL框架Verlog來了,專為LLM智能體打造,400回合不成問題

      0
      分享至

      機(jī)器之心報(bào)道

      機(jī)器之心編輯部

      AI 時(shí)代,智能體對(duì)短期對(duì)話的處理能力已不再是難題。真正的挑戰(zhàn)是讓智能體在數(shù)百步的探索中依然保持清晰的推理與穩(wěn)健的決策。

      傳統(tǒng)的強(qiáng)化學(xué)習(xí)框架在幾十步內(nèi)尚能應(yīng)付,但一旦任務(wù)延展至數(shù)百步,獎(jiǎng)勵(lì)稀疏、歷史冗長、策略崩塌便接踵而至。

      為了應(yīng)對(duì)這些挑戰(zhàn),來自卡內(nèi)基梅隆大學(xué)、香港大學(xué)等機(jī)構(gòu)的研究者提出了 Verlog ,試圖打破這一困境。

      具體而言,Verlog 是一個(gè)多輪強(qiáng)化學(xué)習(xí)框架,專為具有高度可變回合(episode)長度的長時(shí)程(long-horizon) LLM-Agent 任務(wù)而設(shè)計(jì)。

      它在繼承 VeRL 和 BALROG 的基礎(chǔ)上,并遵循 pytorch-a2c-ppo-acktr-gail 的成熟設(shè)計(jì)原則,引入了一系列專門優(yōu)化手段,從而在任務(wù)跨度從短暫交互到數(shù)百回合時(shí),依然能夠?qū)崿F(xiàn)穩(wěn)定而高效的訓(xùn)練。

      以往的框架(如 VeRL 和 RAGEN)能夠較好地處理約 10 回合的任務(wù),verl-agent 則可擴(kuò)展至 50 回合。而 Verlog 則被設(shè)計(jì)用于超過 400 回合的環(huán)境,使其在復(fù)雜的長期決策任務(wù)中具備獨(dú)特優(yōu)勢。

      這一能力已在 BabyAI、BabaIsAI 和 Crafter 等高難度領(lǐng)域得到驗(yàn)證。以 Crafter 為例,其回合長度范圍在 70 到 400 步之間,平均約為 190 步。在這些充滿挑戰(zhàn)的環(huán)境中,Verlog 都能夠開箱即用地展現(xiàn)出強(qiáng)勁的性能。



      • 博客地址:https://blog.ml.cmu.edu/2025/09/15/verlog-a-multi-turn-rl-framework-for-llm-agents/
      • 項(xiàng)目主頁:https://agentic-intelligence-lab.org/2025/08/15/technical-post.html



      方法介紹

      基礎(chǔ)模型

      在模型方面,本文基于 Qwen-2.5 的 Instruct 變體(Qwen-2.5-3B/7B-Instruct)構(gòu)建。

      這樣做主要有兩個(gè)原因:

      一是,它可以與 BALROG 無縫集成(BALROG 是一個(gè)旨在評(píng)估 Instruct 模型在一系列基準(zhǔn)測試中零樣本性能的框架);

      其次,它允許研究者可以直接使用基準(zhǔn)測試提示,而無需太多修改。



      BabyAI 使用的提示模板

      記憶機(jī)制

      本文不是將整個(gè)軌跡全部放入上下文窗口中,而是僅保留最新的 n + 1 個(gè)回合。

      這樣做帶來的影響是,對(duì)于 3B 參數(shù)的 Qwen 模型,性能在 n = 1 或 2 時(shí)達(dá)到峰值,而當(dāng) n 增加到 4 或 8 時(shí)性能下降。

      作者推測,模型性能下降的原因是 3B 模型在處理長上下文方面的能力有限,例如,當(dāng) n = 8 時(shí),提示詞長度約為 4600 個(gè) token。

      不過,這一趨勢是否適用于更大規(guī)模的模型,仍待研究。

      Dual Discounting GAE 算法





      此外,本文 GAE 是遞歸計(jì)算的:



      其中,



      遞歸從最后一輪的最后一個(gè) token 開始,向后進(jìn)行。處理完最后一輪的所有 token 后,移至倒數(shù)第二輪的最后一個(gè) token,并繼續(xù)遞歸執(zhí)行此過程。在此過程中,所有狀態(tài) token 都會(huì)被跳過。

      實(shí)驗(yàn)結(jié)果

      該研究在三個(gè)頗具挑戰(zhàn)性的基準(zhǔn)上測試了 Verlog:包括 Crafter、BabyAI 和 BabaIsAI。實(shí)驗(yàn)?zāi)P桶?Qwen2.5-Instruct 。



      在 Crafter 環(huán)境中,本文使用 8 張 H100(82GB 顯存)GPU 對(duì) Qwen2.5-7B-Instruct 模型訓(xùn)練了大約 36 小時(shí)。此外,針對(duì) BabyAI 與 BabaIsAI 環(huán)境,本文采用 4 張 A40(48GB 顯存)GPU 對(duì) Qwen2.5-3B-Instruct 模型訓(xùn)練約 24 小時(shí)。

      三個(gè)實(shí)驗(yàn)環(huán)境表明,Verlog 展現(xiàn)出穩(wěn)定的訓(xùn)練能力,不管是在長周期、稀疏獎(jiǎng)勵(lì),還是在可變 episode 長度條件下。這也證明了該框架能自然適應(yīng)從短周期到超長周期多回合任務(wù)的規(guī)模化訓(xùn)練。

      總結(jié)

      Verlog 針對(duì)在構(gòu)建長時(shí)程、多回合任務(wù)的 LLM Agent 時(shí)面臨的若干核心工程挑戰(zhàn),提出了系統(tǒng)性的解決方案,包括:

      • 長交互歷史的處理:通過記憶機(jī)制和回合級(jí)抽象來管理歷史信息。
      • 稀疏獎(jiǎng)勵(lì)下的訓(xùn)練穩(wěn)定性:結(jié)合 dual-discounting GAE 和價(jià)值函數(shù)預(yù)訓(xùn)練來增強(qiáng)穩(wěn)定性。
      • 軌跡長度可變的管理:通過固定回合批處理(fixed-turn batching)和自舉式價(jià)值估計(jì)來處理變長軌跡。
      • 提升動(dòng)作有效性:利用針對(duì)性的提示工程和默認(rèn)動(dòng)作替換,使訓(xùn)練過程中 >95% 的動(dòng)作均為有效動(dòng)作。

      作者表示,Verlog 的定位是一個(gè)靈活的研究平臺(tái),目的是推動(dòng)長時(shí)程 LLM-Agent 強(qiáng)化學(xué)習(xí)的發(fā)展。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      美經(jīng)濟(jì)學(xué)家:美國出現(xiàn)了嚴(yán)重戰(zhàn)略誤判,壓根沒料到中國會(huì)這么強(qiáng)大

      美經(jīng)濟(jì)學(xué)家:美國出現(xiàn)了嚴(yán)重戰(zhàn)略誤判,壓根沒料到中國會(huì)這么強(qiáng)大

      樂天閑聊
      2025-12-01 10:29:34
      德媒刊文聲稱,中國如今面臨兩個(gè)道路選擇,收復(fù)臺(tái)灣或內(nèi)部改革

      德媒刊文聲稱,中國如今面臨兩個(gè)道路選擇,收復(fù)臺(tái)灣或內(nèi)部改革

      扶蘇聊歷史
      2025-12-04 17:29:14
      既然全世界都承認(rèn)臺(tái)灣是中國的,那為什么中國收回臺(tái)灣這么難呢?

      既然全世界都承認(rèn)臺(tái)灣是中國的,那為什么中國收回臺(tái)灣這么難呢?

      扶蘇聊歷史
      2025-12-07 09:50:03
      小區(qū)門衛(wèi)大叔寫了一個(gè)停水通知。我的感覺是,神品!

      小區(qū)門衛(wèi)大叔寫了一個(gè)停水通知。我的感覺是,神品!

      夜深愛雜談
      2025-11-25 20:49:13
      當(dāng)年戈貝爾一換十,10個(gè)籌碼如今怎么樣了

      當(dāng)年戈貝爾一換十,10個(gè)籌碼如今怎么樣了

      地球記
      2025-12-06 18:35:48
      澤連斯基反對(duì)無效,俄要烏克蘭二選一,不服氣就打到服氣為止

      澤連斯基反對(duì)無效,俄要烏克蘭二選一,不服氣就打到服氣為止

      博覽歷史
      2025-12-06 18:41:52
      靠一臺(tái)電腦和3D打印機(jī),80后男子在杭州車庫手搓機(jī)器人

      靠一臺(tái)電腦和3D打印機(jī),80后男子在杭州車庫手搓機(jī)器人

      環(huán)球網(wǎng)資訊
      2025-12-07 21:06:10
      新疆連霍高速多車追尾相撞致9死7傷,慘照流出,原因曝光高速擔(dān)責(zé)

      新疆連霍高速多車追尾相撞致9死7傷,慘照流出,原因曝光高速擔(dān)責(zé)

      王曉愛體彩
      2025-12-07 13:26:10
      1900個(gè)航班被取消,日本報(bào)復(fù)來了,要明搶釣魚島,中方反制來了

      1900個(gè)航班被取消,日本報(bào)復(fù)來了,要明搶釣魚島,中方反制來了

      徐徐道史
      2025-12-06 14:28:57
      又一次命中率100%!他真的敢打了,離開廣東就爆發(fā),杜鋒后悔嗎?

      又一次命中率100%!他真的敢打了,離開廣東就爆發(fā),杜鋒后悔嗎?

      萌蘭聊個(gè)球
      2025-12-07 17:28:18
      又轟下30+12+12!他這樣打下去,特雷楊的大當(dāng)家不保了

      又轟下30+12+12!他這樣打下去,特雷楊的大當(dāng)家不保了

      籃球大視野
      2025-12-07 17:18:00
      混合世界杯:大爆冷!世界第1輸球,1:2輸球,中國香港5:8德國

      混合世界杯:大爆冷!世界第1輸球,1:2輸球,中國香港5:8德國

      國乒二三事
      2025-12-07 10:10:23
      央八開播!51集《太平年》來襲,不講權(quán)謀講投降的劇我賭它會(huì)火!

      央八開播!51集《太平年》來襲,不講權(quán)謀講投降的劇我賭它會(huì)火!

      小椰的奶奶
      2025-12-06 10:17:55
      理想i9諜照曝光!5.3米車身,設(shè)計(jì)真能“無得彈”?

      理想i9諜照曝光!5.3米車身,設(shè)計(jì)真能“無得彈”?

      沙雕小琳琳
      2025-12-07 13:55:11
      全網(wǎng)憤怒的“爸爸無視女兒送禮物”事件,照出多少東亞父母的悲哀

      全網(wǎng)憤怒的“爸爸無視女兒送禮物”事件,照出多少東亞父母的悲哀

      記錄生活日常阿蜴
      2025-12-06 13:37:20
      人形機(jī)器人,9大唯一性上市公司,都具有核心技術(shù)優(yōu)勢。

      人形機(jī)器人,9大唯一性上市公司,都具有核心技術(shù)優(yōu)勢。

      侃故事的阿慶
      2025-12-07 15:13:25
      又一個(gè)亞馬爾!巴薩妖星1戰(zhàn)成名,獨(dú)造驚艷3球,拉什福德遭痛批

      又一個(gè)亞馬爾!巴薩妖星1戰(zhàn)成名,獨(dú)造驚艷3球,拉什福德遭痛批

      話體壇
      2025-12-07 04:07:12
      混團(tuán)世界杯賽上,談與孫穎莎的混雙,王楚欽用兩個(gè)“更”字來形容

      混團(tuán)世界杯賽上,談與孫穎莎的混雙,王楚欽用兩個(gè)“更”字來形容

      鯨鯡魚體壇
      2025-12-07 17:28:17
      除了“煙頭”和“房價(jià)”,王永康還給西安留下了什么?

      除了“煙頭”和“房價(jià)”,王永康還給西安留下了什么?

      貞觀108坊
      2025-12-07 18:49:09
      大生意人:直到晉大奶奶秘密曝光,男主才知,母親、古二因何遇害

      大生意人:直到晉大奶奶秘密曝光,男主才知,母親、古二因何遇害

      完善法
      2025-12-07 13:59:50
      2025-12-07 22:00:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      11862文章數(shù) 142509關(guān)注度
      往期回顧 全部

      科技要聞

      漲幅最高20%!戴爾、聯(lián)想等PC廠計(jì)劃漲價(jià)

      頭條要聞

      馬克龍剛走德國外長向東出發(fā) 10月曾突然取消訪華行程

      頭條要聞

      馬克龍剛走德國外長向東出發(fā) 10月曾突然取消訪華行程

      體育要聞

      梅開48度!2年半,這是梅西在邁阿密的一人一城

      娛樂要聞

      林俊杰AAA頒獎(jiǎng)禮,韓娛愛豆均站起鞠躬

      財(cái)經(jīng)要聞

      五糧液降價(jià)?回應(yīng)來了

      汽車要聞

      傳奇超跑電動(dòng)形態(tài)重生 雷克薩斯LFA純電概念車

      態(tài)度原創(chuàng)

      數(shù)碼
      時(shí)尚
      旅游
      藝術(shù)
      手機(jī)

      數(shù)碼要聞

      OPPO Pad Air換皮?一加Pad Go 2平板細(xì)節(jié)曝光,兩種配色可選

      遼京:當(dāng)一個(gè)媽媽開始寫作

      旅游要聞

      大雪染冬色 非遺映冰雪——京津冀非遺冰雪季啟幕,文旅融合解鎖冬日新體驗(yàn)

      藝術(shù)要聞

      他單身,偷拍了5萬個(gè)姑娘,但所有女人竟都愛他!

      手機(jī)要聞

      華為Mate80系列:已推送新系統(tǒng)版本!花粉:還沒搶到呢

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 视频一区二区三区中文字幕狠狠| 野花社区www高清视频| 九龙坡区| 九九热在线视频| 情侣作爱视频网站| 国产精品成人av在线观看春天| 亚州Av无码| 国产一级片内射在线视频| 韩国乱码片免费看| 精品人妻大屁股白浆无码| 中文日韩人妻| 亚洲国产精品久久久天堂麻豆宅男| 92国产精品午夜福利免费| 国产成人无码午夜视频在线观看| 天堂无码在线| 男人的天堂av一二三区| 欧美肥老太交视频免费| 国产综合久久久久久鬼色| 肉大榛一进一出免费视频| 潮喷失禁大喷水aⅴ无码| 熟女视频一区二区在线观看| 亚洲成人夜色| 中亚成人综合在线| 人妖15p| 亚洲一区二区三区在线| 精品人伦一区二区三区潘金莲| 日韩丰满少妇无码内射| 99国产精品99久久久久久| 亚洲成a人无码| 民权县| 日本99视频| 国产亚洲精品??码| 亚洲AV无码成人片在线| 成人天堂资源www在线| 色欲aⅴ亚洲情无码av蜜桃| 乐陵市| 998av资源影音先锋| 在线看国产精品自拍内射| 亚洲成av人片在线观看ww| a∨变态另类天堂无码专区| 亚洲色伊人|