<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      開源RL框架Verlog來了,專為LLM智能體打造,400回合不成問題

      0
      分享至

      機器之心報道

      機器之心編輯部

      AI 時代,智能體對短期對話的處理能力已不再是難題。真正的挑戰是讓智能體在數百步的探索中依然保持清晰的推理與穩健的決策。

      傳統的強化學習框架在幾十步內尚能應付,但一旦任務延展至數百步,獎勵稀疏、歷史冗長、策略崩塌便接踵而至。

      為了應對這些挑戰,來自卡內基梅隆大學、香港大學等機構的研究者提出了 Verlog ,試圖打破這一困境。

      具體而言,Verlog 是一個多輪強化學習框架,專為具有高度可變回合(episode)長度的長時程(long-horizon) LLM-Agent 任務而設計。

      它在繼承 VeRL 和 BALROG 的基礎上,并遵循 pytorch-a2c-ppo-acktr-gail 的成熟設計原則,引入了一系列專門優化手段,從而在任務跨度從短暫交互到數百回合時,依然能夠實現穩定而高效的訓練。

      以往的框架(如 VeRL 和 RAGEN)能夠較好地處理約 10 回合的任務,verl-agent 則可擴展至 50 回合。而 Verlog 則被設計用于超過 400 回合的環境,使其在復雜的長期決策任務中具備獨特優勢。

      這一能力已在 BabyAI、BabaIsAI 和 Crafter 等高難度領域得到驗證。以 Crafter 為例,其回合長度范圍在 70 到 400 步之間,平均約為 190 步。在這些充滿挑戰的環境中,Verlog 都能夠開箱即用地展現出強勁的性能。



      • 博客地址:https://blog.ml.cmu.edu/2025/09/15/verlog-a-multi-turn-rl-framework-for-llm-agents/
      • 項目主頁:https://agentic-intelligence-lab.org/2025/08/15/technical-post.html



      方法介紹

      基礎模型

      在模型方面,本文基于 Qwen-2.5 的 Instruct 變體(Qwen-2.5-3B/7B-Instruct)構建。

      這樣做主要有兩個原因:

      一是,它可以與 BALROG 無縫集成(BALROG 是一個旨在評估 Instruct 模型在一系列基準測試中零樣本性能的框架);

      其次,它允許研究者可以直接使用基準測試提示,而無需太多修改。



      BabyAI 使用的提示模板

      記憶機制

      本文不是將整個軌跡全部放入上下文窗口中,而是僅保留最新的 n + 1 個回合。

      這樣做帶來的影響是,對于 3B 參數的 Qwen 模型,性能在 n = 1 或 2 時達到峰值,而當 n 增加到 4 或 8 時性能下降。

      作者推測,模型性能下降的原因是 3B 模型在處理長上下文方面的能力有限,例如,當 n = 8 時,提示詞長度約為 4600 個 token。

      不過,這一趨勢是否適用于更大規模的模型,仍待研究。

      Dual Discounting GAE 算法





      此外,本文 GAE 是遞歸計算的:



      其中,



      遞歸從最后一輪的最后一個 token 開始,向后進行。處理完最后一輪的所有 token 后,移至倒數第二輪的最后一個 token,并繼續遞歸執行此過程。在此過程中,所有狀態 token 都會被跳過。

      實驗結果

      該研究在三個頗具挑戰性的基準上測試了 Verlog:包括 Crafter、BabyAI 和 BabaIsAI。實驗模型包括 Qwen2.5-Instruct 。



      在 Crafter 環境中,本文使用 8 張 H100(82GB 顯存)GPU 對 Qwen2.5-7B-Instruct 模型訓練了大約 36 小時。此外,針對 BabyAI 與 BabaIsAI 環境,本文采用 4 張 A40(48GB 顯存)GPU 對 Qwen2.5-3B-Instruct 模型訓練約 24 小時。

      三個實驗環境表明,Verlog 展現出穩定的訓練能力,不管是在長周期、稀疏獎勵,還是在可變 episode 長度條件下。這也證明了該框架能自然適應從短周期到超長周期多回合任務的規模化訓練。

      總結

      Verlog 針對在構建長時程、多回合任務的 LLM Agent 時面臨的若干核心工程挑戰,提出了系統性的解決方案,包括:

      • 長交互歷史的處理:通過記憶機制和回合級抽象來管理歷史信息。
      • 稀疏獎勵下的訓練穩定性:結合 dual-discounting GAE 和價值函數預訓練來增強穩定性。
      • 軌跡長度可變的管理:通過固定回合批處理(fixed-turn batching)和自舉式價值估計來處理變長軌跡。
      • 提升動作有效性:利用針對性的提示工程和默認動作替換,使訓練過程中 >95% 的動作均為有效動作。

      作者表示,Verlog 的定位是一個靈活的研究平臺,目的是推動長時程 LLM-Agent 強化學習的發展。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      女子違停豎中指被撞,交警最新回應來了!責任劃分引全網熱議

      女子違停豎中指被撞,交警最新回應來了!責任劃分引全網熱議

      天天熱點見聞
      2026-01-23 12:57:06
      深入緬甸廢棄詐騙園區后,我發現這里最殘酷的真相

      深入緬甸廢棄詐騙園區后,我發現這里最殘酷的真相

      伯利塔BERITA
      2026-01-23 19:29:46
      千萬網紅“一栗小莎子”確診癌癥,不良惡習害了她,兒子不到兩歲

      千萬網紅“一栗小莎子”確診癌癥,不良惡習害了她,兒子不到兩歲

      以茶帶書
      2026-01-22 19:35:35
      尺度大到變態,這新劇太重口了

      尺度大到變態,這新劇太重口了

      天天美劇吧
      2026-01-23 20:37:50
      特朗普通告全球,不許減持美國國債;中方還剩6830億,游戲已結束

      特朗普通告全球,不許減持美國國債;中方還剩6830億,游戲已結束

      妙知
      2026-01-24 12:34:23
      46歲藍正龍悉尼被偶遇!造型邋遢似流浪漢,手提臺灣LV太搶眼

      46歲藍正龍悉尼被偶遇!造型邋遢似流浪漢,手提臺灣LV太搶眼

      史行途
      2026-01-23 15:57:57
      TOP14位身高170以上的女神,有顏有燈有演技

      TOP14位身高170以上的女神,有顏有燈有演技

      素然追光
      2026-01-02 02:45:02
      澳網女單16強全出爐:王欣瑜首進第二周,前8號種子僅1人掉隊

      澳網女單16強全出爐:王欣瑜首進第二周,前8號種子僅1人掉隊

      全景體育V
      2026-01-24 19:28:55
      21-15,24-22!陳雨菲KO手下敗將,2026年首進決賽,打破冠軍荒?

      21-15,24-22!陳雨菲KO手下敗將,2026年首進決賽,打破冠軍荒?

      劉姚堯的文字城堡
      2026-01-24 14:43:42
      云南省公安廳情報指揮中心合成作戰支隊支隊長袁滿榮接受紀律審查和監察調查

      云南省公安廳情報指揮中心合成作戰支隊支隊長袁滿榮接受紀律審查和監察調查

      昆明信息港
      2026-01-24 14:55:58
      胡宗南明知熊向暉是中共臥底卻不抓他,沈醉晚年回憶說出背后原因

      胡宗南明知熊向暉是中共臥底卻不抓他,沈醉晚年回憶說出背后原因

      飯小妹說歷史
      2026-01-07 09:30:45
      四大名著,終于有人敢說,這本,該踢出四大名著了

      四大名著,終于有人敢說,這本,該踢出四大名著了

      長風文史
      2026-01-22 15:17:46
      挪威求救:每多吃一只帝王蟹都是在拯救地球!泛濫成災還這么貴?

      挪威求救:每多吃一只帝王蟹都是在拯救地球!泛濫成災還這么貴?

      北緯的咖啡豆
      2026-01-24 14:14:11
      上千艘中國船集結!長達467公里,日右翼恍然大悟,石破茂是對的

      上千艘中國船集結!長達467公里,日右翼恍然大悟,石破茂是對的

      boss外傳
      2026-01-23 20:00:03
      記者調查江蘇洪澤湖、駱馬湖非法捕撈:小魚直接被電死,不法分子用電舀擊打執法人員致腦震蕩

      記者調查江蘇洪澤湖、駱馬湖非法捕撈:小魚直接被電死,不法分子用電舀擊打執法人員致腦震蕩

      網絡易不易
      2026-01-24 12:50:51
      牛股業績出爐!300475、688233、300503,預計盈利大增

      牛股業績出爐!300475、688233、300503,預計盈利大增

      證券時報e公司
      2026-01-24 14:43:33
      6000米深海!日本重金開采稀土,剛動手就被中國一紙禁令“掐喉”

      6000米深海!日本重金開采稀土,剛動手就被中國一紙禁令“掐喉”

      素衣讀史
      2026-01-23 17:20:48
      比恒大還慘!中國第二大民企倒了,負債7500億,創始人被帶走

      比恒大還慘!中國第二大民企倒了,負債7500億,創始人被帶走

      芳芳歷史燴
      2025-12-25 20:32:52
      46名學者學術不端,被集中通報批評

      46名學者學術不端,被集中通報批評

      新京報政事兒
      2026-01-24 14:50:35
      臺軍女飛行員郭文靜:只要長官敢下令,我會毫不猶豫的擊落殲20!

      臺軍女飛行員郭文靜:只要長官敢下令,我會毫不猶豫的擊落殲20!

      顧史
      2026-01-21 21:04:39
      2026-01-24 21:12:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12179文章數 142549關注度
      往期回顧 全部

      科技要聞

      特斯拉Cybercrab即將落地 每公里不到1塊錢

      頭條要聞

      安徽女教師校內宿舍病亡2天后才被發現 學校:建議起訴

      頭條要聞

      安徽女教師校內宿舍病亡2天后才被發現 學校:建議起訴

      體育要聞

      當家球星打替補,他們在故意擺爛?

      娛樂要聞

      回歸還是頂流 鳳凰傳奇將現身馬年春晚

      財經要聞

      “百年老字號”張小泉遭60億債務壓頂

      汽車要聞

      有增程和純電版可選 日產NX8或于3-4月間上市

      態度原創

      游戲
      旅游
      數碼
      手機
      親子

      踢球還能爆衣?這款足球新游還是太懂玩家了

      旅游要聞

      在積木王國感受中國年味,上海樂高樂園新春主題盛典即將啟幕

      數碼要聞

      技嘉推出鏡面WOLED顯示器GO27Q24G:27英寸QHD 240Hz

      手機要聞

      iOS 26.4前瞻匯總:Siri接入谷歌AI,并擁有多項實用功能!

      親子要聞

      孩子的改變真是一瞬間,以前哭嚎著不去幼兒園,上了三年哭了三年,一提幼兒園就惱,自從開始上小學了,突然...

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲av永久无码精品天堂久久| www.av小说| 免费人妻无码不卡中文18禁| 亚洲人成欧美中文字幕| 亚洲gv天堂gv无码男同| 巢湖市| b站永久免费看片大全| 美女黄色网| 国产精品17p| 漂亮的保姆hd完整版免费韩国| 国产成人精品久久一区二区三区| 国产一区二区内射最近更新| 亚洲爱婷婷色婷婷五月| 美女网站免费福利视频| 另类专区一区二区三区| 人人妻人人插视频| 国产又粗又猛又爽又黄AV| 强奸福利视频在线观看| 久久久噜噜噜久久中文字幕色伊伊| 青青草原网站在线观看| www.jizz国产| 成人无遮挡裸免费视频在线观看| 青草99在线免费观看| 国产制服丝袜在线观看| 又爽又黄又无遮掩的免费视频| 亚洲综合伊人久久大杳蕉| 亚洲s色大片在线观看 | 睡熟迷奷系列新婚之夜| 色妺妺视频网| 久久亚洲色www成人| 精品无码久久久久久久动漫| 久久久久国产a免费观看rela| 成人精品区| 巨鹿县| 日本丰满的人妻hd高清在线| 最新国产在线拍揄自揄视频| 人妻av中文系列| 人人看成人在线| 国产精品VA尤物在线观看| 精品国产美女av久久久久| 中文字幕精品久久久久人妻红杏Ⅰ|