<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      開源RL框架Verlog來了,專為LLM智能體打造,400回合不成問題

      0
      分享至

      機器之心報道

      機器之心編輯部

      AI 時代,智能體對短期對話的處理能力已不再是難題。真正的挑戰是讓智能體在數百步的探索中依然保持清晰的推理與穩健的決策。

      傳統的強化學習框架在幾十步內尚能應付,但一旦任務延展至數百步,獎勵稀疏、歷史冗長、策略崩塌便接踵而至。

      為了應對這些挑戰,來自卡內基梅隆大學、香港大學等機構的研究者提出了 Verlog ,試圖打破這一困境。

      具體而言,Verlog 是一個多輪強化學習框架,專為具有高度可變回合(episode)長度的長時程(long-horizon) LLM-Agent 任務而設計。

      它在繼承 VeRL 和 BALROG 的基礎上,并遵循 pytorch-a2c-ppo-acktr-gail 的成熟設計原則,引入了一系列專門優化手段,從而在任務跨度從短暫交互到數百回合時,依然能夠實現穩定而高效的訓練。

      以往的框架(如 VeRL 和 RAGEN)能夠較好地處理約 10 回合的任務,verl-agent 則可擴展至 50 回合。而 Verlog 則被設計用于超過 400 回合的環境,使其在復雜的長期決策任務中具備獨特優勢。

      這一能力已在 BabyAI、BabaIsAI 和 Crafter 等高難度領域得到驗證。以 Crafter 為例,其回合長度范圍在 70 到 400 步之間,平均約為 190 步。在這些充滿挑戰的環境中,Verlog 都能夠開箱即用地展現出強勁的性能。



      • 博客地址:https://blog.ml.cmu.edu/2025/09/15/verlog-a-multi-turn-rl-framework-for-llm-agents/
      • 項目主頁:https://agentic-intelligence-lab.org/2025/08/15/technical-post.html



      方法介紹

      基礎模型

      在模型方面,本文基于 Qwen-2.5 的 Instruct 變體(Qwen-2.5-3B/7B-Instruct)構建。

      這樣做主要有兩個原因:

      一是,它可以與 BALROG 無縫集成(BALROG 是一個旨在評估 Instruct 模型在一系列基準測試中零樣本性能的框架);

      其次,它允許研究者可以直接使用基準測試提示,而無需太多修改。



      BabyAI 使用的提示模板

      記憶機制

      本文不是將整個軌跡全部放入上下文窗口中,而是僅保留最新的 n + 1 個回合。

      這樣做帶來的影響是,對于 3B 參數的 Qwen 模型,性能在 n = 1 或 2 時達到峰值,而當 n 增加到 4 或 8 時性能下降。

      作者推測,模型性能下降的原因是 3B 模型在處理長上下文方面的能力有限,例如,當 n = 8 時,提示詞長度約為 4600 個 token。

      不過,這一趨勢是否適用于更大規模的模型,仍待研究。

      Dual Discounting GAE 算法





      此外,本文 GAE 是遞歸計算的:



      其中,



      遞歸從最后一輪的最后一個 token 開始,向后進行。處理完最后一輪的所有 token 后,移至倒數第二輪的最后一個 token,并繼續遞歸執行此過程。在此過程中,所有狀態 token 都會被跳過。

      實驗結果

      該研究在三個頗具挑戰性的基準上測試了 Verlog:包括 Crafter、BabyAI 和 BabaIsAI。實驗模型包括 Qwen2.5-Instruct 。



      在 Crafter 環境中,本文使用 8 張 H100(82GB 顯存)GPU 對 Qwen2.5-7B-Instruct 模型訓練了大約 36 小時。此外,針對 BabyAI 與 BabaIsAI 環境,本文采用 4 張 A40(48GB 顯存)GPU 對 Qwen2.5-3B-Instruct 模型訓練約 24 小時。

      三個實驗環境表明,Verlog 展現出穩定的訓練能力,不管是在長周期、稀疏獎勵,還是在可變 episode 長度條件下。這也證明了該框架能自然適應從短周期到超長周期多回合任務的規模化訓練。

      總結

      Verlog 針對在構建長時程、多回合任務的 LLM Agent 時面臨的若干核心工程挑戰,提出了系統性的解決方案,包括:

      • 長交互歷史的處理:通過記憶機制和回合級抽象來管理歷史信息。
      • 稀疏獎勵下的訓練穩定性:結合 dual-discounting GAE 和價值函數預訓練來增強穩定性。
      • 軌跡長度可變的管理:通過固定回合批處理(fixed-turn batching)和自舉式價值估計來處理變長軌跡。
      • 提升動作有效性:利用針對性的提示工程和默認動作替換,使訓練過程中 >95% 的動作均為有效動作。

      作者表示,Verlog 的定位是一個靈活的研究平臺,目的是推動長時程 LLM-Agent 強化學習的發展。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      被人當傻子是什么體驗?網友:天王老子來了,我也只給100

      被人當傻子是什么體驗?網友:天王老子來了,我也只給100

      夜深愛雜談
      2026-03-10 21:17:15
      又一百年巨頭塌了!從技術神話到貼牌代工,網友:買了個牌子殼!

      又一百年巨頭塌了!從技術神話到貼牌代工,網友:買了個牌子殼!

      青眼財經
      2025-11-18 23:16:47
      淺色系穿搭!這個組合讓你在健身房瞬間吸引眼球!

      淺色系穿搭!這個組合讓你在健身房瞬間吸引眼球!

      獨角showing
      2025-12-31 21:08:57
      攻防兩端似乎都能有所貢獻,火箭棄將也許有機會在勇士站穩腳跟?

      攻防兩端似乎都能有所貢獻,火箭棄將也許有機會在勇士站穩腳跟?

      稻谷與小麥
      2026-03-11 01:01:34
      你身邊有把一手好牌打的稀爛的人嗎?網友:都是上輩子欠人家的

      你身邊有把一手好牌打的稀爛的人嗎?網友:都是上輩子欠人家的

      帶你感受人間冷暖
      2026-01-21 00:15:05
      特朗普被曝“遭顧問催促”從伊朗戰事中脫身

      特朗普被曝“遭顧問催促”從伊朗戰事中脫身

      新華社
      2026-03-10 15:58:05
      砍19+4+4,進3記三分,火箭新內外組合橫空出世!2人在場不輸馬刺

      砍19+4+4,進3記三分,火箭新內外組合橫空出世!2人在場不輸馬刺

      熊哥愛籃球
      2026-03-10 21:08:14
      世茂集團創始人許榮茂分紅157億

      世茂集團創始人許榮茂分紅157億

      地產微資訊
      2026-03-10 13:58:41
      1996年, 施瓦辛格在家中無事,和35歲200斤女傭發生不當關系

      1996年, 施瓦辛格在家中無事,和35歲200斤女傭發生不當關系

      南權先生
      2026-01-20 15:49:53
      日本、德國做夢都沒想不通:中國油鋸怎么就拿下了全球半壁江山?

      日本、德國做夢都沒想不通:中國油鋸怎么就拿下了全球半壁江山?

      有范又有料
      2026-03-09 16:17:08
      失業的人越來越多了

      失業的人越來越多了

      曹多魚的財經世界
      2025-12-24 14:56:20
      吃相太難看!55歲中醫大佬剛去世,惡心事就上演,死因被惡意詬病

      吃相太難看!55歲中醫大佬剛去世,惡心事就上演,死因被惡意詬病

      寒士之言本尊
      2026-03-10 13:27:49
      蘋果最新M5 Max實測:性能與RTX 5070相當!還要什么獨顯

      蘋果最新M5 Max實測:性能與RTX 5070相當!還要什么獨顯

      快科技
      2026-03-10 15:25:09
      觸控屏界面丑到辣眼!電氣工程師審美不如幼稚園小朋友

      觸控屏界面丑到辣眼!電氣工程師審美不如幼稚園小朋友

      喜愛的CAD
      2026-03-09 19:04:35
      哈里梅根澳洲行惹眾怒!遭民眾聯名抵制:納稅人不給網紅買單

      哈里梅根澳洲行惹眾怒!遭民眾聯名抵制:納稅人不給網紅買單

      世界王室那些事
      2026-03-10 17:25:26
      蘋果剛發布的新品,又減配東西了

      蘋果剛發布的新品,又減配東西了

      全是技能
      2026-03-10 12:25:07
      “15萬元內落地SUV”新排名:2026首月冠軍車型,零售量達23815輛

      “15萬元內落地SUV”新排名:2026首月冠軍車型,零售量達23815輛

      柳先說
      2026-03-10 15:56:29
      成都德云社開業2天翻車?3800元票背后,誰在砸相聲的飯碗

      成都德云社開業2天翻車?3800元票背后,誰在砸相聲的飯碗

      手工制作阿殲
      2026-03-10 12:04:24
      奧尼爾與世界最高女超模利西娜同框,熱情互動引熱議

      奧尼爾與世界最高女超模利西娜同框,熱情互動引熱議

      每一次點擊
      2026-03-10 05:19:34
      昆明一商場火了!把公園搬進商場,你去過嗎

      昆明一商場火了!把公園搬進商場,你去過嗎

      好笑娛樂君每一天
      2026-03-10 18:07:02
      2026-03-11 01:43:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12467文章數 142581關注度
      往期回顧 全部

      科技要聞

      全民"養蝦"背后:大廠集體下場瘋狂賣Token

      頭條要聞

      伊朗新最高領袖在襲擊中受傷未公開發表講話 官方回應

      頭條要聞

      伊朗新最高領袖在襲擊中受傷未公開發表講話 官方回應

      體育要聞

      加蘭沒那么差,但鱸魚會用嗎?

      娛樂要聞

      《逐玉》注水風波升級!315評論區淪陷

      財經要聞

      “龍蝦補貼”密集出爐 最高1000萬!

      汽車要聞

      MG4有SUV衍生 上汽乘用車多款新車規劃曝光

      態度原創

      數碼
      教育
      本地
      健康
      公開課

      數碼要聞

      3月31日!RTX 50系玩家可體驗英偉達DLSS 4.5新特性

      教育要聞

      南京十三中發來邀請函!

      本地新聞

      云游中國|候鳥高顏值亮相!沉浸式打卡青海濕地

      轉頭就暈的耳石癥,能開車上班嗎?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版