<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      騰訊提出RLVMR框架,讓7B模型「思考」比肩GPT-4o

      0
      分享至



      本論文的主要作者來自騰訊混元 AI 數字人團隊 (Tencent Hunyuan AI Digital Human)。該團隊致力于打造「有智商、有情商、有溫度的數字人」,旨在為用戶提供高度擬人、可信賴的數字伙伴,進而實現富有溫度與信任的情感交互。

      自主智能體(Agents)正朝著能夠處理復雜長程任務(Long-Horizon Tasks)的通用智能(AGI)邁進,但許多研究者發(fā)現了一個尷尬的現實:很多智能體雖然能完成任務,卻像個「只會蒙答案的學生」,其成功往往依賴于運氣和低效的試錯,而非真正高效、可泛化的推理能力。一旦環(huán)境稍作改變,它們便漏洞百出。

      這種「結果正確,但過程混亂」的現象,是當前長程智能體(Long-Horizon Agents)強化學習(RL)范式的一大瓶頸。智能體在探索中,只因最終能完成任務便獲得獎勵,而其間大量的冗余操作、無效探索,甚至錯誤的推理路徑,都被無意中 「強化」 和固化。這導致了兩個核心難題:

      1.低效探索難題:智能體容易陷入「無效內卷」,反復嘗試無意義的動作,訓練成本高,推理效率低下。

      2.泛化脆弱難題:靠「蒙對」學會的策略缺乏邏輯基礎,在新任務面前不堪一擊,難以實現真正的魯棒性。

      如何讓智能體不僅「知其然」,更能「知其所以然」?

      面對這些難題,騰訊混元 AI 數字人團隊提出了RLVMR (Reinforcement Learning with Verifiable Meta-Reasoning Rewards)框架。這項工作開創(chuàng)性地將認知科學中的「元認知」(即 「思考自己的思考」)理論引入 RL,通過獎勵「好的思考過程」而非僅僅獎勵「好的結果」,首次實現了對智能體推理過程的端到端強化學習,成功解決了長程任務中的低效探索與泛化難題。



      • 論文地址: [2507.22844] RLVMR: Reinforcement Learning with Verifiable Meta-Reasoning Rewards for Robust Long-Horizon Agents
      • 項目代碼: digitalhuman/RLVMR at main?Tencent/digitalhuman?GitHub

      RLVMR:如何教會智能體「思考」,而不僅是「做事」?

      傳統(tǒng)方法要么依賴僵化的專家數據(SFT),要么依賴稀疏的結果獎勵(RL),都無法有效塑造智能體高質量的「思維習慣」。RLVMR 的破局點在于:為智能體的「思考過程」本身,設計一套可驗證、可優(yōu)化的獎勵機制。



      1. 智能體學會「三思而后行」:引入元推理狀態(tài)

      RLVMR 賦予智能體「自我意識」的能力。在行動前,智能體需要先思考并給自己貼上一個「元推理標簽」,明確自己當前處于哪個認知階段:

      • 規(guī)劃(Planning):我準備做什么?計劃是什么?
      • 探索(Exploring):我正在執(zhí)行計劃,探索方案。
      • 反思(Reflecting):計劃出錯了?我需要糾正什么?

      這套機制讓智能體的「內心戲」變得明確、可追蹤,為獎勵其「優(yōu)質思考」提供了抓手。

      2. 獎勵「好思路」,懲罰「壞習慣」:可驗證的過程獎勵

      光有標簽還不夠,RLVMR 設計了一套輕量級的驗證規(guī)則,實時評估智能體的思考質量,并給予即時獎勵:

      • 獎勵高效思考:當智能體在「反思」后成功糾錯,或制定出有效「規(guī)劃」時,給予正向獎勵。
      • 懲罰低效行為:當智能體陷入無意義的動作循環(huán)或重復犯錯時,給予負向獎勵。

      這種「過程獎勵」機制,像一位貼身教練,不斷引導智能體優(yōu)化其思考與決策路徑,從根本上杜絕「瞎蒙」行為。

      3. 從「結果導向」到「過程與結果并重」

      RLVMR 將「過程獎勵」與最終的「任務成功獎勵」相結合,通過策略梯度方法進行端到端優(yōu)化。這使得智能體在追求最終目標的同時,必須學會如何更聰明、更高效地達成目標。

      核心實驗成果:7B 模型比肩「巨頭旗艦」

      在極具挑戰(zhàn)性的 ALFWorld 和 ScienceWorld 兩大長程任務基準上,RLVMR 展現了統(tǒng)治級的性能。經過 RLVMR 訓練的 7B 模型,在難度最高、從未見過的任務(L2 泛化等級)上,成功率高達 83.6%,不僅遠超此前所有 SOTA 模型,更證明了其強大的泛化能力。



      此外,我們的方法訓練出的智能體更「聰明」,解決任務的路徑更直接,在 ALFWorld 和 ScienceWorld 的 L2 復雜環(huán)境中,所需動作數最高減少 28.1%。此外,訓練過程本身也告別了「反復橫跳」式的低效學習,收斂速度更快、策略更穩(wěn)定,顯著緩解了無效探索問題。





      超越分數:RLVMR 實驗中的深度洞察

      洞察一:智能體學會「反思」,告別「無效內卷」

      傳統(tǒng) RL 智能體像一個埋頭刷題但從不復盤的學生,容易在錯誤路徑上反復掙扎。RLVMR 的核心貢獻在于教會了智能體「反思」(Reflecting)。



      實驗數據顯示,引入「反思」機制后,智能體在遇到困難時,不再是盲目重試,而是能夠主動識別問題、調整策略。這正是其重復動作率大幅降低、任務成功率飆升的根本原因。它揭示了一個關鍵點:對于復雜任務,教會智能體如何從失敗中學習,比單純「喂」給它成功的經驗更重要。

      洞察二:好的推理習慣,是泛化能力的基石

      為什么 RLVMR 在未見任務上表現如此出色?



      我們發(fā)現,通過獎勵「好的思考過程」,RLVMR 幫助智能體建立了一套通用的、不依賴于特定任務的「元問題解決框架」(如何規(guī)劃、如何探索、如何反思)。當面對新環(huán)境(L2)時,智能體調用的不再是某個僵化的「解題模板」,而是這套靈活的「思維方法論」。

      這證實了一個重要猜想:真正的泛化能力,源自于對問題解決過程的深刻理解,而非對問題答案的機械記憶。 RLVMR 正是通往這條道路的有效路徑。

      洞察三:先 「冷啟動」 再 「強化」—— 智能體的成長階梯設計

      RLVMR 采用了「冷啟動 SFT + 強化學習 RL」的兩階段訓練流程。這并非簡單的流程拼接,而是一種符合認知規(guī)律的「成長曲線」設計。

      • 冷啟動階段(SFT):如同基礎教育,讓智能體先通過模仿學習,快速掌握「規(guī)劃」「反思」等元推理概念的基本表達方式。
      • 強化學習階段(RL):如同進入社會實踐,讓智能體在真實環(huán)境中自由探索,通過「過程獎勵」的不斷反饋,將學到的概念內化為真正的能力。



      這一策略啟示我們:在訓練高級智能體時,「先教會它如何思考,再放手讓它去犯錯成長」,可能是比單一訓練范式更高效的路徑。

      總結與展望

      RLVMR 的提出,為智能體訓練帶來了從「結果導向」到「過程導向」的范式革新。它證明了,通過對智能體「思考過程」的直接建模與獎勵,我們能夠有效破解長程任務中的「低效探索」與「泛化脆弱」兩大難題。

      我們對 AGI 的終極期待,是一個能夠獨立思考、理性決策的伙伴,而不是一個只會尋找捷徑的「做題家」。RLVMR 的工作,正是鼓勵大模型從偶然涌現的能力,走向特定思維模式的強化,為構建更魯棒、更高效、更可解釋的通用智能體邁出了堅實的一步。

      這項研究不僅為長程智能體訓練提供了新思路,也為我們探索能真正理解世界、應對未知的下一代 AI 帶來了新的曙光。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      戴笠再牛也是軍統(tǒng)的副局長,局長是誰?他更牛,死后葬在了八寶山

      戴笠再牛也是軍統(tǒng)的副局長,局長是誰?他更牛,死后葬在了八寶山

      浩渺青史
      2025-12-07 19:52:55
      雷軍轉發(fā),小米YU7超百萬級尊界S800、邁巴赫等頂級豪華車

      雷軍轉發(fā),小米YU7超百萬級尊界S800、邁巴赫等頂級豪華車

      電動知家
      2025-12-06 20:08:47
      戶晨風永遠的離開了我們

      戶晨風永遠的離開了我們

      求實處
      2025-12-05 00:10:06
      隨著尤文圖斯1-2,羅馬0-1,意甲最新積分榜出爐:國米丟榜首

      隨著尤文圖斯1-2,羅馬0-1,意甲最新積分榜出爐:國米丟榜首

      側身凌空斬
      2025-12-08 06:51:15
      張凌赫對白鹿念念不忘???

      張凌赫對白鹿念念不忘???

      八卦瘋叔
      2025-12-08 10:14:59
      院士撕開了5G專利遮羞布,數量多但含金量不高,導致專利費凈支出

      院士撕開了5G專利遮羞布,數量多但含金量不高,導致專利費凈支出

      柏銘銳談
      2025-12-06 23:32:43
      被坑哭!焦作一老漢花50多萬復投買幾百箱白酒,網友:太貪心了…

      被坑哭!焦作一老漢花50多萬復投買幾百箱白酒,網友:太貪心了…

      火山詩話
      2025-12-07 07:55:37
      狂轟36+19!中國女籃又一15歲1米90新星崛起:籃板王統(tǒng)治內線太猛

      狂轟36+19!中國女籃又一15歲1米90新星崛起:籃板王統(tǒng)治內線太猛

      李喜林籃球絕殺
      2025-12-08 14:28:50
      三門峽一項目工程發(fā)生塌方致5人遇難,親屬稱有4人來自同一個村,均不到60歲,該項目原定春節(jié)前通車

      三門峽一項目工程發(fā)生塌方致5人遇難,親屬稱有4人來自同一個村,均不到60歲,該項目原定春節(jié)前通車

      極目新聞
      2025-12-07 22:21:30
      鄭麗文新一波人事任命后,盧秀燕突然出手,已經瞄準2028?

      鄭麗文新一波人事任命后,盧秀燕突然出手,已經瞄準2028?

      今日美食分享
      2025-12-08 13:32:31
      金正恩有1子2女,為何獨寵金主愛?

      金正恩有1子2女,為何獨寵金主愛?

      麥小柒
      2025-12-02 16:08:21
      本來90秒可以解決的事情,陳震卻用后半生的職業(yè)生涯來還

      本來90秒可以解決的事情,陳震卻用后半生的職業(yè)生涯來還

      譯明聊科技
      2025-12-05 22:26:58
      2014年,北京女博士李香蓉因接受不了新郎身份,在車內將其幾刀刺死

      2014年,北京女博士李香蓉因接受不了新郎身份,在車內將其幾刀刺死

      紅豆講堂
      2024-10-14 15:30:03
      “最忙5人組”又現多個新動向

      “最忙5人組”又現多個新動向

      方清云
      2025-12-07 15:55:15
      唏噓!國足兩大希望星不敢留洋已成廢柴 邵佳一需重新發(fā)掘人才

      唏噓!國足兩大希望星不敢留洋已成廢柴 邵佳一需重新發(fā)掘人才

      零度眼看球
      2025-12-08 08:37:09
      1996年,姚文元出獄后,向中央提兩個請求,第二個被一口回絕

      1996年,姚文元出獄后,向中央提兩個請求,第二個被一口回絕

      雍親王府
      2025-11-15 21:50:03
      “劍后”江旻憓當選香港特區(qū)立法會議員

      “劍后”江旻憓當選香港特區(qū)立法會議員

      觀察者網
      2025-12-08 08:29:05
      王曼昱回應身體引發(fā)擔憂!硬仗全讓她兜底,孫穎莎又奉獻搞笑場面

      王曼昱回應身體引發(fā)擔憂!硬仗全讓她兜底,孫穎莎又奉獻搞笑場面

      三十年萊斯特城球迷
      2025-12-07 13:56:14
      楊旭文不再隱瞞!公開回應與陳若琳的真實關系,原來我們都被騙了

      楊旭文不再隱瞞!公開回應與陳若琳的真實關系,原來我們都被騙了

      韓馳
      2025-12-08 13:44:54
      盧秀燕低頭,侯友宜徹底沒轍!鄭麗文只用兩張紙就奪回大權

      盧秀燕低頭,侯友宜徹底沒轍!鄭麗文只用兩張紙就奪回大權

      前沿天地
      2025-12-07 13:00:53
      2025-12-08 15:16:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      11865文章數 142510關注度
      往期回顧 全部

      科技要聞

      外面有人挖,家里有人跑:蘋果亂成了一鍋粥

      頭條要聞

      媒體:美國重返西半球 若從亞太撤離或挑撥中日干一架

      頭條要聞

      媒體:美國重返西半球 若從亞太撤離或挑撥中日干一架

      體育要聞

      厲害的后衛(wèi)何其多 想想還少了哪一個

      娛樂要聞

      郭麒麟也救不了的德云社了?

      財經要聞

      養(yǎng)牛場未見一頭牛 每天開采礦石倒賣

      汽車要聞

      挑戰(zhàn)深圳地獄級路況 魏牌藍山VLA上車會思考聽得懂人話

      態(tài)度原創(chuàng)

      健康
      親子
      本地
      教育
      公開課

      甲狀腺結節(jié)到這個程度,該穿刺了!

      親子要聞

      嬰兒被褥印不雅英文單詞,家長沒法不較真|新京報快評

      本地新聞

      云游安徽|七千年敘事,第一章寫在蚌埠

      教育要聞

      妹妹家公婆怎么稱呼

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 99久无码中文字幕一本久道| 久久久国产精品VA麻豆| 亚洲乱亚洲乱妇50p| 亚洲国产欧美在线人成AAAA| 69久久精品无码一区二区| 乡宁县| 日本边添边摸边做边爱| 国产成人麻豆亚洲综合无码精品 | 国产精品办公室沙发| 亚洲无码久久| 人人爽人人爽人人片a免费| 成人性生交大片免费看| free性丰满白嫩白嫩的HD| 人妻系列中文字幕精品| 亚洲成av人片在线播放无码| 亚洲日韩成人网| 人妻综合网| 看全黄大色黄大片视频| 牛牛视频一区二区三区| 亚洲日产专区| 亚洲无码中出| 国产欧美综合一区二区三区| 日韩无码专区| 99国产精品免费视频观看8| 国内精品久久人妻无码妲| 日韩成av人片在线观看| 蜜臀av在线观看| 广宁县| 少妇人妻AV| 99久久精品国产一区二区暴力| 亚洲色无码国产精品网站可下载| 亚洲无码成人| 元江| 777欧美| 精品无码人妻一区二区三区| 国精产品一区一区三区| 亚洲男女内射在线播放| 精品自拍网| 精品无码一区在线观看| 一级做a爰片久久毛片下载| 成年午夜性影院|