網易首頁 > 網易號 > 正文申請入駐

告別純獎勵試錯！二次嘗試+反思蒸餾，復雜任務提升81%

2026-03-03 13:30:18　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRST

【新智元導讀】強化學習已經成為大模型后訓練階段的核心方法之一，但一個長期存在的難題始終沒有真正解決：現實環境中的反饋往往稀疏且延遲，模型很難從簡單的獎勵信號中推斷出應該如何調整行為。

從更宏觀的視角來看，大模型的學習方式正在經歷一條清晰的演進路徑。

早期的監督微調（SFT）主要依賴固定示例進行模仿學習，能夠幫助模型學習并復現示例中的規律，但這種方法高度依賴人工數據，不僅難以覆蓋復雜環境中的各種情況，也難以支持模型持續自我演進。

隨后出現的基于可驗證獎勵的強化學習（RLVR）將模型帶入交互環境，通過獎勵信號進行試錯優化，使模型能夠在動態任務中逐步改進策略。然而，這種方法仍然主要依賴標量獎勵，模型需要從稀疏或延遲反饋中隱式推斷如何修正行為，往往導致探索效率低、訓練過程不穩定。

相比之下，人類在面對復雜任務時往往會經歷一個「體驗—反思—再嘗試」的循環。個體在獲得反饋后會主動分析失敗原因，總結經驗，并在下一次嘗試中應用修正策略，而不是只根據結果好壞不斷重復試錯，直到成功。

近日，美國南加州大學和賓夕法尼亞大學的研究團隊聯合提出了一種新的訓練范式——Experiential Reinforcement Learning（ERL），試圖將「經驗學習」的思想引入強化學習流程，使模型不再只是通過試錯優化行為，而能夠進行反思并將經驗內化到策略中。

論文鏈接：https://arxiv.org/abs/2602.13949

ERL正是試圖在訓練過程中顯式引入這一經驗學習循環。模型在接收到任務后首先進行一次嘗試，隨后根據環境反饋生成自我反思，再基于反思進行第二次嘗試，并將成功的行為內化進基礎策略中。

圖1：ERL通過引入「經驗—反思—內化」循環，將強化學習從單純依賴獎勵信號推進到基于經驗的學習方式，相比監督微調和傳統強化學習能夠實現更直接的行為修正。

從機制層面來看，傳統強化學習主要依賴試錯過程和標量獎勵信號進行優化。

在這一過程中，環境中原本包含的大量反饋信息往往被壓縮為一個簡單的獎勵數值，例如成功或失敗，許多能夠幫助理解錯誤原因的細節難以被利用。

同時，傳統方法通常缺乏跨回合積累經驗的機制，每一次交互都更像是相對獨立的探索過程，模型只能通過不斷試錯逐步逼近正確策略，這也使得學習過程往往效率較低且不夠穩定。

相比之下，ERL嘗試直接利用反饋中的信息生成反思，并通過經驗內化機制將有效策略持續保留，使行為改進能夠在后續任務中不斷積累，從而形成更加穩定的學習過程。

圖2：傳統強化學習主要依賴反復試錯進行探索，而ERL通過反思機制對失敗進行分析并修正策略，使行為改進能夠持續積累。

二次嘗試機制與經驗內化

在ERL框架下，每個訓練回合都包含三個關鍵生成步驟：第一次嘗試、反思以及第二次嘗試。

模型首先根據輸入任務生成第一次回答并與環境交互獲得反饋，得到對應的獎勵信號；隨后基于這次嘗試及其反饋生成一段反思，用于總結可能的改進方向；最后模型再根據反思進行第二次嘗試，得到新的結果和獎勵（圖3）。

在訓練過程中，這三個步驟產生的輸出都會參與常規的強化學習策略更新，但它們對應的獎勵來源有所不同。第一、二次嘗試直接使用其與環境交互得到的獎勵信號；而反思本身的獎勵則與第二次嘗試綁定——如果反思能夠幫助產生更好的結果，它就會獲得更高的獎勵。

這種設計本質上將「反思是否有效」轉化為可學習信號，使模型逐漸學會生成更有幫助的反思內容。

與此同時，ERL還引入了一個額外的「經驗內化」步驟，用于將反思帶來的改進轉化為模型在推理時可以直接使用的能力。

具體做法是：當第二次嘗試獲得較高獎勵時，訓練會額外加入一個蒸餾目標，讓模型在不提供反思上下文的情況下直接從原始輸入生成改進后的答案。

這一過程本質上是一種上下文蒸餾（context distillation），其作用是將依賴反思才能得到的行為修正「寫入」基礎策略，使模型在部署時無需顯式反思也能復現改進效果。

圖3：ERL訓練流程示意圖

從整體來看，這一機制將反思引入強化學習軌跡內部，使模型能夠在同一回合內完成局部行為修正，同時通過蒸餾將有效經驗沉淀為長期能力，從而形成「生成—反思—改進—內化」的閉環學習過程。

在復雜環境中顯著提升性能

論文在三類經典任務上驗證了ERL的效果，包括兩個稀疏獎勵環境Frozen Lake和Sokoban（推箱子），以及多跳問答任務HotpotQA

需要注意的是，論文中的Frozen Lake和Sokoban環境并不是傳統語言模型評測中常見的文本版本。在許多既有設置中，模型通常會被明確告知環境符號含義、規則或任務結構，而該研究刻意不提供這些先驗信息。

模型只能通過與環境交互獲得觀察結果和獎勵信號，自行推斷符號語義、行動后果以及任務目標，從而逐步形成策略。

這一設計更接近真實未知環境，旨在評估模型在缺乏先驗知識情況下通過經驗進行學習和自我改進的能力。結果顯示，ERL在所有任務上都優于傳統RLVR方法（圖4）。

圖4：ERL與RLVR的最終性能對比

其中，在需要長時間規劃和策略推理的Sokoban環境中，性能提升最為明顯，最高提升達到81%。FrozenLake也取得約27%的提升，而在HotpotQA這類反饋相對更密集、環境更簡單的任務中，提升約為11%。

研究人員指出，這一結果表明ERL在需要推斷環境動態和長期決策的場景中優勢更加突出。

更快收斂的訓練動態

從訓練曲線來看，ERL在整個訓練過程中都保持了更高的獎勵水平，并且在相同訓練預算下整體收斂速度更快，與傳統RLVR方法持續拉開差距（圖5）。

這一點在稀疏獎勵、長規劃的環境中尤為明顯：當獎勵只在終局給出時，純粹依賴標量獎勵的策略梯度更新往往需要大量有效軌跡才能產生穩定改進，而ERL通過在同一回合內引入「失敗—反思—再嘗試」的結構，將一次交互中的反饋信息轉化為可執行的修正方向。

論文認為，反思在訓練中提供了一種額外的中間糾錯通道，使模型不必完全依賴稀疏的最終獎勵去推斷行為改進方向，而是能夠在獲得反饋后生成更明確的修正線索，并用于后續嘗試，使得訓練更新更集中在接近成功的軌跡上，減少了在無效策略空間中的探索，從而表現為整體收斂更快且曲線更穩定。

圖5：ERL與RLVR的訓練效率對比

消融實驗

記憶與反思步驟對訓練表現的影響

為了更清楚地理解性能提升來自哪些機制，論文對ERL的關鍵組件進行了消融分析。

研究分別構造了兩個變體：一是移除結構化反思步驟，模型不再根據第一次嘗試生成反思，而只是基于已有上下文進行再次嘗試；二是移除跨回合記憶機制，雖然仍然生成反思并用于當前回合的改進，但這些反思不會被保存用于后續任務。

結果顯示，當移除反思機制時，模型性能下降最為明顯（表1）。由于缺少對失敗原因的結構化總結，第二次嘗試更接近于簡單的「再試一次」，難以形成有效糾錯，因此整體獎勵顯著降低，表明反思是ERL產生即時改進效果的核心來源，它為模型提供了可操作的行為修正線索，使同一回合內的嘗試更有針對性。

相比之下，移除記憶機制主要影響收斂速度。雖然模型仍然能夠在單個回合中通過反思實現改進，但由于無法跨任務積累有效的糾錯經驗，每一次交互都更接近從零開始推斷，導致整體學習過程變慢。這說明記憶機制的作用在于將有效策略持續保留下來，使改進能夠在訓練過程中逐步積累，從而形成更加穩定的策略提升。

表1：消融實驗的最終表現

從模仿學習到經驗學習的范式演進

作者將當前大模型訓練方式概括為一條逐步演進的路徑：從監督微調依賴示例模仿，到強化學習依賴獎勵信號進行優化，再到經驗強化學習（ERL）強調從經驗中學習。

相比前兩者，ERL通過引入反思與內化機制，提供了一種將失敗轉化為可利用學習信號的顯式路徑，使模型能夠在交互過程中持續積累行為修正經驗。這一視角也與近年來「經驗數據將成為下一代AI主要訓練來源」的觀點相呼應。

論文指出，ERL展示了一種構建經驗驅動AI系統的可能路徑，通過反思和經驗內化，模型能夠在訓練過程中不斷沉淀糾錯策略，并在部署時直接應用這些經驗，而無需額外推理成本。

如果這一方向得到進一步驗證，它可能成為構建長期自主智能體的重要基礎，使強化學習從單純的優化方法逐步演變為更接近人類學習過程的訓練范式。

結語

強化學習的發展正在經歷一次微妙但重要的轉變。從依賴獎勵信號的試錯優化，到強調經驗轉化與行為修正，研究者正在嘗試讓模型具備更接近人類的學習能力。

經驗強化學習（ERL）所提出的經驗—反思—內化框架，展示了一種將交互過程轉化為持續學習能力的可能路徑，也為構建能夠長期自我改進的智能體提供了新的思路。

參考資料：

https://arxiv.org/abs/2602.13949

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

ICLR 2026 Oral｜多模態知識圖譜對齊難：破解噪聲關聯至為關鍵

機器之心Pro 2026-03-06 14:55:34
0 跟貼 0
這一個Tab鍵，我愿意單獨付費：Cursor在線強化學習優化代碼建議

機器之心Pro 2025-09-15 10:35:28
14 跟貼 14

2026年，大模型訓練的下半場屬于「強化學習云」

機器之心Pro 2026-01-12 14:03:47
0 跟貼 0

VinciCoder：多模態統一代碼生成框架和視覺反饋強化學習

機器之心Pro 2025-11-17 14:12:38
0 跟貼 0
AGILE：自監督+交互式強化學習助力VLMs感知與推理全面提升

機器之心Pro 2025-10-20 18:30:03
0 跟貼 0

國外小姐姐做了個有趣的實驗，如何在街上吸引老大爺們的目光

預言爸爸旅行VLOG 2026-03-07 09:46:46
0 跟貼 0

AReaL v1.0開源，智能體強化學習「一鍵接入」

機器之心Pro 2026-03-05 14:46:18
0 跟貼 0
奶奶說手上有塊死肉怎么弄都不痛，孫女直接開始實驗

重慶熱點 2026-03-06 16:26:14
0 跟貼 0

274科學家竟拿百姓做實驗，不料出現意外！終極對決6

長河電影 2026-03-06 17:01:21
1 跟貼 1
突破困惑，堅定選擇 | 韓依琳

中國物理學會期刊網 2026-03-07 08:09:41
0 跟貼 0
希望每個孩子在創造與實驗中收獲快樂

中國教育新聞網 2026-03-07 08:45:07
0 跟貼 0
女子在杭州西湖景區把“西泠印社”認成“杜帥冷面”，網友：四個字認錯五個，當事人：沒有文化確實不行

揚子晚報 2026-03-06 17:44:56
996 跟貼 996
絕配夫妻的八大特征，都是有規律的，看你中了幾條！

果果旅行家 2026-03-05 09:36:47
0 跟貼 0
這學期要沖篇高分，我打算從這步做起

生物學霸 2026-03-07 17:11:19
0 跟貼 0
發動機模型

制造科技 2026-03-04 18:55:15
0 跟貼 0
十個很準的規律

東北丫頭 2026-03-04 12:12:23
0 跟貼 0
油價或迎來本年度飆升加滿一箱油要貴20元

都市快報橙柿互動 2026-03-07 23:13:42
1390 跟貼 1390
難住初中生的找規律

大力小學數學 2026-03-04 14:53:00
0 跟貼 0
下一波冷空氣時間確定！廣州，要下雨了

環球網資訊 2026-03-08 07:23:09
39 跟貼 39
萬噸大驅鎮四海！055：改寫海戰規則的東方神盾

三叔胡侃 2026-03-07 14:49:36
3 跟貼 3
阿聯酋航空暫停所有進出迪拜航班

界面新聞 2026-03-07 15:24:47
1082 跟貼 1082
超級杯聯賽遭遇兩連敗，上海海港的新賽季警報提前拉響

澎湃新聞 2026-03-08 08:56:27
1 跟貼 1
被全網催開門的河南水煎包店老板準備明天營業，正在打掃衛生、備餐：煎包還是1元2個，胡辣湯3元1碗

大象新聞 2026-03-07 14:47:24
319 跟貼 319
殲20升級版的服役，正在改寫空戰規則！

三叔胡侃 2026-03-06 13:59:49
1 跟貼 1
國外網友被中國無人貨車震撼到了！韓國網友：中國人定義規則！

愛歌唱的叮當貓 2026-03-04 13:07:07
0 跟貼 0
Switch 2開發機好拿嗎？任天堂的算盤是

IT之家 2026-03-08 11:23:23
0 跟貼 0
十二星座周運（03/09-03/15）—ezoey徐佩玲26年星座播報

Ezoey徐佩玲星座運勢 2026-03-08 10:26:31
4 跟貼 4
路虎攬勝回應長城汽車董事長魏建軍道歉：真誠和擔當是最好的代言，堅持原創，祝長城汽車越來越好

中國能源網 2026-03-07 15:29:05
175 跟貼 175
河南一公司連續兩年婦女節給近2000名女員工發160萬元紅包，員工：過年領的2100元還沒用完，又發800元，太幸福了

極目新聞 2026-03-07 20:45:42
472 跟貼 472
1比2不敵河南遭“開門黑”，海港主帥穆斯卡特直言：“很多事，我無法評論”

文匯報 2026-03-08 04:07:08
108 跟貼 108
三國殺：貨真價實的孫十萬！緣孫權到底要怎么玩？

三國殺移動版 2026-03-07 19:59:51
1 跟貼 1
OpenClaw掀起龍蝦熱：行動ASI奇點時刻！全球打工人巨變

36氪 2026-03-08 10:15:10
0 跟貼 0
真正決定你命運的，不是能力，而是愿力；心不喚，物物不至

金沛的國學筆記 2026-03-08 10:59:06
10 跟貼 10
Gemini攻克宇宙弦難題，還自己想到了費曼技巧

DeepTech深科技 2026-03-07 23:14:50
5 跟貼 5
男子硬核爬山直接在山頂烹飪，風景配美食太愜意

南陽日報 2026-03-07 18:45:14
82 跟貼 82
一年級找規律，4，5，6，7，8，（），9

大力小學數學 2026-03-04 14:53:00
1 跟貼 1
代碼Agent的苦澀教訓！首次拆解上下文檢索，直指自動化軟件瓶頸

新智元 2026-03-07 17:35:04
1 跟貼 1
王毅談世界多極化：大國應帶頭守規矩、講信用

新華社 2026-03-08 10:55:41
221 跟貼 221
上海部分商場取消“寵物友好”，商家: 怎么做都會被差評！矛盾如何彌合？

縱相新聞 2026-03-08 08:52:10
1 跟貼 1
廣東爸媽的養老金又提標了

廣東廣播電視臺 2026-03-07 17:23:38
85 跟貼 85

新智元

AI產業主平臺領航智能+時代

14664文章數 66667關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房產

健康

數碼

本地

公開課

津南好·四時總相宜
妝藝大游行2026：愿
春花齊放2026：《駿馬奔騰迎新歲》

公開課

手機 / 數碼

房產 / 家居

告別純獎勵試錯！二次嘗試+反思蒸餾，復雜任務提升81%

OpenClaw最大的推手是閑魚和小紅書

伊朗公布行動細節 有導彈配備集束彈頭均命中目標

伊朗公布行動細節 有導彈配備集束彈頭均命中目標

大傷后被交易，他說：22歲的我已經死了

周迅新戀情曝光，李亞鵬等人已成過去

油價要失控？

9分鐘充飽 全新騰勢Z9GT首搭閃充技術26.98萬起

態度原創

傳統學區房熄火？2月?？诙址勘鸬陌鍓K竟然是…

轉頭就暈的耳石癥，能開車上班嗎？

華為PC加速鴻蒙化 上半年或推出兩款鴻蒙PC新品！

食味印象｜一口入魂！康樂烤肉串起千年絲路香

告別純獎勵試錯！二次嘗試+反思蒸餾，復雜任務提升81%

伊朗公布行動細節有導彈配備集束彈頭均命中目標

伊朗公布行動細節有導彈配備集束彈頭均命中目標

大傷后被交易，他說：22歲的我已經死了

周迅新戀情曝光，李亞鵬等人已成過去

9分鐘充飽全新騰勢Z9GT首搭閃充技術26.98萬起

傳統學區房熄火？2月?？诙址勘鸬陌鍓K竟然是…

轉頭就暈的耳石癥，能開車上班嗎？

華為PC加速鴻蒙化上半年或推出兩款鴻蒙PC新品！

食味印象｜一口入魂！康樂烤肉串起千年絲路香