<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      SFT遠不如RL?永不過時的剃刀原則打開終身學習大模型訓練的大門

      0
      分享至



      機器之心報道

      編輯:冷貓

      我們已經(jīng)進入了大模型時代,越來越多的應用依賴大模型的能力,可以說大模型已經(jīng)成為智能化基礎設施的核心組成部分,支撐著語言,視覺分析,智能駕駛,機器人等各種下游應用。

      在大模型的實際使用中我們發(fā)現(xiàn),大部分的模型還只是某個細分領域任務的大牛,離我們理想中的 AGI 仍然遙遙無期。

      準確的說,這些投入部署的大模型大多是「靜態(tài)」模型,對于其預訓練或微調時優(yōu)化的系列任務表現(xiàn)良好,但是在動態(tài)學習,自我提升這部分能力是缺位的。

      如果我們希望實現(xiàn)更加通用的大模型,使其能像長期的智能助手一樣,隨時間不斷適應新的任務與需求,很多技術瓶頸亟待突破。而最大的挑戰(zhàn)之一就是「災難性遺忘」。

      相信大家對這個概念已經(jīng)非常熟悉了,災難性遺忘指的是模型在學習新任務時,會丟掉之前學到的技能。擴大模型規(guī)模、增加預訓練數(shù)據(jù)確實能稍微緩解遺忘現(xiàn)象,但始終不能徹底解決。



      圖源:小紅書 @機器壞人(AI 版)

      針對災難性遺忘的問題,研究者們提出了各種各樣的改進方法,包括正則化、經(jīng)驗回放、參數(shù)微調等等。

      但有沒有一種可能,我們對大模型遺忘的研究想的有些太復雜了,如無必要勿增實體的剃刀原則才是根治問題的最佳手段。

      幾天前,來自麻省理工學院(MIT)Improbable AI Lab 的研究者針對該問題發(fā)表了一篇研究論文,將奧卡姆的剃刀伸向了大模型后訓練,揭示了大模型遺忘現(xiàn)象的基本規(guī)律和訓練策略,目前已在 Alphaxiv 上熱度排名第一。



      • 論文標題:RL's Razor: Why Online Reinforcement Learning Forgets Less
      • 論文鏈接:https://www.arxiv.org/abs/2509.04259v1

      現(xiàn)代 AI 系統(tǒng)面臨一個根本性挑戰(zhàn):在學習新任務時,它們常常災難性地遺忘先前獲得的知識。這種現(xiàn)象嚴重限制了基礎模型作為長期、持續(xù)學習代理的能力。

      這項研究集中在一個驚人的實證觀察上:

      研究者比較了兩種常見的后訓練方式:監(jiān)督微調(SFT) 和 強化學習(RL)。結果很出乎意料:

      • 即便 SFT 和 RL 在新任務上表現(xiàn)一樣好,SFT 往往是通過 「犧牲舊知識」 來換取新任務的提升;
      • RL 卻能在學習新技能的同時,更多地保留原有能力。

      那么問題來了:為什么 RL 不容易遺忘?

      遺忘定律

      研究揭示了一個新的規(guī)律,稱為 「遺忘定律」:

      當模型 π 在新任務 τ 上進行微調時,遺忘程度可以通過 精確預測,即在新任務上評估的微調策略和基線策略之間的KL散度



      這條定律在實踐中非常有用,因為它可以在微調過程中進行測量甚至影響,而無需訪問舊任務數(shù)據(jù)。盡管其機制仍有待充分理解,但這條定律在不同模型和領域之間的一致性表明它反映了遺忘的一個基本屬性。

      也就是說,微調后模型與原始模型在新任務分布上的差異越大,遺忘就越嚴重。



      偏向 KL - 最小解減少了遺忘。左圖顯示,在能夠解決新任務的策略中,RL 收斂到 KL 散度上最接近基模型的那些策略。右圖顯示,在相同的新任務性能下,這種 KL 偏向使得 RL 相比 SFT 能更好地保留先驗任務的知識。

      研究者進行了廣泛的實驗,以確定什么因素預示著災難性遺忘。他們測試了各種假設,包括權重級變化、表示偏移和分布差異。通過對多個領域和模型架構進行系統(tǒng)性消融研究,他們發(fā)現(xiàn)微調策略和基礎策略之間的前向 KL 散度是遺忘的一個驚人一致的預測指標

      前向 KL 散度定義為:



      其中代表微調策略,代表原始模型。





      這種關系適用于不同的訓練算法和超參數(shù),形成了作者所稱的「經(jīng)驗性遺忘定律」。在使用簡化 ParityMNIST 任務的對照實驗中,這種關系實現(xiàn)了 0.96 的 R2,證明了其預測能力。



      該圖顯示,在帕累托前沿上,RL 始終優(yōu)于 SFT,在語言模型(數(shù)學、科學問答、工具使用)和機器人任務中,RL 在新任務性能和先驗知識保留之間實現(xiàn)了更好的權衡。

      RL 的剃刀:KL 最小路徑原理

      更有意思的是,RL 的優(yōu)勢正來自于它的 「KL 偏好」。

      • 在新任務上,存在許多能達到高表現(xiàn)的解。
      • RL 天然偏向選擇那些 離原始模型更近(KL 更小) 的解;
      • 而 SFT 則可能收斂到距離原始模型很遠的解,從而帶來嚴重遺忘。

      核心理論貢獻是「RL 的剃刀」—— 即在解決新任務的所有方法中,RL 偏好與原始模型在 KL 散度上最接近的解決方案。這種偏向 KL 最小解的偏好解釋了為什么 RL 比 SFT 遺忘得少。

      為了驗證 KL 假設,研究者構造了一個理想的 「oracle SFT」 分布:它在保證新任務完美準確的同時,也做到 KL 最小化。結果顯示,在這個分布上訓練,遺忘比 RL 還少。這說明 RL 的優(yōu)勢并不是來自某種「本質上的不同」,而是源于它 隱式地執(zhí)行了 KL 最小化。只要訓練過程偏向 KL 最小解,模型遺忘就會隨之減少。



      左圖通過使用一個「Oracle SFT」分布來證明這一原理,該分布在實現(xiàn)完美新任務準確性的同時,解析地最小化了 KL 散度。使用這種 Oracle 分布進行訓練產(chǎn)生的遺忘比標準 RL 更少,證實了 KL 最小化是關鍵機制。中圖展示了 KL 散度與遺忘之間的強關聯(lián)(R2 = 0.961),而右圖則說明了與 SFT 相比,RL 如何通過較小的 KL 偏移實現(xiàn)高準確性。

      機制分析:在線策略學習與離線策略學習

      為了理解 RL 何種機制驅動了其 KL 保守行為,研究人員比較了四種不同的訓練范式:

      分析揭示,數(shù)據(jù)收集的在線策略性質是關鍵因素,而不是負面示例的使用。在線策略方法(GRPO 和 1-0 Reinforce)保持較小的 KL 偏移和更好的先驗任務保留,而離線方法(SFT 和 SimPO)無論是否使用負面示例,其行為都相似。

      理論基礎

      作者通過信息幾何的視角,為強化學習的 KL - 最小收斂提供了理論基礎。他們表明,帶有二元獎勵的策略梯度方法可以被理解為在概率空間中執(zhí)行交替的信息(I-)投影和期望(M-)投影:



      這種迭代過程收斂到可表示策略類中的 KL - 最小最優(yōu)策略,為「RL 的剃刀」提供了形式化解釋。I - 投影步驟在滿足獎勵約束的同時最小化 KL 散度,而 M - 投影步驟則朝著更高獎勵的動作更新。

      更多數(shù)據(jù)

      這項研究表明,這一原理超越了簡單的實驗環(huán)境。使用中心核對齊(Centered Kernel Alignment)進行的表示保留分析表明,與 SFT 相比,RL 保持與基礎模型更高的相似性:



      此外,對更大模型(70 億和 140 億參數(shù))的實驗證實,僅僅擴大規(guī)模并不能消除 SFT 中固有的遺忘權衡:



      總結

      本篇論文的核心貢獻有三點:

      1. 實驗證明:在相同性能下,RL 比 SFT 更不容易遺忘

      2. 提出遺忘定律:新任務上的KL 散度是預測遺忘的關鍵指標。

      3. 理論與實證結合,解釋了RL 的優(yōu)勢來自其 on-policy 特性

      這項研究為后訓練提供了新的視角:為了實現(xiàn)無遺忘的持續(xù)適應,算法應該明確地旨在最小化與基模型之間的 KL 散度,確立了 KL 散度作為持續(xù)學習系統(tǒng)的基本設計原則。

      這一原則為設計未來的訓練方法打開了大門,這些方法將 RL 保留先驗知識的能力與 SFT 的效率相結合,使基礎模型能夠真正地「終身學習」。

      對于使用基礎模型的實踐者來說,這項研究提供了明確的指導:當持續(xù)適應很重要時,在線策略 RL 方法比標準微調方法具有顯著優(yōu)勢。KL 散度指標還為模型適應期間的遺忘監(jiān)測和預測提供了一個實用工具。

      這項工作有助于我們理解為什么像 RLHF 中的 KL 正則化這樣的常見實踐是有效的,將經(jīng)驗觀察提升到理論基礎。這種原則性理解為開發(fā)真正長壽、能夠持續(xù)學習而不會災難性遺忘的 AI 代理開辟了新方向。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      第5次!曼聯(lián)4次錯失良機,一次比一次糟糕,阿莫林迎來兩連敗克星

      第5次!曼聯(lián)4次錯失良機,一次比一次糟糕,阿莫林迎來兩連敗克星

      嗨皮看球
      2025-12-08 12:26:58
      225單退款女后續(xù):鄰居爆料炸裂,全家都是“慣犯”,都不是善茬

      225單退款女后續(xù):鄰居爆料炸裂,全家都是“慣犯”,都不是善茬

      鋭娛之樂
      2025-12-08 08:48:31
      恭喜!這3生肖下周起“財神附體”,橫財砸上門,一不小心就暴富

      恭喜!這3生肖下周起“財神附體”,橫財砸上門,一不小心就暴富

      人閒情事
      2025-12-08 13:30:14
      刷屏熱搜!楊瀚森賽后擁抱周志豪 媒體人熱議尚未到NBA首發(fā)實力

      刷屏熱搜!楊瀚森賽后擁抱周志豪 媒體人熱議尚未到NBA首發(fā)實力

      醉臥浮生
      2025-12-08 10:00:06
      王晶終于坦白!陳百強英年早逝主因不是何超瓊,原來我們都被騙了

      王晶終于坦白!陳百強英年早逝主因不是何超瓊,原來我們都被騙了

      楓塵余往逝
      2025-12-08 13:22:19
      金與正的婚姻決定震驚朝鮮內(nèi)外:再也不會有第二個張成澤!

      金與正的婚姻決定震驚朝鮮內(nèi)外:再也不會有第二個張成澤!

      阿校談史
      2025-07-23 16:33:19
      公積金斷崖式下調:從12%到5%,鐵飯碗的體面,真就碎了?

      公積金斷崖式下調:從12%到5%,鐵飯碗的體面,真就碎了?

      復轉這些年
      2025-12-06 23:48:05
      雷軍轉發(fā),小米YU7超百萬級尊界S800、邁巴赫等頂級豪華車

      雷軍轉發(fā),小米YU7超百萬級尊界S800、邁巴赫等頂級豪華車

      電動知家
      2025-12-06 20:08:47
      美國88歲收銀員靠打工維生,澳洲網(wǎng)紅眾籌170萬美元助渡難關。

      美國88歲收銀員靠打工維生,澳洲網(wǎng)紅眾籌170萬美元助渡難關。

      環(huán)球趣聞分享
      2025-12-08 13:00:20
      巴特勒19+8勝公牛!勇士找到后場答案,年薪才9萬,比波杰姆更強

      巴特勒19+8勝公牛!勇士找到后場答案,年薪才9萬,比波杰姆更強

      你的籃球頻道
      2025-12-08 10:15:25
      美國特使:俄烏協(xié)議談判進入“最后10米”

      美國特使:俄烏協(xié)議談判進入“最后10米”

      參考消息
      2025-12-07 21:39:28
      屠殺!勇士123-91公牛,誰是本場比賽的功臣,數(shù)據(jù)不會說謊!

      屠殺!勇士123-91公牛,誰是本場比賽的功臣,數(shù)據(jù)不會說謊!

      金風說
      2025-12-08 10:19:45
      “最快女護士”再登馬拉松領獎臺!近50天獲超20萬元獎金

      “最快女護士”再登馬拉松領獎臺!近50天獲超20萬元獎金

      南方都市報
      2025-12-07 18:38:11
      福建艦編隊為何不叫戰(zhàn)斗群,而叫“航母打擊群”,戰(zhàn)力有多恐怖?

      福建艦編隊為何不叫戰(zhàn)斗群,而叫“航母打擊群”,戰(zhàn)力有多恐怖?

      太空記
      2025-12-03 13:26:06
      雙胞胎哥哥通過外婆尋找真相 還有一個問題沒有答案,弟弟做出澄清

      雙胞胎哥哥通過外婆尋找真相 還有一個問題沒有答案,弟弟做出澄清

      記錄生活日常阿蜴
      2025-12-08 01:32:36
      全紅嬋工資條曝光,基礎工資1500,加補貼到手達6500塊!

      全紅嬋工資條曝光,基礎工資1500,加補貼到手達6500塊!

      荊楚寰宇文樞
      2025-12-07 16:48:12
      央視主持人李七月,不再被重用,她身上究竟發(fā)生了什么?

      央視主持人李七月,不再被重用,她身上究竟發(fā)生了什么?

      手工制作阿殲
      2025-12-08 13:15:40
      笑暈,好的家政阿姨有多受歡迎!網(wǎng)友:雇主哭著不讓走!

      笑暈,好的家政阿姨有多受歡迎!網(wǎng)友:雇主哭著不讓走!

      夜深愛雜談
      2025-12-06 21:35:05
      馬斯克語出驚人:“日本若繼續(xù)這樣下去,遲早會從世界上消失!”

      馬斯克語出驚人:“日本若繼續(xù)這樣下去,遲早會從世界上消失!”

      忠于法紀
      2025-11-29 22:02:53
      六臺:阿隆索賽后沒回更衣室,有些皇馬球員認為談判罰是借口

      六臺:阿隆索賽后沒回更衣室,有些皇馬球員認為談判罰是借口

      懂球帝
      2025-12-08 10:24:06
      2025-12-08 14:12:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      11864文章數(shù) 142510關注度
      往期回顧 全部

      科技要聞

      外面有人挖,家里有人跑:蘋果亂成了一鍋粥

      頭條要聞

      牛彈琴:對日斗爭突發(fā)新情況 中國軍方回應火力全開

      頭條要聞

      牛彈琴:對日斗爭突發(fā)新情況 中國軍方回應火力全開

      體育要聞

      厲害的后衛(wèi)何其多 想想還少了哪一個

      娛樂要聞

      郭麒麟也救不了的德云社了?

      財經(jīng)要聞

      養(yǎng)牛場未見一頭牛 每天開采礦石倒賣

      汽車要聞

      挑戰(zhàn)深圳地獄級路況 魏牌藍山VLA上車會思考聽得懂人話

      態(tài)度原創(chuàng)

      手機
      教育
      藝術
      時尚
      健康

      手機要聞

      iPhone 18系列確認測試屏下Face ID:首發(fā)小號靈動島

      教育要聞

      重磅!27年起,綿陽中考總分變?yōu)?00分!明年執(zhí)行過渡方案!征求意見中

      藝術要聞

      50億美元!迪拜真能建成一個“月球”?

      除了大衣,今年最火的外套一定就是它了!

      甲狀腺結節(jié)到這個程度,該穿刺了!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 成人亚洲综合av天堂| 日韩久久精品| 99RE6在线观看国产精品| 香港三日本8a三级少妇三级99| 漂亮人妻被中出中文字幕| 日日撸日日干| 91精品国产免费人成网站| 久久99国产精品久久| 制服丝袜国产精品| 亚洲老熟女@TubeumTv| 亚州成人视频| 亚洲婷婷综合色高清在线| 国产成人小视频| 一 级 黄 色 片免费网站| 亚洲a∨国产av综合av下载| 欧美日韩亚洲国产| 免费观看在线A级毛片| 国产精品99精品久久免费| 无码人妻精品一区二| 亚洲一区二区人妻| 亚洲色情在线播放| 色偷偷偷久久伊人大杳蕉| 超碰在线观看91| 国产丨熟女丨国产熟女??在线| 国产精品久久精品第一页| 国内国外精品影片无人区| 99久久国产综合精品1| 91超碰在线播放| 武乡县| 91色在线观看| av在线无码| 男人添女人囗交做爰视频| 91精品人妻一区二区三区蜜桃 | 亚洲国产人妻| 91丨九色丨夫妻绿帽| 人妻有码中文字幕| 韩国日本三级在线观看| 麻豆AV电影| 国产360激情盗摄全集| 久久AV中文综合一区二区| 99精品国产在热久久无码|