<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      SFT遠不如RL?永不過時的剃刀原則打開終身學(xué)習(xí)大模型訓(xùn)練的大門

      0
      分享至



      機器之心報道

      編輯:冷貓

      我們已經(jīng)進入了大模型時代,越來越多的應(yīng)用依賴大模型的能力,可以說大模型已經(jīng)成為智能化基礎(chǔ)設(shè)施的核心組成部分,支撐著語言,視覺分析,智能駕駛,機器人等各種下游應(yīng)用。

      在大模型的實際使用中我們發(fā)現(xiàn),大部分的模型還只是某個細(xì)分領(lǐng)域任務(wù)的大牛,離我們理想中的 AGI 仍然遙遙無期。

      準(zhǔn)確的說,這些投入部署的大模型大多是「靜態(tài)」模型,對于其預(yù)訓(xùn)練或微調(diào)時優(yōu)化的系列任務(wù)表現(xiàn)良好,但是在動態(tài)學(xué)習(xí),自我提升這部分能力是缺位的。

      如果我們希望實現(xiàn)更加通用的大模型,使其能像長期的智能助手一樣,隨時間不斷適應(yīng)新的任務(wù)與需求,很多技術(shù)瓶頸亟待突破。而最大的挑戰(zhàn)之一就是「災(zāi)難性遺忘」。

      相信大家對這個概念已經(jīng)非常熟悉了,災(zāi)難性遺忘指的是模型在學(xué)習(xí)新任務(wù)時,會丟掉之前學(xué)到的技能。擴大模型規(guī)模、增加預(yù)訓(xùn)練數(shù)據(jù)確實能稍微緩解遺忘現(xiàn)象,但始終不能徹底解決。



      圖源:小紅書 @機器壞人(AI 版)

      針對災(zāi)難性遺忘的問題,研究者們提出了各種各樣的改進方法,包括正則化、經(jīng)驗回放、參數(shù)微調(diào)等等。

      但有沒有一種可能,我們對大模型遺忘的研究想的有些太復(fù)雜了,如無必要勿增實體的剃刀原則才是根治問題的最佳手段。

      幾天前,來自麻省理工學(xué)院(MIT)Improbable AI Lab 的研究者針對該問題發(fā)表了一篇研究論文,將奧卡姆的剃刀伸向了大模型后訓(xùn)練,揭示了大模型遺忘現(xiàn)象的基本規(guī)律和訓(xùn)練策略,目前已在 Alphaxiv 上熱度排名第一。



      • 論文標(biāo)題:RL's Razor: Why Online Reinforcement Learning Forgets Less
      • 論文鏈接:https://www.arxiv.org/abs/2509.04259v1

      現(xiàn)代 AI 系統(tǒng)面臨一個根本性挑戰(zhàn):在學(xué)習(xí)新任務(wù)時,它們常常災(zāi)難性地遺忘先前獲得的知識。這種現(xiàn)象嚴(yán)重限制了基礎(chǔ)模型作為長期、持續(xù)學(xué)習(xí)代理的能力。

      這項研究集中在一個驚人的實證觀察上:

      研究者比較了兩種常見的后訓(xùn)練方式:監(jiān)督微調(diào)(SFT) 和 強化學(xué)習(xí)(RL)。結(jié)果很出乎意料:

      • 即便 SFT 和 RL 在新任務(wù)上表現(xiàn)一樣好,SFT 往往是通過 「犧牲舊知識」 來換取新任務(wù)的提升;
      • RL 卻能在學(xué)習(xí)新技能的同時,更多地保留原有能力。

      那么問題來了:為什么 RL 不容易遺忘?

      遺忘定律

      研究揭示了一個新的規(guī)律,稱為 「遺忘定律」:

      當(dāng)模型 π 在新任務(wù) τ 上進行微調(diào)時,遺忘程度可以通過 精確預(yù)測,即在新任務(wù)上評估的微調(diào)策略和基線策略之間的KL散度



      這條定律在實踐中非常有用,因為它可以在微調(diào)過程中進行測量甚至影響,而無需訪問舊任務(wù)數(shù)據(jù)。盡管其機制仍有待充分理解,但這條定律在不同模型和領(lǐng)域之間的一致性表明它反映了遺忘的一個基本屬性。

      也就是說,微調(diào)后模型與原始模型在新任務(wù)分布上的差異越大,遺忘就越嚴(yán)重。



      偏向 KL - 最小解減少了遺忘。左圖顯示,在能夠解決新任務(wù)的策略中,RL 收斂到 KL 散度上最接近基模型的那些策略。右圖顯示,在相同的新任務(wù)性能下,這種 KL 偏向使得 RL 相比 SFT 能更好地保留先驗任務(wù)的知識。

      研究者進行了廣泛的實驗,以確定什么因素預(yù)示著災(zāi)難性遺忘。他們測試了各種假設(shè),包括權(quán)重級變化、表示偏移和分布差異。通過對多個領(lǐng)域和模型架構(gòu)進行系統(tǒng)性消融研究,他們發(fā)現(xiàn)微調(diào)策略和基礎(chǔ)策略之間的前向 KL 散度是遺忘的一個驚人一致的預(yù)測指標(biāo)

      前向 KL 散度定義為:



      其中代表微調(diào)策略,代表原始模型。





      這種關(guān)系適用于不同的訓(xùn)練算法和超參數(shù),形成了作者所稱的「經(jīng)驗性遺忘定律」。在使用簡化 ParityMNIST 任務(wù)的對照實驗中,這種關(guān)系實現(xiàn)了 0.96 的 R2,證明了其預(yù)測能力。



      該圖顯示,在帕累托前沿上,RL 始終優(yōu)于 SFT,在語言模型(數(shù)學(xué)、科學(xué)問答、工具使用)和機器人任務(wù)中,RL 在新任務(wù)性能和先驗知識保留之間實現(xiàn)了更好的權(quán)衡。

      RL 的剃刀:KL 最小路徑原理

      更有意思的是,RL 的優(yōu)勢正來自于它的 「KL 偏好」。

      • 在新任務(wù)上,存在許多能達到高表現(xiàn)的解。
      • RL 天然偏向選擇那些 離原始模型更近(KL 更小) 的解;
      • 而 SFT 則可能收斂到距離原始模型很遠的解,從而帶來嚴(yán)重遺忘。

      核心理論貢獻是「RL 的剃刀」—— 即在解決新任務(wù)的所有方法中,RL 偏好與原始模型在 KL 散度上最接近的解決方案。這種偏向 KL 最小解的偏好解釋了為什么 RL 比 SFT 遺忘得少。

      為了驗證 KL 假設(shè),研究者構(gòu)造了一個理想的 「oracle SFT」 分布:它在保證新任務(wù)完美準(zhǔn)確的同時,也做到 KL 最小化。結(jié)果顯示,在這個分布上訓(xùn)練,遺忘比 RL 還少。這說明 RL 的優(yōu)勢并不是來自某種「本質(zhì)上的不同」,而是源于它 隱式地執(zhí)行了 KL 最小化。只要訓(xùn)練過程偏向 KL 最小解,模型遺忘就會隨之減少。



      左圖通過使用一個「Oracle SFT」分布來證明這一原理,該分布在實現(xiàn)完美新任務(wù)準(zhǔn)確性的同時,解析地最小化了 KL 散度。使用這種 Oracle 分布進行訓(xùn)練產(chǎn)生的遺忘比標(biāo)準(zhǔn) RL 更少,證實了 KL 最小化是關(guān)鍵機制。中圖展示了 KL 散度與遺忘之間的強關(guān)聯(lián)(R2 = 0.961),而右圖則說明了與 SFT 相比,RL 如何通過較小的 KL 偏移實現(xiàn)高準(zhǔn)確性。

      機制分析:在線策略學(xué)習(xí)與離線策略學(xué)習(xí)

      為了理解 RL 何種機制驅(qū)動了其 KL 保守行為,研究人員比較了四種不同的訓(xùn)練范式:

      分析揭示,數(shù)據(jù)收集的在線策略性質(zhì)是關(guān)鍵因素,而不是負(fù)面示例的使用。在線策略方法(GRPO 和 1-0 Reinforce)保持較小的 KL 偏移和更好的先驗任務(wù)保留,而離線方法(SFT 和 SimPO)無論是否使用負(fù)面示例,其行為都相似。

      理論基礎(chǔ)

      作者通過信息幾何的視角,為強化學(xué)習(xí)的 KL - 最小收斂提供了理論基礎(chǔ)。他們表明,帶有二元獎勵的策略梯度方法可以被理解為在概率空間中執(zhí)行交替的信息(I-)投影和期望(M-)投影:



      這種迭代過程收斂到可表示策略類中的 KL - 最小最優(yōu)策略,為「RL 的剃刀」提供了形式化解釋。I - 投影步驟在滿足獎勵約束的同時最小化 KL 散度,而 M - 投影步驟則朝著更高獎勵的動作更新。

      更多數(shù)據(jù)

      這項研究表明,這一原理超越了簡單的實驗環(huán)境。使用中心核對齊(Centered Kernel Alignment)進行的表示保留分析表明,與 SFT 相比,RL 保持與基礎(chǔ)模型更高的相似性:



      此外,對更大模型(70 億和 140 億參數(shù))的實驗證實,僅僅擴大規(guī)模并不能消除 SFT 中固有的遺忘權(quán)衡:



      總結(jié)

      本篇論文的核心貢獻有三點:

      1. 實驗證明:在相同性能下,RL 比 SFT 更不容易遺忘

      2. 提出遺忘定律:新任務(wù)上的KL 散度是預(yù)測遺忘的關(guān)鍵指標(biāo)。

      3. 理論與實證結(jié)合,解釋了RL 的優(yōu)勢來自其 on-policy 特性

      這項研究為后訓(xùn)練提供了新的視角:為了實現(xiàn)無遺忘的持續(xù)適應(yīng),算法應(yīng)該明確地旨在最小化與基模型之間的 KL 散度,確立了 KL 散度作為持續(xù)學(xué)習(xí)系統(tǒng)的基本設(shè)計原則。

      這一原則為設(shè)計未來的訓(xùn)練方法打開了大門,這些方法將 RL 保留先驗知識的能力與 SFT 的效率相結(jié)合,使基礎(chǔ)模型能夠真正地「終身學(xué)習(xí)」。

      對于使用基礎(chǔ)模型的實踐者來說,這項研究提供了明確的指導(dǎo):當(dāng)持續(xù)適應(yīng)很重要時,在線策略 RL 方法比標(biāo)準(zhǔn)微調(diào)方法具有顯著優(yōu)勢。KL 散度指標(biāo)還為模型適應(yīng)期間的遺忘監(jiān)測和預(yù)測提供了一個實用工具。

      這項工作有助于我們理解為什么像 RLHF 中的 KL 正則化這樣的常見實踐是有效的,將經(jīng)驗觀察提升到理論基礎(chǔ)。這種原則性理解為開發(fā)真正長壽、能夠持續(xù)學(xué)習(xí)而不會災(zāi)難性遺忘的 AI 代理開辟了新方向。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      最新 | 張又俠、劉振立涉嫌嚴(yán)重違紀(jì)違法被立案審查調(diào)查

      最新 | 張又俠、劉振立涉嫌嚴(yán)重違紀(jì)違法被立案審查調(diào)查

      天津廣播
      2026-01-24 15:18:05
      1996年, 施瓦辛格在家中無事,和35歲200斤女傭發(fā)生不當(dāng)關(guān)系

      1996年, 施瓦辛格在家中無事,和35歲200斤女傭發(fā)生不當(dāng)關(guān)系

      南權(quán)先生
      2026-01-20 15:49:53
      21-15,24-22!陳雨菲KO手下敗將,2026年首進決賽,打破冠軍荒?

      21-15,24-22!陳雨菲KO手下敗將,2026年首進決賽,打破冠軍荒?

      劉姚堯的文字城堡
      2026-01-24 14:43:42
      廣東省委原常委、廣州市委原書記郭永航獲增補為省政協(xié)委員

      廣東省委原常委、廣州市委原書記郭永航獲增補為省政協(xié)委員

      澎湃新聞
      2026-01-24 18:12:15
      凝聚力拉滿!廣東為林醫(yī)生慶生!杜鋒講話致敬,球員砸蛋糕未果!

      凝聚力拉滿!廣東為林醫(yī)生慶生!杜鋒講話致敬,球員砸蛋糕未果!

      籃球資訊達人
      2026-01-24 21:05:56
      它被評為“中國十大最丑”,卻成了魔都最火打卡點!

      它被評為“中國十大最丑”,卻成了魔都最火打卡點!

      GA環(huán)球建筑
      2026-01-23 23:59:12
      睡完首富睡首相:從廠妹到頂級名媛,靠男人撈到268億,她憑什么

      睡完首富睡首相:從廠妹到頂級名媛,靠男人撈到268億,她憑什么

      深度報
      2026-01-21 22:54:05
      健美選手睪丸萎縮成“蠶豆”大小:瘋狂的肌肉與不可逆的代價

      健美選手睪丸萎縮成“蠶豆”大小:瘋狂的肌肉與不可逆的代價

      聽心堂
      2026-01-24 13:11:09
      突發(fā)!菲律賓宣布封鎖黃巖島空域,將連續(xù)軍演70天

      突發(fā)!菲律賓宣布封鎖黃巖島空域,將連續(xù)軍演70天

      頭條爆料007
      2026-01-24 06:17:26
      老婆漂亮有多重要?這些長相平平的男明星,生的兒子顏值終于翻盤

      老婆漂亮有多重要?這些長相平平的男明星,生的兒子顏值終于翻盤

      大鐵貓娛樂
      2026-01-24 16:10:02
      炸鍋!馬斯克當(dāng)眾自曝:我就是外星人!9000顆衛(wèi)星佐證,真相曝光

      炸鍋!馬斯克當(dāng)眾自曝:我就是外星人!9000顆衛(wèi)星佐證,真相曝光

      丁丁鯉史紀(jì)
      2026-01-23 16:30:04
      官媒親宣,33歲韋東奕再破天花板,讓王虹和整個學(xué)術(shù)圈“沉默”了

      官媒親宣,33歲韋東奕再破天花板,讓王虹和整個學(xué)術(shù)圈“沉默”了

      趣文說娛
      2026-01-24 15:17:05
      想不到吧?大蟲羅德曼的女兒剛剛簽下世界女足的最高薪!

      想不到吧?大蟲羅德曼的女兒剛剛簽下世界女足的最高薪!

      籃球大圖
      2026-01-24 13:22:49
      深夜利好,41股業(yè)績大超預(yù)期,108股業(yè)績暴雷,千萬別搞錯方向

      深夜利好,41股業(yè)績大超預(yù)期,108股業(yè)績暴雷,千萬別搞錯方向

      風(fēng)風(fēng)順
      2026-01-24 07:42:57
      湖北荊州市原住房和城鄉(xiāng)建設(shè)局黨組副書記接受紀(jì)律審查和監(jiān)察調(diào)查

      湖北荊州市原住房和城鄉(xiāng)建設(shè)局黨組副書記接受紀(jì)律審查和監(jiān)察調(diào)查

      瀟湘晨報
      2026-01-24 16:48:12
      21歲患白血病女大學(xué)生急需配型,全網(wǎng)尋親后疑似生父出現(xiàn),稱曾在女友懷孕時分別失去聯(lián)系:“不管是不是,都希望能幫到她”

      21歲患白血病女大學(xué)生急需配型,全網(wǎng)尋親后疑似生父出現(xiàn),稱曾在女友懷孕時分別失去聯(lián)系:“不管是不是,都希望能幫到她”

      極目新聞
      2026-01-24 20:39:46
      火箭終結(jié)活塞4連勝:杜蘭特32+7超特里迎里程碑 阿門15+9+7

      火箭終結(jié)活塞4連勝:杜蘭特32+7超特里迎里程碑 阿門15+9+7

      醉臥浮生
      2026-01-24 10:50:05
      這家A股公司,擬重大資產(chǎn)重組!下周一停牌

      這家A股公司,擬重大資產(chǎn)重組!下周一停牌

      每日經(jīng)濟新聞
      2026-01-24 21:09:03
      女子稱為籌治病錢賣掉勞力士 收錢后賬戶被凍結(jié):系涉詐資金 案件在辦理無法解封

      女子稱為籌治病錢賣掉勞力士 收錢后賬戶被凍結(jié):系涉詐資金 案件在辦理無法解封

      紅星新聞
      2026-01-24 11:33:24
      爛尾10多年!浙江百棟別墅成“羊圈”,如今砸73億能翻身嗎?

      爛尾10多年!浙江百棟別墅成“羊圈”,如今砸73億能翻身嗎?

      GA環(huán)球建筑
      2026-01-20 18:30:20
      2026-01-24 23:00:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12179文章數(shù) 142549關(guān)注度
      往期回顧 全部

      科技要聞

      特斯拉Cybercrab即將落地 每公里不到1塊錢

      頭條要聞

      被雪豹咬傷女子從急診轉(zhuǎn)出 目擊者:她沒有去摸豹子

      頭條要聞

      被雪豹咬傷女子從急診轉(zhuǎn)出 目擊者:她沒有去摸豹子

      體育要聞

      當(dāng)家球星打替補,他們在故意擺爛?

      娛樂要聞

      回歸還是頂流 鳳凰傳奇將現(xiàn)身馬年春晚

      財經(jīng)要聞

      “百年老字號”張小泉遭60億債務(wù)壓頂

      汽車要聞

      有增程和純電版可選 日產(chǎn)NX8或于3-4月間上市

      態(tài)度原創(chuàng)

      藝術(shù)
      親子
      家居
      教育
      公開課

      藝術(shù)要聞

      303米!這座“涌泉”之樓,是綠地在濟南拿下的首個“第一高”

      親子要聞

      自尊心很強的孩子該怎么疏導(dǎo)

      家居要聞

      在家度假 160平南洋混搭宅

      教育要聞

      傅佩榮:陪伴變監(jiān)工,放養(yǎng)又不敢,當(dāng)代父母養(yǎng)娃焦慮,看完就好了

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 国产一区二区亚洲一区二区三区| 国产精品av在线| 精品深夜av无码一区二区| 丁香五月亚洲综合在线| 国产99re热这里只有精品| 亚洲乱熟女| 彭山县| 色伦专区97中文字幕| 欧美另类高清zo欧美| 黄色综合网| 久久精品国产国产精| 秋霞国产在线| 欧美成人一区二区三区在线视频| 亚洲国产成人久久精品软件| 自拍亚洲欧美精品| 被黑人伦流澡到高潮HNP动漫| 福利二区| 精品亚洲一区二区三区在线播放| 婷婷五月综合色视频 | a毛片基地免费大全| 日本一卡2卡3卡4卡无卡免费| 一区二区三区午夜福利院| 无码人妻久久久一区二区三区| 国产黄色精品高潮播放| 久久99久久99精品免视看看| 久久夜精品综合缴情五月| 婷婷丁香社区| 2021精品亚洲中文字幕| 97在线视频免费人妻| 亚洲无码中出| 毛片无遮挡高清免费| 国产亚洲av| 中文日韩亚洲欧美字幕| 中文字幕乱码无码人妻系列蜜桃| 亚洲精品成人无码| 国产精品视频中文字幕| 国产亚洲一区二区三区四区| 成在线人视频免费视频| 精品无码av无码专区| 91成人精品免费在线| 精品亚洲男人一区二区三区|