<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      2026開年關(guān)鍵詞:Self-Distillation,大模型真正走向持續(xù)學習

      0
      分享至



      機器之心編輯部

      2026 年剛拉開序幕,大模型(LLM)領(lǐng)域的研究者們似乎達成了一種默契。

      當你翻開最近 arXiv 上最受關(guān)注的幾篇論文,會發(fā)現(xiàn)一個高頻出現(xiàn)的詞匯:Self-Distillation

      近年來,基礎(chǔ)模型取得了顯著的成功,為語言、視覺、機器人等領(lǐng)域的 AI 應(yīng)用提供了強大的支持。

      但在真正落地、長期使用的過程中,研究者逐漸發(fā)現(xiàn):如何讓模型在不斷吸收新知識的同時,不丟失已有的核心能力 —— 即「持續(xù)學習」,正成為制約大模型進化的關(guān)鍵瓶頸。

      傳統(tǒng)的強教師依賴范式因成本與數(shù)據(jù)依賴,難以適配高頻的持續(xù)進化。Self-Distillation(自蒸餾)隨之成為破局點 ——通過合理的上下文引導或反饋機制,模型完全可以構(gòu)建出一個比當前權(quán)重更聰明的臨時自我,讓模型在沒有外部強教師的情況下實現(xiàn)內(nèi)生增長。

      基于這一深刻洞察,由 MIT、ETH Zurich、Meta 及斯坦福等頂尖機構(gòu)組成的緊密學術(shù)圈,在 2026 年 1 月密集發(fā)布了三項研究成果。

      1.Self-Distillation Enables Continual Learning



      • 論文標題:Self-Distillation Enables Continual Learning
      • 論文鏈接:https://www.alphaxiv.org/abs/2601.19897
      • 代碼鏈接:https://github.com/idanshen/Self-Distillation

      在持續(xù)學習領(lǐng)域,傳統(tǒng)的監(jiān)督微調(diào)(SFT)常因「災(zāi)難性遺忘」備受詬病,它的副作用非常明顯:當你教模型學會一套新的知識,它原有的代碼能力或常識推理往往會發(fā)生斷崖式下跌。

      研究團隊提出了一種自蒸餾微調(diào)(SDFT)方法,該方法能夠直接從演示中實現(xiàn)基于策略的學習。



      SDFT 機制概覽

      核心機制:該方法假設(shè)預(yù)訓練模型已具備強大的 ICL 潛力。在學習新知識時,首先構(gòu)造包含少量專家演示(Few-shot)的上下文,誘導模型生成高質(zhì)量的教師分布;隨后要求模型在不帶演示的情況下,通過自蒸餾去擬合這一分布。

      技術(shù)突破:該方法將持續(xù)學習轉(zhuǎn)化為一個策略內(nèi)對齊問題。由于訓練信號源于模型自身的 ICL 狀態(tài),它能最大限度地保持模型原始的概率流分布,避免參數(shù)在微調(diào)過程中產(chǎn)生劇烈漂移,從而解決了監(jiān)督微調(diào)(SFT)中常見的災(zāi)難性遺忘。



      在技能學習和知識獲取任務(wù)中,SDFT 的表現(xiàn)一致優(yōu)于 SFT:它不僅實現(xiàn)了更高的新任務(wù)準確率,還顯著減少了災(zāi)難性遺忘。在順序?qū)W習實驗中,SDFT 使單一模型能夠隨時間累積多種技能而不會出現(xiàn)性能退化,證明了同策略蒸餾是從演示中實現(xiàn)持續(xù)學習的一種實用路徑。

      2.Reinforcement Learning via Self-Distillation



      • 論文標題:Reinforcement Learning via Self-Distillation
      • 論文鏈接:https://arxiv.org/pdf/2601.20802
      • 代碼鏈接:https://github.com/lasgroup/SDPO

      目前的強化學習(如 GRPO)通常只能拿到一個二值反饋,這在長程推理中會導致嚴重的「信用分配」問題。此外,在 GRPO 等算法中,如果模型在某組嘗試中全軍覆沒(獎勵均為 0),學習信號就會消失,導致模型進化停滯。

      研究團隊認為,問題的關(guān)鍵并不在于強化學習本身,而在于常見的二值反饋信息密度極低,無法為長邏輯鏈條提供精細的指導。

      針對這一困境,研究團隊提出了 SDPO(自蒸餾策略優(yōu)化) 框架,旨在將環(huán)境中的 「富反饋」 轉(zhuǎn)化為高效的學習信號



      RLVR 與 RLRF 強化學習范式對比

      核心機制:SDPO 引入了 富反饋(Rich Feedback) 環(huán)境。當模型生成錯誤答案時,環(huán)境會返回具體的報錯信息(如邏輯判讀)。模型將這些報錯信息重新注入上下文,作為一個 「自省教師」 來重新審視并校準之前的錯誤嘗試。

      技術(shù)突破:該方法通過自蒸餾機制,將原本模糊的標量獎勵轉(zhuǎn)化為Token 級的密集監(jiān)督信號。通過對比 「反饋后分布」 與 「初始分布」 的差異,SDPO 能精準定位導致失敗的關(guān)鍵 Token,指引模型降低錯誤路徑的概率,并提高修正后邏輯的置信度。



      在極難任務(wù)(左圖)中,SDPO(綠線)展現(xiàn)了極高的采樣效率,僅需約1/3 的嘗試次數(shù)(3× speedup)即可達到其他算法的解發(fā)現(xiàn)率。而在整體訓練維度上,它能以更少的樣本量快速收斂,在 k=1000 時已能解決70%的困難任務(wù),顯著突破了傳統(tǒng)算法的性能瓶頸。

      在 LiveCodeBench 等競賽級編程測試中,SDPO 展現(xiàn)了驚人的學習效率:它僅需傳統(tǒng) GRPO 算法1/4 的生成樣本量即可達到同等精度。它證明了即便沒有外部強教師,模型也能通過利用環(huán)境反饋進行深度自省,從而打破標量獎勵帶來的進化僵局。

      3.Self-Distilled Reasoner:

      On-Policy Self-Distillation for Large Language Models



      • 論文標題:Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models
      • 論文鏈接:https://arxiv.org/pdf/2601.18734

      在復(fù)雜推理任務(wù)中,大模型往往面臨搜索空間過大獎勵信號稀疏的問題。盡管強化學習能提升模型上限,但在沒有外部 「強教師」 輔助的在線學習場景中,模型很難在短時間內(nèi)找到通往正確答案的深層邏輯路徑。

      研究團隊提出了 OPSD(策略內(nèi)自蒸餾) 框架,通過在同一模型內(nèi)部構(gòu)建 「信息不對稱」 來引導自我進化。



      OPSD 框架概覽

      核心機制:該框架將模型配置為兩種狀態(tài)。教師策略在輸入中包含 「特權(quán)信息」(如標準答案或經(jīng)過驗證的推理軌跡),能夠產(chǎn)生高質(zhì)量的 Token 概率分布;而學生策略則在不接觸特權(quán)信息的情況下僅憑題目進行作答。

      技術(shù)突破:OPSD 采用 策略內(nèi)(On-Policy)采樣,核心訓練目標是最小化學生分布與教師分布之間的 KL 散度。這種設(shè)計強制模型在不借助外部參考的情況下,通過內(nèi)生分布的對齊,學會如何從題目直接推導出具有邏輯深度的推理鏈路。



      在 MATH 和 GSM8K 等高難度推理基準測試中,OPSD 展現(xiàn)了極高的學習效率:它在 Token 利用率上比傳統(tǒng)的 GRPO 算法高出4-8 倍。實驗證明,SFT 雖然能提供初始方向,但 OPSD 能夠更進一步地挖掘模型內(nèi)在的“推理潛力”,證明了通過特權(quán)信息誘導出的自我博弈,是實現(xiàn)推理能力飛躍的一條捷徑。

      這三篇論文核心邏輯高度一致:利用模型已有的內(nèi)生能力,通過不同的上下文構(gòu)造出 「信息差」,從而實現(xiàn)自驅(qū)動的閉環(huán)升級,Self-Distillation 正在成為大模型后訓練階段(Post-training)的標準配置。

      2026 年,也許我們不再需要教模型怎么變強,只需要給它一個「持續(xù)學習」的機會。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      年輕有為:全國第一個90后準副廳!

      年輕有為:全國第一個90后準副廳!

      微微熱評
      2026-02-10 11:31:16
      別再用現(xiàn)金行賄受賄了!大數(shù)據(jù)一查就現(xiàn)形,全程 “裸奔” 藏不住

      別再用現(xiàn)金行賄受賄了!大數(shù)據(jù)一查就現(xiàn)形,全程 “裸奔” 藏不住

      復(fù)轉(zhuǎn)這些年
      2026-02-09 23:45:54
      特朗普大罵冬奧運動員“Loser”!谷愛凌發(fā)聲

      特朗普大罵冬奧運動員“Loser”!谷愛凌發(fā)聲

      大風新聞
      2026-02-10 15:51:07
      大數(shù)據(jù)“殺熟”再引爭議,“看人下菜碟”式價格歧視該休矣!

      大數(shù)據(jù)“殺熟”再引爭議,“看人下菜碟”式價格歧視該休矣!

      時代周報
      2026-01-16 20:42:04
      65歲港星黃子華稱到死都不會用老年公交卡,稱害怕遇到吳鎮(zhèn)宇事件

      65歲港星黃子華稱到死都不會用老年公交卡,稱害怕遇到吳鎮(zhèn)宇事件

      半島晨報
      2026-02-10 12:43:23
      經(jīng)上海市政府同意,節(jié)日生活補助發(fā)放!這類對象每人一次性給予1200元

      經(jīng)上海市政府同意,節(jié)日生活補助發(fā)放!這類對象每人一次性給予1200元

      縱相新聞
      2026-02-10 09:45:06
      馬云撤了,阿里成功套現(xiàn)300億

      馬云撤了,阿里成功套現(xiàn)300億

      新行情
      2026-02-10 14:22:21
      谷愛凌:外媒都叫我中國運動員,我在代表中國,代表中國滑雪運動

      谷愛凌:外媒都叫我中國運動員,我在代表中國,代表中國滑雪運動

      臺州交通廣播
      2026-02-09 17:35:54
      炸穿美國政壇!愛潑斯坦文件解密,紐約新市長生父竟是他?

      炸穿美國政壇!愛潑斯坦文件解密,紐約新市長生父竟是他?

      老馬拉車莫少裝
      2026-02-01 21:57:22
      微博之夜過后,終于意識到內(nèi)娛真的完了

      微博之夜過后,終于意識到內(nèi)娛真的完了

      娛樂圈筆娛君
      2026-02-09 14:29:12
      最新!馬斯克:是時候大規(guī)模重返月球了

      最新!馬斯克:是時候大規(guī)模重返月球了

      每日經(jīng)濟新聞
      2026-02-08 20:41:04
      南博徐院長的處理結(jié)果來了!從通報來看事情并不小,尤其最后一條

      南博徐院長的處理結(jié)果來了!從通報來看事情并不小,尤其最后一條

      火山詩話
      2026-02-10 05:47:29
      勇士決勝11-0準絕殺17分逆轉(zhuǎn)灰熊 桑托斯16+8引7人上雙制勝

      勇士決勝11-0準絕殺17分逆轉(zhuǎn)灰熊 桑托斯16+8引7人上雙制勝

      醉臥浮生
      2026-02-10 13:31:11
      兒媳被疑出軌要打胎,公公轉(zhuǎn)650萬購房款安撫,又將小夫妻告上法庭

      兒媳被疑出軌要打胎,公公轉(zhuǎn)650萬購房款安撫,又將小夫妻告上法庭

      上觀新聞
      2026-02-10 15:19:03
      上海交大解剖260名腦梗死者,驚訝發(fā)現(xiàn):患腦梗的人,有5大共性

      上海交大解剖260名腦梗死者,驚訝發(fā)現(xiàn):患腦梗的人,有5大共性

      劉哥談體育
      2026-02-08 10:27:55
      黎智英案結(jié)果難回天:58歲妻子到場神情嚴肅,往后余生誰來等?

      黎智英案結(jié)果難回天:58歲妻子到場神情嚴肅,往后余生誰來等?

      眼界看視野
      2026-02-10 13:07:11
      多個省會城市迎來新市長

      多個省會城市迎來新市長

      上觀新聞
      2026-02-10 13:13:33
      哈登這么快創(chuàng)隊史?讓中鋒場均暴漲11分,三分絕平+米切爾絕殺

      哈登這么快創(chuàng)隊史?讓中鋒場均暴漲11分,三分絕平+米切爾絕殺

      只扣籃的教練
      2026-02-10 13:51:41
      室內(nèi)種樹致多只小鳥撞玻璃死亡,西安萬象城回應(yīng):將挪樹并貼防撞貼

      室內(nèi)種樹致多只小鳥撞玻璃死亡,西安萬象城回應(yīng):將挪樹并貼防撞貼

      現(xiàn)代快報
      2026-02-09 16:31:04
      “眼神給出去”之后:黑白顛與周媛的“性商”生意

      “眼神給出去”之后:黑白顛與周媛的“性商”生意

      界面新聞
      2026-02-10 08:01:08
      2026-02-10 17:04:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12279文章數(shù) 142565關(guān)注度
      往期回顧 全部

      科技要聞

      Seedance刷屏:網(wǎng)友們玩瘋 影視圈瑟瑟發(fā)抖

      頭條要聞

      特朗普大罵冬奧運動員"Loser" 中國運動員谷愛凌發(fā)聲

      頭條要聞

      特朗普大罵冬奧運動員"Loser" 中國運動員谷愛凌發(fā)聲

      體育要聞

      NBA上演全武行,超大沖突4人驅(qū)逐!

      娛樂要聞

      全紅嬋官宣喜訊,雜志首秀太驚艷

      財經(jīng)要聞

      雀巢中國近千經(jīng)銷商的“追債記”

      汽車要聞

      應(yīng)用于190KW四驅(qū)Ultra版 方程豹鈦7搭載天神之眼5.0

      態(tài)度原創(chuàng)

      時尚
      家居
      房產(chǎn)
      數(shù)碼
      軍事航空

      冬季穿衣越簡單越實用!從這些日常穿搭中收獲靈感,大方又自然

      家居要聞

      寧靜港灣 靈動與詩意

      房產(chǎn)要聞

      海南又一千億級賽道出現(xiàn),京東、華潤、中石化等巨頭率先殺入!

      數(shù)碼要聞

      當貝X7 Pro:輕奢影院級激光投影,解鎖宅家影音游戲雙巔峰

      軍事要聞

      以軍持續(xù)在約旦河西岸多地發(fā)動突襲

      無障礙瀏覽 進入關(guān)懷版