<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      復旦提出簡單指標,找出推理蒸餾中真正有教學價值的數(shù)據(jù)

      0
      分享至



      什么樣的思維鏈,能「教會」學生更好地推理?


      許多人都有這樣的學習體驗:內(nèi)容過于熟悉,難以帶來新的收獲;內(nèi)容過于陌生,又往往超出理解能力,難以消化吸收。

      類似的現(xiàn)象同樣出現(xiàn)在大語言模型的推理蒸餾中。來自能力更強的教師模型的思維鏈,可能過于晦澀,學生模型難以掌握其推理模式;而與學生認知相近的教師模型,其推理軌跡又常常缺乏新信息,難以帶來實質(zhì)提升。

      因此,要獲得理想的蒸餾效果,關(guān)鍵在于為不同學生模型選擇恰好合適的數(shù)據(jù),在「熟悉」與「陌生」之間找到最佳平衡。然而,現(xiàn)有基于概率的篩選或度量方法(如 Perplexity)難以刻畫這種細粒度的適配關(guān)系。

      那么,是否存在一種直觀且易于計算的數(shù)據(jù)適配度指標,能夠量化這種平衡?

      來自復旦大學和上海人工智能實驗室的研究者提出了一種簡單而有效的度量方法,Rank-Surprisal Ratio (RSR):



      RSR 從學生模型的視角出發(fā),綜合考慮樣本的信息量與對齊程度,旨在找出那些既足夠「新」,又未超出學生認知邊界的推理數(shù)據(jù)。

      在大規(guī)模蒸餾實驗中,RSR 與學生模型后訓練性能的相關(guān)性高達 0.86,并且可以直接用于篩選推理軌跡以及選擇教師模型,無需實際訓練即可找到更合適的思維鏈數(shù)據(jù)。



      • 論文鏈接:https://arxiv.org/pdf/2601.14249
      • 代碼鏈接:https://github.com/UmeanNever/RankSurprisalRatio

      反直覺的現(xiàn)象


      長思維鏈(CoT)的生成被普遍認為是大模型推理能力的核心。相應地,包含長思維鏈的推理軌跡常被視為高質(zhì)量的監(jiān)督信號,可以用于有監(jiān)督微調(diào)(SFT)訓練學生模型,或助力強化學習的冷啟動。

      但越來越多的實驗呈現(xiàn)出一個反直覺現(xiàn)象:教師模型越強,學生模型未必學得越好。

      在這篇工作中,作者系統(tǒng)性地構(gòu)建了 11 個 teacher(教師模型)× 5 個 student(學生模型)的蒸餾實驗,覆蓋從 4B 到 671B 的主流推理模型。結(jié)果顯示:

      • teacher 的參數(shù)規(guī)模、推理準確率與 student 的推理提升相關(guān)性很弱;
      • 同一個 teacher 的數(shù)據(jù)在不同 student 上的訓練效果差異顯著;
      • 跨模型家族的 teacher(如 GPT-OSS → Qwen)往往效果更差;
      • 推理數(shù)據(jù)是否「適合」當前 student 是關(guān)鍵。



      表一:蒸餾實驗結(jié)果,在多個數(shù)學 benchmark 上評測 student 模型使用 teacher 數(shù)據(jù)訓練后的性能。

      現(xiàn)有數(shù)據(jù)篩選方法的問題

      當前主流的數(shù)據(jù)篩選或評估方法,大多依賴一個信號:student 模型生成該數(shù)據(jù)的概率(perplexity /log-likelihood/surprisal),認為 student 覺得「自然」的數(shù)據(jù)就更容易學。



      但問題在于:

      • 太「自然」的推理數(shù)據(jù),往往信息增量有限;
      • 真正有價值的推理數(shù)據(jù),恰恰是 student 尚未充分掌握的部分。

      這就引出了論文試圖解決的核心矛盾 ——Informative Alignment Challenge:如何在提供新知識的 informativeness 與符合學生當前認知的 alignment 之間取得平衡?

      關(guān)鍵洞察

      「絕對陌生 (Absolute unfamiliarity) + 相對熟悉 (Relative familiarity)」的推理數(shù)據(jù)最有學習價值

      面對看似難以兼顧的「熟悉 - 陌生」的平衡,作者從 token 級別重新審視 student 的預測分布,提出一個直觀、但之前被忽略的視角:

      • Informativeness 關(guān)注的是當前 token 在概率層面的絕對陌生度,可由 Surprisal(?log p / 負對數(shù)似然)刻畫;
      • Alignment 關(guān)注的是當前 token對比其它候選 token 的相對熟悉度,可由 Rank(在詞表預測中的名次)衡量。

      在這一視角下,一個 token 可以同時滿足:

      • 被 student 生成的概率不高(informative)
      • 但在候選詞表中排名靠前(aligned)

      因此,informativeness 與 alignment 并非天然沖突。恰恰是同時滿足這兩點的 token,構(gòu)成了最適合 student 學習的推理數(shù)據(jù)。



      圖一:Rank-Surprisal Ratio 的設(shè)計動機 —— 合適的推理數(shù)據(jù)應當兼顧 informativeness 與 alignment

      直觀的指標:Rank-Surprisal Ratio


      基于前文在 token 級別的觀察,以及相關(guān)仿真分析與數(shù)學推導,論文提出了一個形式上極其簡潔的樣本級指標:



      直覺解釋:

      • 分子(Rank)越小,表示當前樣本越符合 student 的行為模式,對齊程度(alignment)越高;
      • 分母(Surprisal)越大,表示當前樣本提供的信息量越充分,信息性(informativeness)越強;
      • RSR 越小 → 信息量與對齊程度的平衡越好。

      在實現(xiàn)上:

      • 僅需對 student 進行一次前向計算;
      • 不依賴 verifier 或額外測試數(shù)據(jù);
      • 融合了 rank clipping 與 surprisal 加權(quán)平均機制,在極端情況下具有更好的數(shù)值穩(wěn)定性。

      實驗:與訓練效果的相關(guān)性

      作者將 RSR 與多種已有指標進行了對比,包括 teacher 模型及訓練數(shù)據(jù)的若干統(tǒng)計量、常用的數(shù)據(jù)質(zhì)量評估方法、基于概率的指標,以及其他基于 student 模型計算的指標。

      實驗結(jié)果在 5 個 student 模型上高度一致:RSR 與 student 模型后訓練性能的 Spearman 相關(guān)系數(shù)平均達到 0.86,顯著高于其它指標。



      表二:不同指標與模型后訓練推理性能之間的相關(guān)性

      在實際場景中的應用

      場景 1:Trajectory Selection (選擇最合適的推理軌跡數(shù)據(jù))

      • 在該場景中,針對訓練集中的每一道題目,作者從多個 teacher 模型生成的 33 條候選思維鏈中,依據(jù)不同指標選擇一條最合適的推理軌跡,從而構(gòu)建用于訓練 student 的推理數(shù)據(jù)集。
      • 實驗結(jié)果表明,基于 Rank-Surprisal Ratio 篩選得到的數(shù)據(jù),在不同 student 模型上訓練后均取得了最優(yōu)的推理性能,優(yōu)于其它方法。



      表三:不同數(shù)據(jù)篩選方法的后訓練性能

      場景 2:Teacher Selection(選擇最合適的教師模型)

      • 在該場景中,作者僅使用每個 teacher 模型生成的 200 條推理軌跡來估計其與不同 student 的適配程度,從而模擬實際蒸餾前的 teacher 選擇過程。
      • 實驗結(jié)果顯示,RSR 能穩(wěn)定選出接近 oracle(真實最優(yōu))的 teacher 模型,整體表現(xiàn)優(yōu)于其它方法。



      表三:不同 teacher 模型選擇方法的表現(xiàn)

      結(jié)語

      這項工作重新審視了推理蒸餾中一個看似簡單卻難以回答的的問題:什么樣的推理軌跡能「教會」student 更好地推理。通過將 token 的 相對熟悉度(rank) 與 絕對信息量(surprisal) 結(jié)合,Rank-Surprisal Ratio 給出了一個直觀、易于計算、且在大規(guī)模實驗中被驗證有效的答案。

      更重要的是,RSR 并不依賴額外的評估數(shù)據(jù)或驗證器,而是直接從 student 的視角出發(fā)刻畫數(shù)據(jù)價值。這使它不僅是一個分析工具,也具備作為實際數(shù)據(jù)工程指標的潛力。

      向前看,這種「informative alignment」的視角或許可以進一步擴展到:

      • 更通用的 reasoning 任務(如 code、tool use);
      • 推理軌跡的重寫與合成,而不僅是選擇;
      • 以及與 On-policy Distillation、RL 結(jié)合的動態(tài)數(shù)據(jù)調(diào)度。

      當推理模型的瓶頸逐漸從「規(guī)模」轉(zhuǎn)向「數(shù)據(jù)的高效利用」,理解哪些思維過程真正具有教學價值,可能將成為下一階段 post-training 的關(guān)鍵問題。

      作者介紹

      楊宇銘,復旦大學自然語言處理實驗室博士生,導師為張奇教授。本科畢業(yè)于復旦大學數(shù)學系,碩士畢業(yè)于密歇根大學統(tǒng)計學系。博士階段前曾在微軟擔任數(shù)據(jù)科學家。研究方向為自然語言處理與大語言模型,作為第一作者或共同第一作者在 ACL、EMNLP、NeurIPS 等頂級會議發(fā)表多篇論文。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      中國常駐聯(lián)合國副代表:日本是“國際秩序破壞者”

      中國常駐聯(lián)合國副代表:日本是“國際秩序破壞者”

      瀟湘晨報
      2026-01-27 16:13:22
      罪有應得!官方徹查后,閆學晶再迎噩耗,她最擔心的事還是發(fā)生了

      罪有應得!官方徹查后,閆學晶再迎噩耗,她最擔心的事還是發(fā)生了

      來科點譜
      2026-01-23 11:08:02
      相聲新勢力徹底沒了!打了2年的官司有了結(jié)果,盧鑫完敗玉浩全勝

      相聲新勢力徹底沒了!打了2年的官司有了結(jié)果,盧鑫完敗玉浩全勝

      觀察鑒娛
      2026-01-28 10:35:08
      國運來了擋不住?這三個人,正用各自的方式“助攻”中國崛起

      國運來了擋不住?這三個人,正用各自的方式“助攻”中國崛起

      遠方風林
      2025-12-18 23:53:12
      鰲太線不相信送死,驢友們得相信烤腸

      鰲太線不相信送死,驢友們得相信烤腸

      酷玩實驗室
      2026-01-27 11:09:48
      2015年復旦林森浩被執(zhí)行死刑,行刑前卻安慰父親:爸爸,沒事的

      2015年復旦林森浩被執(zhí)行死刑,行刑前卻安慰父親:爸爸,沒事的

      談史論天地
      2026-01-13 11:04:56
      伊朗這次真要完了?美軍5萬大軍壓境,撤僑令下達,戰(zhàn)爭倒計時

      伊朗這次真要完了?美軍5萬大軍壓境,撤僑令下達,戰(zhàn)爭倒計時

      章荳解說體育
      2026-01-15 09:11:58
      陳光標怒撕遮羞布:梁小龍哪里是病死,分明是被折騰死的!

      陳光標怒撕遮羞布:梁小龍哪里是病死,分明是被折騰死的!

      奇思妙想草葉君
      2026-01-25 23:58:08
      1951年,餓了3天的志愿軍戰(zhàn)士爬上美軍陣地,卻發(fā)現(xiàn)上面空無一人

      1951年,餓了3天的志愿軍戰(zhàn)士爬上美軍陣地,卻發(fā)現(xiàn)上面空無一人

      南書房
      2026-01-28 06:35:03
      普京想好了,臺海一旦出了大事,俄羅斯將徹底撕毀協(xié)議幫中國一把

      普京想好了,臺海一旦出了大事,俄羅斯將徹底撕毀協(xié)議幫中國一把

      通文知史
      2026-01-28 15:50:03
      尼帕病毒來襲,醫(yī)生提醒:寧可每天看電視,也不要出門做這4事

      尼帕病毒來襲,醫(yī)生提醒:寧可每天看電視,也不要出門做這4事

      現(xiàn)代小青青慕慕
      2026-01-28 14:35:08
      什么文化水平能看《太平年》?

      什么文化水平能看《太平年》?

      娛樂硬糖
      2026-01-27 16:36:17
      四川一市長被查,前一天還在主持會議

      四川一市長被查,前一天還在主持會議

      中國青年報
      2026-01-28 13:33:11
      網(wǎng)友吃自助烤肉結(jié)果每盒只有一點肉,于是開始玩起疊塔游戲

      網(wǎng)友吃自助烤肉結(jié)果每盒只有一點肉,于是開始玩起疊塔游戲

      映射生活的身影
      2026-01-28 15:42:38
      德約科維奇:為對手感到遺憾,今天我本該是被淘汰的一方

      德約科維奇:為對手感到遺憾,今天我本該是被淘汰的一方

      懂球帝
      2026-01-28 15:39:38
      大S雕像正式進入墓園:用9階大理石制作,S形蜿蜒臺階令人淚目

      大S雕像正式進入墓園:用9階大理石制作,S形蜿蜒臺階令人淚目

      素素娛樂
      2026-01-28 11:22:48
      百萬問界背后:賽力斯半年市值蒸發(fā)800億

      百萬問界背后:賽力斯半年市值蒸發(fā)800億

      每人Auto
      2026-01-27 14:20:02
      真相大白!以色列為何突然老實了呢?真實原因開始浮出水面

      真相大白!以色列為何突然老實了呢?真實原因開始浮出水面

      墨印齋
      2026-01-20 16:46:58
      具俊曄沉冤得雪!放棄大S遺產(chǎn),小玥兒北京學校定了,頭像曝光

      具俊曄沉冤得雪!放棄大S遺產(chǎn),小玥兒北京學校定了,頭像曝光

      古希臘掌管月桂的神
      2026-01-27 16:55:07
      同事剛?cè)肼毱咛炀拖蛭医?萬,我搖頭拒絕,第二天領(lǐng)導:你真冷血

      同事剛?cè)肼毱咛炀拖蛭医?萬,我搖頭拒絕,第二天領(lǐng)導:你真冷血

      船長與船1
      2026-01-28 10:47:51
      2026-01-28 16:24:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12209文章數(shù) 142551關(guān)注度
      往期回顧 全部

      教育要聞

      政協(xié)委員建議:向優(yōu)質(zhì)民辦學校購買學位,開設(shè)民辦高中“公辦班”

      頭條要聞

      運動員退役后到山區(qū)支教:賣掉36塊獎牌 與女友分手

      頭條要聞

      運動員退役后到山區(qū)支教:賣掉36塊獎牌 與女友分手

      體育要聞

      冒充職業(yè)球員,比賽規(guī)則還和對手現(xiàn)學?

      娛樂要聞

      王祖賢入駐某音:一條7秒視頻吸粉55萬

      財經(jīng)要聞

      40倍杠桿斷裂!水貝一黃金平臺兌付困難

      科技要聞

      它是神也是毒!Clawdbot改名卷入千萬詐騙

      汽車要聞

      中國豪華車老大之爭:奧迪憑啥干掉奔馳寶馬?

      態(tài)度原創(chuàng)

      教育
      游戲
      家居
      親子
      公開課

      教育要聞

      初中基礎(chǔ)訓練,中考必刷題

      《生化9》流程時長曝光!官方:與系列前作相近

      家居要聞

      躍式別墅 包絡(luò)石木為生

      親子要聞

      液體鈣哪個牌子好?十款權(quán)威認證兒童液體鈣品牌,歸一食口碑推薦

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版