<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      復(fù)旦提出簡單指標(biāo),找出推理蒸餾中真正有教學(xué)價值的數(shù)據(jù)

      0
      分享至



      什么樣的思維鏈,能「教會」學(xué)生更好地推理?


      許多人都有這樣的學(xué)習(xí)體驗:內(nèi)容過于熟悉,難以帶來新的收獲;內(nèi)容過于陌生,又往往超出理解能力,難以消化吸收。

      類似的現(xiàn)象同樣出現(xiàn)在大語言模型的推理蒸餾中。來自能力更強的教師模型的思維鏈,可能過于晦澀,學(xué)生模型難以掌握其推理模式;而與學(xué)生認(rèn)知相近的教師模型,其推理軌跡又常常缺乏新信息,難以帶來實質(zhì)提升。

      因此,要獲得理想的蒸餾效果,關(guān)鍵在于為不同學(xué)生模型選擇恰好合適的數(shù)據(jù),在「熟悉」與「陌生」之間找到最佳平衡。然而,現(xiàn)有基于概率的篩選或度量方法(如 Perplexity)難以刻畫這種細(xì)粒度的適配關(guān)系。

      那么,是否存在一種直觀且易于計算的數(shù)據(jù)適配度指標(biāo),能夠量化這種平衡?

      來自復(fù)旦大學(xué)和上海人工智能實驗室的研究者提出了一種簡單而有效的度量方法,Rank-Surprisal Ratio (RSR):



      RSR 從學(xué)生模型的視角出發(fā),綜合考慮樣本的信息量與對齊程度,旨在找出那些既足夠「新」,又未超出學(xué)生認(rèn)知邊界的推理數(shù)據(jù)。

      在大規(guī)模蒸餾實驗中,RSR 與學(xué)生模型后訓(xùn)練性能的相關(guān)性高達(dá) 0.86,并且可以直接用于篩選推理軌跡以及選擇教師模型,無需實際訓(xùn)練即可找到更合適的思維鏈數(shù)據(jù)。



      • 論文鏈接:https://arxiv.org/pdf/2601.14249
      • 代碼鏈接:https://github.com/UmeanNever/RankSurprisalRatio

      反直覺的現(xiàn)象


      長思維鏈(CoT)的生成被普遍認(rèn)為是大模型推理能力的核心。相應(yīng)地,包含長思維鏈的推理軌跡常被視為高質(zhì)量的監(jiān)督信號,可以用于有監(jiān)督微調(diào)(SFT)訓(xùn)練學(xué)生模型,或助力強化學(xué)習(xí)的冷啟動。

      但越來越多的實驗呈現(xiàn)出一個反直覺現(xiàn)象:教師模型越強,學(xué)生模型未必學(xué)得越好。

      在這篇工作中,作者系統(tǒng)性地構(gòu)建了 11 個 teacher(教師模型)× 5 個 student(學(xué)生模型)的蒸餾實驗,覆蓋從 4B 到 671B 的主流推理模型。結(jié)果顯示:

      • teacher 的參數(shù)規(guī)模、推理準(zhǔn)確率與 student 的推理提升相關(guān)性很弱;
      • 同一個 teacher 的數(shù)據(jù)在不同 student 上的訓(xùn)練效果差異顯著;
      • 跨模型家族的 teacher(如 GPT-OSS → Qwen)往往效果更差;
      • 推理數(shù)據(jù)是否「適合」當(dāng)前 student 是關(guān)鍵。



      表一:蒸餾實驗結(jié)果,在多個數(shù)學(xué) benchmark 上評測 student 模型使用 teacher 數(shù)據(jù)訓(xùn)練后的性能。

      現(xiàn)有數(shù)據(jù)篩選方法的問題

      當(dāng)前主流的數(shù)據(jù)篩選或評估方法,大多依賴一個信號:student 模型生成該數(shù)據(jù)的概率(perplexity /log-likelihood/surprisal),認(rèn)為 student 覺得「自然」的數(shù)據(jù)就更容易學(xué)。



      但問題在于:

      • 太「自然」的推理數(shù)據(jù),往往信息增量有限;
      • 真正有價值的推理數(shù)據(jù),恰恰是 student 尚未充分掌握的部分。

      這就引出了論文試圖解決的核心矛盾 ——Informative Alignment Challenge:如何在提供新知識的 informativeness 與符合學(xué)生當(dāng)前認(rèn)知的 alignment 之間取得平衡?

      關(guān)鍵洞察

      「絕對陌生 (Absolute unfamiliarity) + 相對熟悉 (Relative familiarity)」的推理數(shù)據(jù)最有學(xué)習(xí)價值

      面對看似難以兼顧的「熟悉 - 陌生」的平衡,作者從 token 級別重新審視 student 的預(yù)測分布,提出一個直觀、但之前被忽略的視角:

      • Informativeness 關(guān)注的是當(dāng)前 token 在概率層面的絕對陌生度,可由 Surprisal(?log p / 負(fù)對數(shù)似然)刻畫;
      • Alignment 關(guān)注的是當(dāng)前 token對比其它候選 token 的相對熟悉度,可由 Rank(在詞表預(yù)測中的名次)衡量。

      在這一視角下,一個 token 可以同時滿足:

      • 被 student 生成的概率不高(informative)
      • 但在候選詞表中排名靠前(aligned)

      因此,informativeness 與 alignment 并非天然沖突。恰恰是同時滿足這兩點的 token,構(gòu)成了最適合 student 學(xué)習(xí)的推理數(shù)據(jù)。



      圖一:Rank-Surprisal Ratio 的設(shè)計動機 —— 合適的推理數(shù)據(jù)應(yīng)當(dāng)兼顧 informativeness 與 alignment

      直觀的指標(biāo):Rank-Surprisal Ratio


      基于前文在 token 級別的觀察,以及相關(guān)仿真分析與數(shù)學(xué)推導(dǎo),論文提出了一個形式上極其簡潔的樣本級指標(biāo):



      直覺解釋:

      • 分子(Rank)越小,表示當(dāng)前樣本越符合 student 的行為模式,對齊程度(alignment)越高;
      • 分母(Surprisal)越大,表示當(dāng)前樣本提供的信息量越充分,信息性(informativeness)越強;
      • RSR 越小 → 信息量與對齊程度的平衡越好。

      在實現(xiàn)上:

      • 僅需對 student 進行一次前向計算;
      • 不依賴 verifier 或額外測試數(shù)據(jù);
      • 融合了 rank clipping 與 surprisal 加權(quán)平均機制,在極端情況下具有更好的數(shù)值穩(wěn)定性。

      實驗:與訓(xùn)練效果的相關(guān)性

      作者將 RSR 與多種已有指標(biāo)進行了對比,包括 teacher 模型及訓(xùn)練數(shù)據(jù)的若干統(tǒng)計量、常用的數(shù)據(jù)質(zhì)量評估方法、基于概率的指標(biāo),以及其他基于 student 模型計算的指標(biāo)。

      實驗結(jié)果在 5 個 student 模型上高度一致:RSR 與 student 模型后訓(xùn)練性能的 Spearman 相關(guān)系數(shù)平均達(dá)到 0.86,顯著高于其它指標(biāo)。



      表二:不同指標(biāo)與模型后訓(xùn)練推理性能之間的相關(guān)性

      在實際場景中的應(yīng)用

      場景 1:Trajectory Selection (選擇最合適的推理軌跡數(shù)據(jù))

      • 在該場景中,針對訓(xùn)練集中的每一道題目,作者從多個 teacher 模型生成的 33 條候選思維鏈中,依據(jù)不同指標(biāo)選擇一條最合適的推理軌跡,從而構(gòu)建用于訓(xùn)練 student 的推理數(shù)據(jù)集。
      • 實驗結(jié)果表明,基于 Rank-Surprisal Ratio 篩選得到的數(shù)據(jù),在不同 student 模型上訓(xùn)練后均取得了最優(yōu)的推理性能,優(yōu)于其它方法。



      表三:不同數(shù)據(jù)篩選方法的后訓(xùn)練性能

      場景 2:Teacher Selection(選擇最合適的教師模型)

      • 在該場景中,作者僅使用每個 teacher 模型生成的 200 條推理軌跡來估計其與不同 student 的適配程度,從而模擬實際蒸餾前的 teacher 選擇過程。
      • 實驗結(jié)果顯示,RSR 能穩(wěn)定選出接近 oracle(真實最優(yōu))的 teacher 模型,整體表現(xiàn)優(yōu)于其它方法。



      表三:不同 teacher 模型選擇方法的表現(xiàn)

      結(jié)語

      這項工作重新審視了推理蒸餾中一個看似簡單卻難以回答的的問題:什么樣的推理軌跡能「教會」student 更好地推理。通過將 token 的 相對熟悉度(rank) 與 絕對信息量(surprisal) 結(jié)合,Rank-Surprisal Ratio 給出了一個直觀、易于計算、且在大規(guī)模實驗中被驗證有效的答案。

      更重要的是,RSR 并不依賴額外的評估數(shù)據(jù)或驗證器,而是直接從 student 的視角出發(fā)刻畫數(shù)據(jù)價值。這使它不僅是一個分析工具,也具備作為實際數(shù)據(jù)工程指標(biāo)的潛力。

      向前看,這種「informative alignment」的視角或許可以進一步擴展到:

      • 更通用的 reasoning 任務(wù)(如 code、tool use);
      • 推理軌跡的重寫與合成,而不僅是選擇;
      • 以及與 On-policy Distillation、RL 結(jié)合的動態(tài)數(shù)據(jù)調(diào)度。

      當(dāng)推理模型的瓶頸逐漸從「規(guī)模」轉(zhuǎn)向「數(shù)據(jù)的高效利用」,理解哪些思維過程真正具有教學(xué)價值,可能將成為下一階段 post-training 的關(guān)鍵問題。

      作者介紹

      楊宇銘,復(fù)旦大學(xué)自然語言處理實驗室博士生,導(dǎo)師為張奇教授。本科畢業(yè)于復(fù)旦大學(xué)數(shù)學(xué)系,碩士畢業(yè)于密歇根大學(xué)統(tǒng)計學(xué)系。博士階段前曾在微軟擔(dān)任數(shù)據(jù)科學(xué)家。研究方向為自然語言處理與大語言模型,作為第一作者或共同第一作者在 ACL、EMNLP、NeurIPS 等頂級會議發(fā)表多篇論文。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      “茶幾”正在退出中國家庭,學(xué)廣東人這樣做,實用性讓人大開眼界

      “茶幾”正在退出中國家庭,學(xué)廣東人這樣做,實用性讓人大開眼界

      室內(nèi)設(shè)計師有料兒
      2026-02-19 11:17:18
      清華女博士不相信醫(yī)生,執(zhí)意生下3胞胎,不料3個孩子都有問題

      清華女博士不相信醫(yī)生,執(zhí)意生下3胞胎,不料3個孩子都有問題

      明月清風(fēng)閣
      2026-03-20 12:20:09
      在剛剛,12家公司出現(xiàn)重大利好消息,看看有沒有與你相關(guān)的個股?

      在剛剛,12家公司出現(xiàn)重大利好消息,看看有沒有與你相關(guān)的個股?

      股市皆大事
      2026-03-21 08:03:14
      帥化民:我特別討厭解放軍的一個叫“遠(yuǎn)火”的武器

      帥化民:我特別討厭解放軍的一個叫“遠(yuǎn)火”的武器

      安安說
      2026-03-17 11:58:44
      她是兩百年難遇的美人,靠美貌“征服”無數(shù)男人,如今49歲仍未婚

      她是兩百年難遇的美人,靠美貌“征服”無數(shù)男人,如今49歲仍未婚

      地理三體說
      2026-03-02 23:17:53
      蹭飯哥后續(xù)來了!怪媒體沒打碼害他社死,準(zhǔn)備舉報比亞迪稅務(wù)問題

      蹭飯哥后續(xù)來了!怪媒體沒打碼害他社死,準(zhǔn)備舉報比亞迪稅務(wù)問題

      音樂時光的娛樂
      2026-03-21 12:13:29
      突發(fā)!朱雨玲退賽,剛贏王曼昱的日本黑馬替補參賽!大藤沙月首度回應(yīng)取勝原因

      突發(fā)!朱雨玲退賽,剛贏王曼昱的日本黑馬替補參賽!大藤沙月首度回應(yīng)取勝原因

      最愛乒乓球
      2026-03-21 00:06:48
      賈國龍新品牌現(xiàn)場搟面燜面 工序透明可圍觀 店員稱菜品均為現(xiàn)做

      賈國龍新品牌現(xiàn)場搟面燜面 工序透明可圍觀 店員稱菜品均為現(xiàn)做

      快科技
      2026-03-20 19:13:50
      英國預(yù)言家帕克預(yù)言,2026年4月是關(guān)鍵時期?怎么回事

      英國預(yù)言家帕克預(yù)言,2026年4月是關(guān)鍵時期?怎么回事

      火宗君講奇聞
      2026-03-21 13:50:07
      中央公布重要文件,養(yǎng)老金調(diào)整方向明確,工齡30年以下傾斜多嗎?

      中央公布重要文件,養(yǎng)老金調(diào)整方向明確,工齡30年以下傾斜多嗎?

      有范又有料
      2026-03-21 09:48:41
      剛剛,全線跳水!霍爾木茲,大消息!

      剛剛,全線跳水!霍爾木茲,大消息!

      中國基金報
      2026-03-20 19:38:00
      田曦薇算不算中了基因彩票?父母顏值普通,卻生出這么出挑的長相

      田曦薇算不算中了基因彩票?父母顏值普通,卻生出這么出挑的長相

      可樂談情感
      2026-03-21 01:29:39
      美媒評詹姆斯10大最難破紀(jì)錄:43210分僅第七,連續(xù)得分上雙第二

      美媒評詹姆斯10大最難破紀(jì)錄:43210分僅第七,連續(xù)得分上雙第二

      你的籃球頻道
      2026-03-21 08:57:53
      楊瀚森轟17+11!打服隊友難阻失利,隊記:打出來下賽季也是替補

      楊瀚森轟17+11!打服隊友難阻失利,隊記:打出來下賽季也是替補

      你的籃球頻道
      2026-03-21 11:42:26
      黃金慘跌近20%,現(xiàn)在要不要抄底?背后的邏輯并不復(fù)雜

      黃金慘跌近20%,現(xiàn)在要不要抄底?背后的邏輯并不復(fù)雜

      毯叔盤錢
      2026-03-20 19:09:24
      100句經(jīng)典“春”字飛花令,領(lǐng)略春之美,句句精華,值得收藏

      100句經(jīng)典“春”字飛花令,領(lǐng)略春之美,句句精華,值得收藏

      詩詞天地
      2026-03-20 14:09:29
      每體:阿根廷對歐美杯態(tài)度消極主要是因為之前1-6不敵西班牙

      每體:阿根廷對歐美杯態(tài)度消極主要是因為之前1-6不敵西班牙

      懂球帝
      2026-03-21 08:50:06
      妻子秘書開除我,我簽字離開,秘書得意,不料我成新總裁現(xiàn)身年會

      妻子秘書開除我,我簽字離開,秘書得意,不料我成新總裁現(xiàn)身年會

      奶茶麥子
      2026-03-19 23:21:06
      內(nèi)塔苦等40年等來“最愚蠢總統(tǒng)”,多國清空投降派,誓言堅決抗美

      內(nèi)塔苦等40年等來“最愚蠢總統(tǒng)”,多國清空投降派,誓言堅決抗美

      牛鍋巴小釩
      2026-03-21 13:41:50
      小米SU7告別等單,讓其他車咋賣?

      小米SU7告別等單,讓其他車咋賣?

      鈦媒體APP
      2026-03-21 10:37:34
      2026-03-21 14:56:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12555文章數(shù) 142588關(guān)注度
      往期回顧 全部

      教育要聞

      找到突破口,巧求周長!

      頭條要聞

      女子花20萬元租下老宅20年 一家三口從城市搬進鄉(xiāng)村住

      頭條要聞

      女子花20萬元租下老宅20年 一家三口從城市搬進鄉(xiāng)村住

      體育要聞

      誰在決定字母哥未來?

      娛樂要聞

      CMG盛典獲獎名單:章子怡高葉同獲影后

      財經(jīng)要聞

      通脹警報拉響,加息潮要來了?

      科技要聞

      宇樹招股書拆解,人形機器人出貨量第一!

      汽車要聞

      小鵬汽車2025年Q4盈利凈賺3.8億 全年營收767億

      態(tài)度原創(chuàng)

      藝術(shù)
      教育
      時尚
      數(shù)碼
      軍事航空

      藝術(shù)要聞

      第四屆深圳大芬國際油畫雙年展 | 國際入選油畫選刊(二)

      教育要聞

      成了孤兒!隨州一中勵志標(biāo)語很任性,為了高考六親不認(rèn)至于嗎

      今年春天一定要擁有“這件衣服”,減齡又好看!

      數(shù)碼要聞

      解碼智慧臥室范式新品發(fā)布:慕思成為全屋智能“睡眠中樞”

      軍事要聞

      特朗普:正考慮逐步降級對伊朗的軍事行動

      無障礙瀏覽 進入關(guān)懷版