<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      DPO「只看總分不看細(xì)節(jié)」?TI-DPO用Token重要性重塑大模型對齊

      0
      分享至



      在當(dāng)今的大模型后訓(xùn)練(Post-training)階段,DPO(直接偏好優(yōu)化) 憑借其無需訓(xùn)練獨立 Reward Model 的優(yōu)雅設(shè)計和高效性,成功取代 PPO 成為業(yè)界的 「版本之子」,被廣泛應(yīng)用于 Llama-3、Mistral 等頂流開源模型的對齊中。

      然而,隨著對模型能力要求的日益嚴(yán)苛,DPO 的缺陷逐漸浮出水面。

      究竟該如何讓 DPO 學(xué)會「去偽存真」,精準(zhǔn)識別出那些真正決定勝負(fù)的 Critical Tokens

      針對這一問題,來自中國科學(xué)院自動化研究所、字節(jié)跳動、微軟亞洲研究院和北京科技大學(xué)的研究者們在被選為 ICLR 2026 Oral 的新工作中聯(lián)合提出了一種全新的 TI-DPO 框架。



      • 論文:《Token-Importance Guided Direct Preference Optimization》
      • 論文地址:https://arxiv.org/abs/2505.19653
      • 開源地址:https://github.com/gracefulning/TIDPO

      研究背景與意義

      主流方法正面臨兩個核心難題,這使得模型難以實現(xiàn)真正精細(xì)化的語義控制:

      • 痛點一:序列級的「二元對立」陷阱。傳統(tǒng)方法依然停留在序列級別(Sequence-level)的粗粒度優(yōu)化上,簡單粗暴地將數(shù)據(jù)劃分為好與壞。這種二元監(jiān)督信號極度匱乏,因為它掩蓋高質(zhì)量回復(fù)中可能混雜著瑕疵 Token 的事實,導(dǎo)致了模型在連續(xù)語義空間中微調(diào)效果差,甚至引發(fā)采樣分布偏移(Distribution Shift)。
      • 痛點二:被偏差綁架的「偽」重要性。即使試圖下沉到 Token 級別,現(xiàn)有的重要性評估手段也存在問題。許多方法依賴概率預(yù)測或簡單加權(quán),這導(dǎo)致它們直接繼承了模型架構(gòu)的固有缺陷 ——「U 型注意力偏差」(Lost in the Middle),模型天生傾向于過度關(guān)注首尾 Token 而忽略中間的核心語義。

      TI-DPO 的核心機(jī)制

      TI-DPO 的核心思想是:既然 Token 生而不同,那就給它們「加權(quán)」。 通過引入混合加權(quán)機(jī)制和三元組損失,TI-DPO 能夠精準(zhǔn)識別并放大「關(guān)鍵 Token」的信號,同時抑制噪聲,從而實現(xiàn)比傳統(tǒng) DPO 更準(zhǔn)、更穩(wěn)的對齊效果。它主要包含兩大核心機(jī)制:

      1. 混合加權(quán)機(jī)制 (Hybrid Weighting)

      為了找出誰才是決定回復(fù)質(zhì)量的「勝負(fù)手」,TI-DPO 設(shè)計了一套數(shù)據(jù)驅(qū)動與先驗結(jié)構(gòu)相結(jié)合的權(quán)重計算法:

      • 梯度歸因:計算 Loss 對每個 Token Embedding 的梯度范數(shù)。簡單來說,誰對最終輸出貢獻(xiàn)大,誰的權(quán)重就高。
      • 高斯先驗:針對 LLM 常見的「U 型注意力偏差」(過度關(guān)注開頭結(jié)尾),引入高斯分布強制模型關(guān)注中間的語義核心。

      最終的 Token 權(quán)重 ,是這兩者的凸組合:



      新的 Token 級 DPO 加權(quán)損失函數(shù)如下:



      2. 三元組損失 (Triplet Loss)

      TI-DPO 不再滿足于非黑即白的二元對比,而是引入了度量學(xué)習(xí)中的神器Triplet Loss。它在訓(xùn)練過程中構(gòu)建了三個角色:







      TI-DPO 損失函數(shù):TI-DPO 的最終優(yōu)化目標(biāo)便是兩者的加權(quán)和:



      實驗結(jié)果

      為了驗證 TI-DPO 的實際戰(zhàn)力,研究團(tuán)隊在 Llama-3 (8B/3B) 和 Mistral-7B 等多個主流基座模型上進(jìn)行了測試,對比了包括 DPO、SimPO 以及最近大火的 GRPO 等 10+ 種對齊算法。

      1. 綜合能力評估

      如圖 1,在 Llama-3.1-8B-Instruct 基座上,TI-DPO 的綜合平均分達(dá)到 62.3,超過 GRPO (62.1) 和 DPO (60.8) 。



      2. 細(xì)分領(lǐng)域表現(xiàn)優(yōu)秀

      在 IFEval(指令遵循)、TruthfulQA(真實性)和 HumanEval(代碼生成) 這三大最考驗細(xì)節(jié)把握的任務(wù)上,TI-DPO 的表現(xiàn)大幅超越了 DPO、SimPO 以及 GRPO。





      3. 消融實驗:核心組件缺一不可

      Table 2 的消融實驗結(jié)果表明,TI-DPO 的所有核心組件(包括混合加權(quán)機(jī)制、高斯先驗和三元組損失)對于模型性能都至關(guān)重要,移除任意模塊均會導(dǎo)致在通用能力、數(shù)學(xué)推理及代碼生成等各項指標(biāo)上的顯著下降。



      4. 案例展示:一眼看懂「關(guān)鍵 Token」

      為了驗證 TI-DPO 是否真的學(xué)會了「抓重點」,作者展示了一個醫(yī)療咨詢案例(「頭痛該怎么辦?」)的權(quán)重可視化熱力圖。

      • 在 Preferred 回復(fù)中(左):模型給「seek medical attention」和「promptly」分配了極高的權(quán)重(紅色深色區(qū)域),抓住了「安全第一」的核心。
      • 在 Non-Preferred 回復(fù)中(右):模型精準(zhǔn)「抓包」了「painkillers casually」這種潛在的高風(fēng)險建議,并賦予高權(quán)重加以懲罰。
      • Intermediate Response是模型當(dāng)前的自我水平:「建議多休息,如果惡化再看醫(yī)生」。TI-DPO 引導(dǎo)模型在生成過程中,不斷向 Preferred 的價值觀靠攏,同時規(guī)避 Non-preferred 的陷阱,從而完成從粗放向精細(xì)的進(jìn)化。



      這種有力地證明 TI-DPO 不是在死記硬背,而是真的讀懂了人類價值觀。

      總結(jié)與貢獻(xiàn)

      TI-DPO 的提出,為大模型對齊從粗放的序列級優(yōu)化向更精細(xì)的 Token 級控制轉(zhuǎn)變提供了一個有力的嘗試。它不再滿足于籠統(tǒng)地判斷回答的「好壞」,而是試圖厘清每一個 Token 在價值對齊中的真實貢獻(xiàn)。

      實驗結(jié)果表明,TI-DPO 在指令遵循、真實性與代碼生成等任務(wù)上,相比 GRPO 等基線取得了穩(wěn)定的性能提升,驗證了提升數(shù)據(jù)利用的「顆粒度」是增強模型能力的有效路徑。

      TI-DPO 以其在去噪和細(xì)節(jié)控制上的特性,為后續(xù)的 RLHF 研究提供了一個值得關(guān)注的新方向。我們期待看到更多圍繞「細(xì)粒度價值對齊」的探索,推動大模型向著更精準(zhǔn)、更可控的方向進(jìn)化。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      這可能是中日經(jīng)濟(jì)的最后一戰(zhàn),中國兩張王牌,日本或?qū)⑺绞綕?>
    </a>
        <h3>
      <a href=小嶯說故事
      2026-01-28 20:39:45
      黃有龍做夢也沒想到,自己花重金培養(yǎng)大的女兒,竟給趙薇做了嫁衣

      黃有龍做夢也沒想到,自己花重金培養(yǎng)大的女兒,竟給趙薇做了嫁衣

      查爾菲的筆記
      2025-12-16 15:14:06
      心梗與做家務(wù)有關(guān)?醫(yī)生提醒:60歲以后,做家務(wù)時要注意這幾點

      心梗與做家務(wù)有關(guān)?醫(yī)生提醒:60歲以后,做家務(wù)時要注意這幾點

      醫(yī)學(xué)科普匯
      2026-02-11 06:30:11
      回顧探花大神:害人害己,多位女主被親戚認(rèn)出當(dāng)場“社死”

      回顧探花大神:害人害己,多位女主被親戚認(rèn)出當(dāng)場“社死”

      就一點
      2025-10-09 12:19:42
      古巴告急,呼叫支援

      古巴告急,呼叫支援

      跟著老李看世界
      2026-02-10 00:00:24
      《黑神話:鐘馗》臉模正式現(xiàn)身了!稱體驗很特別

      《黑神話:鐘馗》臉模正式現(xiàn)身了!稱體驗很特別

      游民星空
      2026-02-11 10:04:10
      研究發(fā)現(xiàn)高功率超快充電樁會讓電動車動力電池的老化速度幾乎翻倍

      研究發(fā)現(xiàn)高功率超快充電樁會讓電動車動力電池的老化速度幾乎翻倍

      cnBeta.COM
      2026-02-10 01:06:23
      后悔把公積金取光了!原來退休前不取,竟有這4個大好處

      后悔把公積金取光了!原來退休前不取,竟有這4個大好處

      古事尋蹤記
      2026-02-11 08:53:17
      駐日武官王慶簡:為日本潛伏20年出賣軍事機(jī)密,卻因一動作暴露身份

      駐日武官王慶簡:為日本潛伏20年出賣軍事機(jī)密,卻因一動作暴露身份

      睡前講故事
      2026-02-03 20:55:43
      陳夢宣布雙喜臨門,多年努力終有收獲,母親欣慰,心頭大事落定

      陳夢宣布雙喜臨門,多年努力終有收獲,母親欣慰,心頭大事落定

      觀察鑒娛
      2026-02-10 10:17:57
      中國、日本艦艇在釣魚島較量

      中國、日本艦艇在釣魚島較量

      楊興文
      2026-02-11 14:07:07
      1979年對越作戰(zhàn)結(jié)束后,許世友為何離開了領(lǐng)導(dǎo)崗位?原因不止一個

      1979年對越作戰(zhàn)結(jié)束后,許世友為何離開了領(lǐng)導(dǎo)崗位?原因不止一個

      搜史君
      2026-02-11 08:40:12
      “瑤一瑤小肉包”粉絲跌破2000萬

      “瑤一瑤小肉包”粉絲跌破2000萬

      黃河新聞網(wǎng)呂梁頻道
      2026-02-09 11:46:15
      天大的諷刺!釋永信被查后,才知道她有多讓人敬佩

      天大的諷刺!釋永信被查后,才知道她有多讓人敬佩

      無情有思ss
      2026-02-11 08:51:50
      從排隊3000桌到閉店80%!文和友的敗局,給網(wǎng)紅餐飲上了一課

      從排隊3000桌到閉店80%!文和友的敗局,給網(wǎng)紅餐飲上了一課

      青眼財經(jīng)
      2026-02-07 22:22:53
      26分鐘轟40+12!文班亞馬暴打湖人,小將18分鐘6犯,網(wǎng)友:洋悍僧

      26分鐘轟40+12!文班亞馬暴打湖人,小將18分鐘6犯,網(wǎng)友:洋悍僧

      球盲姐
      2026-02-11 14:20:58
      或是最貴車禍!湖北高速半掛車撞1.4億直升機(jī),全險估計都賠不起

      或是最貴車禍!湖北高速半掛車撞1.4億直升機(jī),全險估計都賠不起

      火山詩話
      2026-02-10 06:05:38
      一場0:2驗出申花一大水貨,攻防表現(xiàn)全拉胯,新賽季恐遭斯帥棄用

      一場0:2驗出申花一大水貨,攻防表現(xiàn)全拉胯,新賽季恐遭斯帥棄用

      零度眼看球
      2026-02-11 07:07:34
      紀(jì)律再收緊!2026公職禁酒令升級,24小時管控7崗嚴(yán)查

      紀(jì)律再收緊!2026公職禁酒令升級,24小時管控7崗嚴(yán)查

      慧眼看世界哈哈
      2026-02-10 10:29:32
      山東7歲男孩跟爸爸拍視頻約定“點一個贊跳繩一下”,網(wǎng)友一天狂點180萬贊!爸爸回應(yīng):這個“債”要還,一天先跳300個

      山東7歲男孩跟爸爸拍視頻約定“點一個贊跳繩一下”,網(wǎng)友一天狂點180萬贊!爸爸回應(yīng):這個“債”要還,一天先跳300個

      揚子晚報
      2026-02-11 12:48:24
      2026-02-11 15:40:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12287文章數(shù) 142565關(guān)注度
      往期回顧 全部

      科技要聞

      痛失兩位華裔大佬!馬斯克為何留不住人心

      頭條要聞

      韓國選手被美選手撞倒喊冤 韓國隊員曾多次撞中國隊員

      頭條要聞

      韓國選手被美選手撞倒喊冤 韓國隊員曾多次撞中國隊員

      體育要聞

      搞垮一個冬奧選手,只需要一首歌?

      娛樂要聞

      汪峰吃驚!章子怡年前6天高調(diào)官宣喜訊

      財經(jīng)要聞

      習(xí)酒節(jié)前價格雪崩控量穩(wěn)價變空談

      汽車要聞

      新勢力車企,盈利的號角已經(jīng)吹響

      態(tài)度原創(chuàng)

      房產(chǎn)
      教育
      時尚
      藝術(shù)
      手機(jī)

      房產(chǎn)要聞

      海南又一千億級賽道出現(xiàn),京東、華潤、中石化等巨頭率先殺入!

      教育要聞

      女兒研究生畢業(yè)才知道,千萬不要過分“炫耀”子女,福氣會變味

      伊姐周日熱推:電視劇《重返青春》;電視劇《女神蒙上眼》......

      藝術(shù)要聞

      楷書進(jìn)步緩慢的原因是什么?

      手機(jī)要聞

      消息稱華為闊屏直板機(jī)已立項:16:9比例,預(yù)計Q4發(fā)布

      無障礙瀏覽 進(jìn)入關(guān)懷版