<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      Language Ranker:從推薦系統(tǒng)的視角反思并優(yōu)化大模型解碼過程

      0
      分享至



      在大語(yǔ)言模型(LLM)的研究浪潮中,絕大多數(shù)工作都聚焦于優(yōu)化模型的輸出分布 —— 擴(kuò)大模型規(guī)模、強(qiáng)化分布學(xué)習(xí)、優(yōu)化獎(jiǎng)勵(lì)信號(hào)…… 然而,如何將這些輸出分布真正轉(zhuǎn)化為高質(zhì)量的生成結(jié)果—— 即解碼(decoding)階段,卻沒有得到足夠的重視。

      北京大學(xué)林宙辰、王奕森團(tuán)隊(duì)的論文《Language Ranker: A Lightweight Ranking Framework for LLM Decoding》提出了一種全新的視角:將大模型的解碼過程類比為推薦系統(tǒng)中的排序階段(Ranking Stage)。這一視角揭示了現(xiàn)有解碼方法的局限,并據(jù)此提出了高效、輕量的改進(jìn)方案。



      • 論文標(biāo)題:Language Ranker: A Lightweight Ranking framework for LLM Decoding
      • 論文鏈接:https://www.arxiv.org/abs/2510.21883

      一、重新理解 LLM:從 “生成” 到 “推薦”


      論文指出,LLM 可以被看作一種特殊的推薦系統(tǒng),它把輸入當(dāng)作 “用戶信息”,在龐大的候選響應(yīng)空間中為每位用戶挑選最合適的響應(yīng)。

      如下圖所示,大模型的關(guān)鍵組件與推薦系統(tǒng)可一一對(duì)應(yīng):

      • 模型骨架 (LM backbone) 從輸入中提取用戶特征,相當(dāng)于推薦系統(tǒng)的特征工程(Feature Engineering);
      • 語(yǔ)言頭(LM Head)根據(jù)用戶特征生成初步的響應(yīng)分布,相當(dāng)于推薦系統(tǒng)的召回層(Retriever);
      • 解碼方法(Decoding Method)則是根據(jù)響應(yīng)分布選出 “最合適的一條響應(yīng)”,相當(dāng)于推薦系統(tǒng)的排序?qū)樱≧anker)。



      圖表 1 大模型的關(guān)鍵組件與推薦系統(tǒng)一一對(duì)應(yīng)

      通過將大模型的解碼過程類比為推薦系統(tǒng)的排序階段,我們能夠更清晰地看到現(xiàn)有方法的局限。

      在推薦系統(tǒng)中,排序?qū)樱≧anker)通常經(jīng)過精心設(shè)計(jì),結(jié)構(gòu)復(fù)雜,用于在召回的候選項(xiàng)中進(jìn)行細(xì)粒度優(yōu)化;而在大模型中,主流的解碼方法,如貪婪解碼、束搜索(Beam Search)、自一致性(Self-consistency)等,大多僅依賴固定規(guī)則,缺乏學(xué)習(xí)能力,因而要么提升有限,要么只在少數(shù)任務(wù)(如數(shù)學(xué)問題)中有效。

      與此同時(shí),基于獎(jiǎng)勵(lì)模型的重排序方法雖然具備一定的學(xué)習(xí)能力,卻存在明顯的冗余。它們?cè)谂判螂A段重新進(jìn)行特征提取,相當(dāng)于 “重復(fù)做了一遍特征工程”。這種重復(fù)造輪子的做法不僅計(jì)算成本高昂,而且在訓(xùn)練與推理中都帶來(lái)巨大的資源浪費(fèi),嚴(yán)重限制了大模型在解碼優(yōu)化方向上的可擴(kuò)展性與普適性。

      二、Language Ranker:輕量級(jí)重排序框架

      針對(duì)上述局限,論文借鑒推薦系統(tǒng)的設(shè)計(jì)思路,提出了Language Ranker 框架。其核心思想是:不再依賴龐大的獎(jiǎng)勵(lì)模型(Reward Model),而是直接復(fù)用主模型已提取的隱藏層特征,通過一個(gè)極小的學(xué)習(xí)模塊完成候選響應(yīng)的重排序。

      該模塊僅包含不到 0.5M 參數(shù)(比 GPT-2 還小 200 多倍),卻在數(shù)學(xué)推理、代碼生成、函數(shù)調(diào)用等多項(xiàng)任務(wù)上取得了接近甚至超越 7B 級(jí)獎(jiǎng)勵(lì)模型的性能。

      如下圖所示,Language Ranker 包含三步:

      1. 候選召回:由主模型生成多條候選響應(yīng);

      2. 特征提取:從模型中部(約底部 60% 層)提取最后一個(gè) token 的隱藏狀態(tài),作為表示特征;

      3. 候選排序:基于提取的特征,通過輕量 Transformer 或 MLP 計(jì)算相關(guān)性進(jìn)行重排序。



      圖表 2 Language Ranker 框架

      實(shí)驗(yàn)發(fā)現(xiàn),這種 “共享特征工程” 的設(shè)計(jì)避免了傳統(tǒng)獎(jiǎng)勵(lì)模型重復(fù)特征提取浪費(fèi),在保持高性能的同時(shí),大幅降低了計(jì)算成本,實(shí)現(xiàn)了以最小代價(jià)獲得接近最優(yōu)結(jié)果。

      此外,Language Ranker 還具備以下特性:

      • 極低的訓(xùn)練與推理開銷:支持 CPU 級(jí)別訓(xùn)練與部署;
      • 即插即用:不改變 LLM 結(jié)構(gòu)即可提升響應(yīng)質(zhì)量;
      • 模塊可分性:主模型與 Ranker 可以獨(dú)立在不同設(shè)備上運(yùn)行。

      這些優(yōu)勢(shì)使得一個(gè)主模型可以靈活搭配多個(gè) Ranker,甚至為不同用戶定制個(gè)性化 Ranker,實(shí)現(xiàn)真正的個(gè)性化能力增強(qiáng)。



      圖表 3 一個(gè) LLM 可以配備任意個(gè) ranker,從而增強(qiáng)模型不同方面的能力,實(shí)現(xiàn)個(gè)性化

      三、實(shí)驗(yàn)結(jié)果:小 Ranker,大提升

      1. 主結(jié)果:不到 0.5 M 參數(shù)的 Ranker 媲美大規(guī)模獎(jiǎng)勵(lì)模型

      在所有任務(wù)中,Language Ranker 僅需不到 0.5 M 參數(shù),就能達(dá)到甚至超過大規(guī)模獎(jiǎng)勵(lì)模型(Reward Model)表現(xiàn)。例如:

      • 在兩個(gè) 8B 級(jí)別模型上,Language Ranker 幾乎在所有任務(wù)中都超越了基于 8B 模型訓(xùn)練的大規(guī)模獎(jiǎng)勵(lì)模型。
      • 在 Qwen 2.5-32B 上,Ranker 以 0.36 M 參數(shù)取得了與 32 B 規(guī)模獎(jiǎng)勵(lì)模型幾乎持平的表現(xiàn);
      • 相比傳統(tǒng)規(guī)則式解碼策略,Language Ranker 在所有任務(wù)上均大幅提升。



      圖表 4 Language Ranker 在數(shù)學(xué)、代碼、工具調(diào)用任務(wù)上的表現(xiàn)

      2. 速度與資源效率:CPU 也能訓(xùn)練的 Ranker

      在 MBPP 任務(wù)上,Language Ranker 即使用 CPU 也僅需 67 秒即可訓(xùn)練完成,而即使是 GPT-2 級(jí)別的獎(jiǎng)勵(lì)模型也需要超過 1 小時(shí)。

      Ranker 具備 CPU 可訓(xùn)練性,意味著它可以在邊緣設(shè)備上獨(dú)立更新,支持個(gè)性化的持續(xù)學(xué)習(xí)。



      圖表 5 CPU 可訓(xùn)練

      3. 遷移泛化:跨任務(wù)與跨模型皆可適配

      • 跨領(lǐng)域:在 MATH 內(nèi)部七類子任務(wù)間遷移時(shí),性能下降均 < 2 %,表明良好泛化;
      • 跨任務(wù):在數(shù)學(xué)與代碼的遷移性實(shí)驗(yàn)中,遷移的 Ranker 仍舊大幅超過任務(wù)內(nèi)訓(xùn)練的 GPT-2 Reward Model。

      單個(gè) Ranker 即可跨任務(wù)工作,顯著降低模型管理與部署成本。此外,一個(gè)主模型還可以配備多個(gè) Ranker,展現(xiàn)出方法突出的覆蓋性與靈活性。



      圖表 6 跨領(lǐng)域泛化性分析



      圖表 7 跨任務(wù)泛化性分析

      4.Ranker Scaling Law:采樣越多,性能越強(qiáng)



      圖表 8 Ranker Scaling Law

      隨著候選響應(yīng)數(shù)量從 1 增加至 100,Language Ranker 在三項(xiàng)任務(wù)上均持續(xù)提升:

      • 在 MATH 任務(wù)中,準(zhǔn)確率從 25% 穩(wěn)步上升至 56%;
      • 在 MBPP 中,從 42% 上升至 59%;
      • 在 xLAM 函數(shù)調(diào)用中,從 11% 提升至 47%。

      這展現(xiàn)出本文方法同樣遵循規(guī)模定律,稱之為 Ranker Scaling Law,即更多采樣可帶來(lái)穩(wěn)定性能增益。

      四、總結(jié)與展望

      Language Ranker 以 “推薦系統(tǒng)視角” 重新定義了大語(yǔ)言模型的解碼過程,提出了一種輕量、高效且通用的排序框架。它摒棄了傳統(tǒng)獎(jiǎng)勵(lì)模型高昂的計(jì)算代價(jià),通過共享主模型的隱藏層特征,僅以不到 0.5M 參數(shù)實(shí)現(xiàn)與數(shù)千倍規(guī)模獎(jiǎng)勵(lì)模型相當(dāng)?shù)男阅堋T摲椒o(wú)需額外訓(xùn)練主模型,也能在 CPU 上快速完成學(xué)習(xí),顯著降低推理與部署門檻。實(shí)驗(yàn)結(jié)果顯示,Language Ranker 在數(shù)學(xué)、代碼生成、函數(shù)調(diào)用和指令跟隨等多任務(wù)中均取得優(yōu)異表現(xiàn),并在跨任務(wù)、跨模型遷移中保持穩(wěn)定泛化能力。更重要的是,這一框架天然支持個(gè)性化擴(kuò)展:同一主模型可搭配不同 Ranker,以滿足多樣化場(chǎng)景需求。展望未來(lái),Language Ranker 不僅是解碼階段優(yōu)化的新范式,更是邁向個(gè)性化智能體的重要一步。它讓我們看到,大模型的智能邊界不止于參數(shù)規(guī)模,更在于如何高效地 “選出” 最優(yōu)答案,為構(gòu)建高效、靈活、可持續(xù)演化的語(yǔ)言智能系統(tǒng)提供了新的方向。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      馬克龍邀中國(guó)出席G7峰會(huì),日本跳出來(lái)讓法國(guó)“慎重”,被現(xiàn)實(shí)打臉

      馬克龍邀中國(guó)出席G7峰會(huì),日本跳出來(lái)讓法國(guó)“慎重”,被現(xiàn)實(shí)打臉

      這里是東京
      2025-12-07 18:35:06
      跟風(fēng)被咀嚼過的《芳華》,一場(chǎng)庸眾的鬧劇

      跟風(fēng)被咀嚼過的《芳華》,一場(chǎng)庸眾的鬧劇

      關(guān)爾東
      2025-12-07 12:44:17
      殲15一個(gè)照面壓制F15戰(zhàn)機(jī),日本終于明白:印度5.7空戰(zhàn)為什么慘敗

      殲15一個(gè)照面壓制F15戰(zhàn)機(jī),日本終于明白:印度5.7空戰(zhàn)為什么慘敗

      滄海旅行家
      2025-12-08 16:05:48
      山東跑友張素梅去世,僅55歲,10個(gè)月跑40個(gè)半馬,模樣凍齡身材好

      山東跑友張素梅去世,僅55歲,10個(gè)月跑40個(gè)半馬,模樣凍齡身材好

      裕豐娛間說
      2025-12-08 10:19:39
      郭德綱被約談的傳聞出來(lái)后,段子比他的相聲還搞笑

      郭德綱被約談的傳聞出來(lái)后,段子比他的相聲還搞笑

      雷斯林
      2025-12-08 19:14:36
      從東部第一跌到第11!公牛又來(lái)一個(gè)拉文,場(chǎng)均22+5,復(fù)出后7戰(zhàn)5負(fù)

      從東部第一跌到第11!公牛又來(lái)一個(gè)拉文,場(chǎng)均22+5,復(fù)出后7戰(zhàn)5負(fù)

      你的籃球頻道
      2025-12-08 14:15:22
      大廠禁用Cursor,程序員回歸“手搓時(shí)代”?

      大廠禁用Cursor,程序員回歸“手搓時(shí)代”?

      鈦媒體APP
      2025-12-08 09:19:13
      趙本山兒子請(qǐng)客吃砂鍋,趙一楠染一頭黃發(fā),宋曉峰喝到臉泛紅

      趙本山兒子請(qǐng)客吃砂鍋,趙一楠染一頭黃發(fā),宋曉峰喝到臉泛紅

      李橑在北漂
      2025-12-08 08:22:30
      平心而論,以凱恩目前這樣的狀態(tài),7500萬(wàn)歐的身價(jià)是不是太低了?

      平心而論,以凱恩目前這樣的狀態(tài),7500萬(wàn)歐的身價(jià)是不是太低了?

      田先生籃球
      2025-12-07 20:29:03
      跌幅近70%!南京一網(wǎng)紅樓盤單價(jià)從3.7萬(wàn)跌至1.3萬(wàn),縮水超300萬(wàn)…

      跌幅近70%!南京一網(wǎng)紅樓盤單價(jià)從3.7萬(wàn)跌至1.3萬(wàn),縮水超300萬(wàn)…

      火山詩(shī)話
      2025-12-08 06:45:46
      小特朗普暗示:特朗普或因腐敗丑聞退出烏克蘭和平進(jìn)程

      小特朗普暗示:特朗普或因腐敗丑聞退出烏克蘭和平進(jìn)程

      新浪財(cái)經(jīng)
      2025-12-08 06:12:05
      廣東多地工廠放大假,以后打螺絲也找不到地方了!

      廣東多地工廠放大假,以后打螺絲也找不到地方了!

      黯泉
      2025-12-08 14:51:04
      A股:做好準(zhǔn)備吧!不出所料,12月9日,明天很可能將迎來(lái)新的變化

      A股:做好準(zhǔn)備吧!不出所料,12月9日,明天很可能將迎來(lái)新的變化

      振華觀史
      2025-12-08 17:59:44
      爆發(fā)!河鋼、鞍鋼、寶鋼、包鋼、敬業(yè)、山鋼…

      爆發(fā)!河鋼、鞍鋼、寶鋼、包鋼、敬業(yè)、山鋼…

      戶外釣魚哥阿旱
      2025-12-08 13:42:06
      那個(gè)3歲識(shí)千字、6歲奪央視冠軍山東神童王恒屹,如今怎樣

      那個(gè)3歲識(shí)千字、6歲奪央視冠軍山東神童王恒屹,如今怎樣

      素衣讀史
      2025-12-08 16:04:03
      政治局會(huì)議定調(diào)明年經(jīng)濟(jì)工作

      政治局會(huì)議定調(diào)明年經(jīng)濟(jì)工作

      第一財(cái)經(jīng)資訊
      2025-12-08 14:51:47
      國(guó)產(chǎn)女模特172高挑身材,火辣身姿,尺度大

      國(guó)產(chǎn)女模特172高挑身材,火辣身姿,尺度大

      傲嬌的馬甲線
      2025-12-05 18:15:51
      國(guó)家隊(duì)低調(diào)布局:這5只科技股或成明年主線,概念炒作請(qǐng)讓道

      國(guó)家隊(duì)低調(diào)布局:這5只科技股或成明年主線,概念炒作請(qǐng)讓道

      慧眼看世界哈哈
      2025-12-08 07:05:03
      蕭敬騰和老婆一起練琴,像媽媽陪孩子,52歲林有慧年齡感很重。

      蕭敬騰和老婆一起練琴,像媽媽陪孩子,52歲林有慧年齡感很重。

      TVB的四小花
      2025-12-06 14:01:02
      隨著塞爾比英錦賽奪冠,大師賽16強(qiáng)對(duì)陣出爐!大概率以下8人晉級(jí)

      隨著塞爾比英錦賽奪冠,大師賽16強(qiáng)對(duì)陣出爐!大概率以下8人晉級(jí)

      小火箭愛體育
      2025-12-08 08:31:03
      2025-12-08 20:52:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      11873文章數(shù) 142510關(guān)注度
      往期回顧 全部

      科技要聞

      外面有人挖,家里有人跑:蘋果亂成了一鍋粥

      頭條要聞

      中方戰(zhàn)機(jī)持續(xù)雷達(dá)照射日本戰(zhàn)機(jī)目的是什么 外交部回應(yīng)

      頭條要聞

      中方戰(zhàn)機(jī)持續(xù)雷達(dá)照射日本戰(zhàn)機(jī)目的是什么 外交部回應(yīng)

      體育要聞

      一位大學(xué)美術(shù)生,如何用4年成為頂級(jí)跑者?

      娛樂要聞

      章子怡被說拜高踩低 主動(dòng)和卡梅隆熱聊

      財(cái)經(jīng)要聞

      重磅!政治局會(huì)議定調(diào)明年經(jīng)濟(jì)工作

      汽車要聞

      純電全尺寸大六座 凱迪拉克"小凱雷德"申報(bào)圖曝光

      態(tài)度原創(chuàng)

      本地
      健康
      教育
      家居
      房產(chǎn)

      本地新聞

      云游安徽|七千年敘事,第一章寫在蚌埠

      甲狀腺結(jié)節(jié)到這個(gè)程度,該穿刺了!

      教育要聞

      小學(xué)必考易錯(cuò)題,聽說很多大學(xué)生都做錯(cuò)了

      家居要聞

      有限無(wú)界 打破慣有思維

      房產(chǎn)要聞

      全球征集方案!涉及2400畝,秀英港又有新動(dòng)作!

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 精品人妻二区中文字幕| 免费人成在线观看网站| 一本无码在线观看| 超碰666| 亚洲中文字幕A| 九九视频在线观看| 亚洲天堂色图| 人妻?无码?中出| 玩成熟老熟女视频| 久久久精品国产sm调教网站| 猫咪AV成人永久网站在线观看| 91在线资源| 欧美成人一区二区三区| www.jizzjizz| 久久久久成人精品| 屯门区| 一进一出一爽又粗又大| 日本视频一两二两三区| 中文一区二区| 安化县| 治县。| 国产成人AV| 秀山| 不卡的无码AV| 中文字幕+乱码+中文乱码91| 国产女人和拘做受视频免费| 美女成人网站| 国产精品天天干| 国产大学生粉嫩无套流白浆 | 久久精品国产99国产精偷| 亚洲精品国偷拍自产在线观看蜜臀| 成人自拍网| 亚洲色图综合| 亚洲无码一区二区三区蜜桃| 五月综合激情婷婷六月色窝| 亚洲成人在线网站| 忻城县| 香港三级韩国三级日本三级| 狠狠综合亚洲综合亚洲色| 亚洲中文无码永久免费| 女人色熟女乱|