![]()
在大語(yǔ)言模型(LLM)的研究浪潮中,絕大多數(shù)工作都聚焦于優(yōu)化模型的輸出分布 —— 擴(kuò)大模型規(guī)模、強(qiáng)化分布學(xué)習(xí)、優(yōu)化獎(jiǎng)勵(lì)信號(hào)…… 然而,如何將這些輸出分布真正轉(zhuǎn)化為高質(zhì)量的生成結(jié)果—— 即解碼(decoding)階段,卻沒有得到足夠的重視。
北京大學(xué)林宙辰、王奕森團(tuán)隊(duì)的論文《Language Ranker: A Lightweight Ranking Framework for LLM Decoding》提出了一種全新的視角:將大模型的解碼過程類比為推薦系統(tǒng)中的排序階段(Ranking Stage)。這一視角揭示了現(xiàn)有解碼方法的局限,并據(jù)此提出了高效、輕量的改進(jìn)方案。
![]()
- 論文標(biāo)題:Language Ranker: A Lightweight Ranking framework for LLM Decoding
- 論文鏈接:https://www.arxiv.org/abs/2510.21883
一、重新理解 LLM:從 “生成” 到 “推薦”
論文指出,LLM 可以被看作一種特殊的推薦系統(tǒng),它把輸入當(dāng)作 “用戶信息”,在龐大的候選響應(yīng)空間中為每位用戶挑選最合適的響應(yīng)。
如下圖所示,大模型的關(guān)鍵組件與推薦系統(tǒng)可一一對(duì)應(yīng):
- 模型骨架 (LM backbone) 從輸入中提取用戶特征,相當(dāng)于推薦系統(tǒng)的特征工程(Feature Engineering);
- 語(yǔ)言頭(LM Head)根據(jù)用戶特征生成初步的響應(yīng)分布,相當(dāng)于推薦系統(tǒng)的召回層(Retriever);
- 解碼方法(Decoding Method)則是根據(jù)響應(yīng)分布選出 “最合適的一條響應(yīng)”,相當(dāng)于推薦系統(tǒng)的排序?qū)樱≧anker)。
![]()
圖表 1 大模型的關(guān)鍵組件與推薦系統(tǒng)一一對(duì)應(yīng)
通過將大模型的解碼過程類比為推薦系統(tǒng)的排序階段,我們能夠更清晰地看到現(xiàn)有方法的局限。
在推薦系統(tǒng)中,排序?qū)樱≧anker)通常經(jīng)過精心設(shè)計(jì),結(jié)構(gòu)復(fù)雜,用于在召回的候選項(xiàng)中進(jìn)行細(xì)粒度優(yōu)化;而在大模型中,主流的解碼方法,如貪婪解碼、束搜索(Beam Search)、自一致性(Self-consistency)等,大多僅依賴固定規(guī)則,缺乏學(xué)習(xí)能力,因而要么提升有限,要么只在少數(shù)任務(wù)(如數(shù)學(xué)問題)中有效。
與此同時(shí),基于獎(jiǎng)勵(lì)模型的重排序方法雖然具備一定的學(xué)習(xí)能力,卻存在明顯的冗余。它們?cè)谂判螂A段重新進(jìn)行特征提取,相當(dāng)于 “重復(fù)做了一遍特征工程”。這種重復(fù)造輪子的做法不僅計(jì)算成本高昂,而且在訓(xùn)練與推理中都帶來(lái)巨大的資源浪費(fèi),嚴(yán)重限制了大模型在解碼優(yōu)化方向上的可擴(kuò)展性與普適性。
二、Language Ranker:輕量級(jí)重排序框架
針對(duì)上述局限,論文借鑒推薦系統(tǒng)的設(shè)計(jì)思路,提出了Language Ranker 框架。其核心思想是:不再依賴龐大的獎(jiǎng)勵(lì)模型(Reward Model),而是直接復(fù)用主模型已提取的隱藏層特征,通過一個(gè)極小的學(xué)習(xí)模塊完成候選響應(yīng)的重排序。
該模塊僅包含不到 0.5M 參數(shù)(比 GPT-2 還小 200 多倍),卻在數(shù)學(xué)推理、代碼生成、函數(shù)調(diào)用等多項(xiàng)任務(wù)上取得了接近甚至超越 7B 級(jí)獎(jiǎng)勵(lì)模型的性能。
如下圖所示,Language Ranker 包含三步:
1. 候選召回:由主模型生成多條候選響應(yīng);
2. 特征提取:從模型中部(約底部 60% 層)提取最后一個(gè) token 的隱藏狀態(tài),作為表示特征;
3. 候選排序:基于提取的特征,通過輕量 Transformer 或 MLP 計(jì)算相關(guān)性進(jìn)行重排序。
![]()
圖表 2 Language Ranker 框架
實(shí)驗(yàn)發(fā)現(xiàn),這種 “共享特征工程” 的設(shè)計(jì)避免了傳統(tǒng)獎(jiǎng)勵(lì)模型重復(fù)特征提取浪費(fèi),在保持高性能的同時(shí),大幅降低了計(jì)算成本,實(shí)現(xiàn)了以最小代價(jià)獲得接近最優(yōu)結(jié)果。
此外,Language Ranker 還具備以下特性:
- 極低的訓(xùn)練與推理開銷:支持 CPU 級(jí)別訓(xùn)練與部署;
- 即插即用:不改變 LLM 結(jié)構(gòu)即可提升響應(yīng)質(zhì)量;
- 模塊可分性:主模型與 Ranker 可以獨(dú)立在不同設(shè)備上運(yùn)行。
這些優(yōu)勢(shì)使得一個(gè)主模型可以靈活搭配多個(gè) Ranker,甚至為不同用戶定制個(gè)性化 Ranker,實(shí)現(xiàn)真正的個(gè)性化能力增強(qiáng)。
![]()
圖表 3 一個(gè) LLM 可以配備任意個(gè) ranker,從而增強(qiáng)模型不同方面的能力,實(shí)現(xiàn)個(gè)性化
三、實(shí)驗(yàn)結(jié)果:小 Ranker,大提升
1. 主結(jié)果:不到 0.5 M 參數(shù)的 Ranker 媲美大規(guī)模獎(jiǎng)勵(lì)模型
在所有任務(wù)中,Language Ranker 僅需不到 0.5 M 參數(shù),就能達(dá)到甚至超過大規(guī)模獎(jiǎng)勵(lì)模型(Reward Model)表現(xiàn)。例如:
- 在兩個(gè) 8B 級(jí)別模型上,Language Ranker 幾乎在所有任務(wù)中都超越了基于 8B 模型訓(xùn)練的大規(guī)模獎(jiǎng)勵(lì)模型。
- 在 Qwen 2.5-32B 上,Ranker 以 0.36 M 參數(shù)取得了與 32 B 規(guī)模獎(jiǎng)勵(lì)模型幾乎持平的表現(xiàn);
- 相比傳統(tǒng)規(guī)則式解碼策略,Language Ranker 在所有任務(wù)上均大幅提升。
![]()
圖表 4 Language Ranker 在數(shù)學(xué)、代碼、工具調(diào)用任務(wù)上的表現(xiàn)
2. 速度與資源效率:CPU 也能訓(xùn)練的 Ranker
在 MBPP 任務(wù)上,Language Ranker 即使用 CPU 也僅需 67 秒即可訓(xùn)練完成,而即使是 GPT-2 級(jí)別的獎(jiǎng)勵(lì)模型也需要超過 1 小時(shí)。
Ranker 具備 CPU 可訓(xùn)練性,意味著它可以在邊緣設(shè)備上獨(dú)立更新,支持個(gè)性化的持續(xù)學(xué)習(xí)。
![]()
圖表 5 CPU 可訓(xùn)練
3. 遷移泛化:跨任務(wù)與跨模型皆可適配
- 跨領(lǐng)域:在 MATH 內(nèi)部七類子任務(wù)間遷移時(shí),性能下降均 < 2 %,表明良好泛化;
- 跨任務(wù):在數(shù)學(xué)與代碼的遷移性實(shí)驗(yàn)中,遷移的 Ranker 仍舊大幅超過任務(wù)內(nèi)訓(xùn)練的 GPT-2 Reward Model。
單個(gè) Ranker 即可跨任務(wù)工作,顯著降低模型管理與部署成本。此外,一個(gè)主模型還可以配備多個(gè) Ranker,展現(xiàn)出方法突出的覆蓋性與靈活性。
![]()
圖表 6 跨領(lǐng)域泛化性分析
![]()
圖表 7 跨任務(wù)泛化性分析
4.Ranker Scaling Law:采樣越多,性能越強(qiáng)
![]()
圖表 8 Ranker Scaling Law
隨著候選響應(yīng)數(shù)量從 1 增加至 100,Language Ranker 在三項(xiàng)任務(wù)上均持續(xù)提升:
- 在 MATH 任務(wù)中,準(zhǔn)確率從 25% 穩(wěn)步上升至 56%;
- 在 MBPP 中,從 42% 上升至 59%;
- 在 xLAM 函數(shù)調(diào)用中,從 11% 提升至 47%。
這展現(xiàn)出本文方法同樣遵循規(guī)模定律,稱之為 Ranker Scaling Law,即更多采樣可帶來(lái)穩(wěn)定性能增益。
四、總結(jié)與展望
Language Ranker 以 “推薦系統(tǒng)視角” 重新定義了大語(yǔ)言模型的解碼過程,提出了一種輕量、高效且通用的排序框架。它摒棄了傳統(tǒng)獎(jiǎng)勵(lì)模型高昂的計(jì)算代價(jià),通過共享主模型的隱藏層特征,僅以不到 0.5M 參數(shù)實(shí)現(xiàn)與數(shù)千倍規(guī)模獎(jiǎng)勵(lì)模型相當(dāng)?shù)男阅堋T摲椒o(wú)需額外訓(xùn)練主模型,也能在 CPU 上快速完成學(xué)習(xí),顯著降低推理與部署門檻。實(shí)驗(yàn)結(jié)果顯示,Language Ranker 在數(shù)學(xué)、代碼生成、函數(shù)調(diào)用和指令跟隨等多任務(wù)中均取得優(yōu)異表現(xiàn),并在跨任務(wù)、跨模型遷移中保持穩(wěn)定泛化能力。更重要的是,這一框架天然支持個(gè)性化擴(kuò)展:同一主模型可搭配不同 Ranker,以滿足多樣化場(chǎng)景需求。展望未來(lái),Language Ranker 不僅是解碼階段優(yōu)化的新范式,更是邁向個(gè)性化智能體的重要一步。它讓我們看到,大模型的智能邊界不止于參數(shù)規(guī)模,更在于如何高效地 “選出” 最優(yōu)答案,為構(gòu)建高效、靈活、可持續(xù)演化的語(yǔ)言智能系統(tǒng)提供了新的方向。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.