網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Language Ranker：從推薦系統(tǒng)的視角反思并優(yōu)化大模型解碼過程

2025-12-01 12:43:23　來(lái)源: 機(jī)器之心Pro

河北舉報(bào)

分享至

在大語(yǔ)言模型（LLM）的研究浪潮中，絕大多數(shù)工作都聚焦于優(yōu)化模型的輸出分布 —— 擴(kuò)大模型規(guī)模、強(qiáng)化分布學(xué)習(xí)、優(yōu)化獎(jiǎng)勵(lì)信號(hào)…… 然而，如何將這些輸出分布真正轉(zhuǎn)化為高質(zhì)量的生成結(jié)果—— 即解碼（decoding）階段，卻沒有得到足夠的重視。

北京大學(xué)林宙辰、王奕森團(tuán)隊(duì)的論文《Language Ranker: A Lightweight Ranking Framework for LLM Decoding》提出了一種全新的視角：將大模型的解碼過程類比為推薦系統(tǒng)中的排序階段（Ranking Stage）。這一視角揭示了現(xiàn)有解碼方法的局限，并據(jù)此提出了高效、輕量的改進(jìn)方案。

論文標(biāo)題：Language Ranker: A Lightweight Ranking framework for LLM Decoding
論文鏈接：https://www.arxiv.org/abs/2510.21883

一、重新理解 LLM：從 “生成” 到 “推薦”

論文指出，LLM 可以被看作一種特殊的推薦系統(tǒng)，它把輸入當(dāng)作 “用戶信息”，在龐大的候選響應(yīng)空間中為每位用戶挑選最合適的響應(yīng)。

如下圖所示，大模型的關(guān)鍵組件與推薦系統(tǒng)可一一對(duì)應(yīng)：

模型骨架 (LM backbone) 從輸入中提取用戶特征，相當(dāng)于推薦系統(tǒng)的特征工程（Feature Engineering）；
語(yǔ)言頭（LM Head）根據(jù)用戶特征生成初步的響應(yīng)分布，相當(dāng)于推薦系統(tǒng)的召回層（Retriever）；
解碼方法（Decoding Method）則是根據(jù)響應(yīng)分布選出 “最合適的一條響應(yīng)”，相當(dāng)于推薦系統(tǒng)的排序?qū)樱≧anker）。

圖表 1 大模型的關(guān)鍵組件與推薦系統(tǒng)一一對(duì)應(yīng)

通過將大模型的解碼過程類比為推薦系統(tǒng)的排序階段，我們能夠更清晰地看到現(xiàn)有方法的局限。

在推薦系統(tǒng)中，排序?qū)樱≧anker）通常經(jīng)過精心設(shè)計(jì)，結(jié)構(gòu)復(fù)雜，用于在召回的候選項(xiàng)中進(jìn)行細(xì)粒度優(yōu)化；而在大模型中，主流的解碼方法，如貪婪解碼、束搜索（Beam Search）、自一致性（Self-consistency）等，大多僅依賴固定規(guī)則，缺乏學(xué)習(xí)能力，因而要么提升有限，要么只在少數(shù)任務(wù)（如數(shù)學(xué)問題）中有效。

與此同時(shí)，基于獎(jiǎng)勵(lì)模型的重排序方法雖然具備一定的學(xué)習(xí)能力，卻存在明顯的冗余。它們?cè)谂判螂A段重新進(jìn)行特征提取，相當(dāng)于 “重復(fù)做了一遍特征工程”。這種重復(fù)造輪子的做法不僅計(jì)算成本高昂，而且在訓(xùn)練與推理中都帶來(lái)巨大的資源浪費(fèi)，嚴(yán)重限制了大模型在解碼優(yōu)化方向上的可擴(kuò)展性與普適性。

二、Language Ranker：輕量級(jí)重排序框架

針對(duì)上述局限，論文借鑒推薦系統(tǒng)的設(shè)計(jì)思路，提出了Language Ranker 框架。其核心思想是：不再依賴龐大的獎(jiǎng)勵(lì)模型（Reward Model），而是直接復(fù)用主模型已提取的隱藏層特征，通過一個(gè)極小的學(xué)習(xí)模塊完成候選響應(yīng)的重排序。

該模塊僅包含不到 0.5M 參數(shù)（比 GPT-2 還小 200 多倍），卻在數(shù)學(xué)推理、代碼生成、函數(shù)調(diào)用等多項(xiàng)任務(wù)上取得了接近甚至超越 7B 級(jí)獎(jiǎng)勵(lì)模型的性能。

如下圖所示，Language Ranker 包含三步：

1. 候選召回：由主模型生成多條候選響應(yīng)；

2. 特征提取：從模型中部（約底部 60% 層）提取最后一個(gè) token 的隱藏狀態(tài)，作為表示特征；

3. 候選排序：基于提取的特征，通過輕量 Transformer 或 MLP 計(jì)算相關(guān)性進(jìn)行重排序。

圖表 2 Language Ranker 框架

實(shí)驗(yàn)發(fā)現(xiàn)，這種 “共享特征工程” 的設(shè)計(jì)避免了傳統(tǒng)獎(jiǎng)勵(lì)模型重復(fù)特征提取浪費(fèi)，在保持高性能的同時(shí)，大幅降低了計(jì)算成本，實(shí)現(xiàn)了以最小代價(jià)獲得接近最優(yōu)結(jié)果。

此外，Language Ranker 還具備以下特性：

極低的訓(xùn)練與推理開銷：支持 CPU 級(jí)別訓(xùn)練與部署；
即插即用：不改變 LLM 結(jié)構(gòu)即可提升響應(yīng)質(zhì)量；
模塊可分性：主模型與 Ranker 可以獨(dú)立在不同設(shè)備上運(yùn)行。

這些優(yōu)勢(shì)使得一個(gè)主模型可以靈活搭配多個(gè) Ranker，甚至為不同用戶定制個(gè)性化 Ranker，實(shí)現(xiàn)真正的個(gè)性化能力增強(qiáng)。

圖表 3 一個(gè) LLM 可以配備任意個(gè) ranker，從而增強(qiáng)模型不同方面的能力，實(shí)現(xiàn)個(gè)性化

三、實(shí)驗(yàn)結(jié)果：小 Ranker，大提升

1. 主結(jié)果：不到 0.5 M 參數(shù)的 Ranker 媲美大規(guī)模獎(jiǎng)勵(lì)模型

在所有任務(wù)中，Language Ranker 僅需不到 0.5 M 參數(shù)，就能達(dá)到甚至超過大規(guī)模獎(jiǎng)勵(lì)模型（Reward Model）表現(xiàn)。例如：

在兩個(gè) 8B 級(jí)別模型上，Language Ranker 幾乎在所有任務(wù)中都超越了基于 8B 模型訓(xùn)練的大規(guī)模獎(jiǎng)勵(lì)模型。
在 Qwen 2.5-32B 上，Ranker 以 0.36 M 參數(shù)取得了與 32 B 規(guī)模獎(jiǎng)勵(lì)模型幾乎持平的表現(xiàn)；
相比傳統(tǒng)規(guī)則式解碼策略，Language Ranker 在所有任務(wù)上均大幅提升。

圖表 4 Language Ranker 在數(shù)學(xué)、代碼、工具調(diào)用任務(wù)上的表現(xiàn)

2. 速度與資源效率：CPU 也能訓(xùn)練的 Ranker

在 MBPP 任務(wù)上，Language Ranker 即使用 CPU 也僅需 67 秒即可訓(xùn)練完成，而即使是 GPT-2 級(jí)別的獎(jiǎng)勵(lì)模型也需要超過 1 小時(shí)。

Ranker 具備 CPU 可訓(xùn)練性，意味著它可以在邊緣設(shè)備上獨(dú)立更新，支持個(gè)性化的持續(xù)學(xué)習(xí)。

圖表 5 CPU 可訓(xùn)練

3. 遷移泛化：跨任務(wù)與跨模型皆可適配

跨領(lǐng)域：在 MATH 內(nèi)部七類子任務(wù)間遷移時(shí)，性能下降均 < 2 %，表明良好泛化；
跨任務(wù)：在數(shù)學(xué)與代碼的遷移性實(shí)驗(yàn)中，遷移的 Ranker 仍舊大幅超過任務(wù)內(nèi)訓(xùn)練的 GPT-2 Reward Model。

單個(gè) Ranker 即可跨任務(wù)工作，顯著降低模型管理與部署成本。此外，一個(gè)主模型還可以配備多個(gè) Ranker，展現(xiàn)出方法突出的覆蓋性與靈活性。

圖表 6 跨領(lǐng)域泛化性分析

圖表 7 跨任務(wù)泛化性分析

4.Ranker Scaling Law：采樣越多，性能越強(qiáng)

圖表 8 Ranker Scaling Law

隨著候選響應(yīng)數(shù)量從 1 增加至 100，Language Ranker 在三項(xiàng)任務(wù)上均持續(xù)提升：

在 MATH 任務(wù)中，準(zhǔn)確率從 25% 穩(wěn)步上升至 56%；
在 MBPP 中，從 42% 上升至 59%；
在 xLAM 函數(shù)調(diào)用中，從 11% 提升至 47%。

這展現(xiàn)出本文方法同樣遵循規(guī)模定律，稱之為 Ranker Scaling Law，即更多采樣可帶來(lái)穩(wěn)定性能增益。

四、總結(jié)與展望

Language Ranker 以 “推薦系統(tǒng)視角” 重新定義了大語(yǔ)言模型的解碼過程，提出了一種輕量、高效且通用的排序框架。它摒棄了傳統(tǒng)獎(jiǎng)勵(lì)模型高昂的計(jì)算代價(jià)，通過共享主模型的隱藏層特征，僅以不到 0.5M 參數(shù)實(shí)現(xiàn)與數(shù)千倍規(guī)模獎(jiǎng)勵(lì)模型相當(dāng)?shù)男阅堋Ｔ摲椒o(wú)需額外訓(xùn)練主模型，也能在 CPU 上快速完成學(xué)習(xí)，顯著降低推理與部署門檻。實(shí)驗(yàn)結(jié)果顯示，Language Ranker 在數(shù)學(xué)、代碼生成、函數(shù)調(diào)用和指令跟隨等多任務(wù)中均取得優(yōu)異表現(xiàn)，并在跨任務(wù)、跨模型遷移中保持穩(wěn)定泛化能力。更重要的是，這一框架天然支持個(gè)性化擴(kuò)展：同一主模型可搭配不同 Ranker，以滿足多樣化場(chǎng)景需求。展望未來(lái)，Language Ranker 不僅是解碼階段優(yōu)化的新范式，更是邁向個(gè)性化智能體的重要一步。它讓我們看到，大模型的智能邊界不止于參數(shù)規(guī)模，更在于如何高效地 “選出” 最優(yōu)答案，為構(gòu)建高效、靈活、可持續(xù)演化的語(yǔ)言智能系統(tǒng)提供了新的方向。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.