網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

推薦系統(tǒng)進(jìn)入「雙動(dòng)力」時(shí)代！首篇LLM-RL協(xié)同推薦綜述深度解析

2026-03-03 13:16:12　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

強(qiáng)化學(xué)習(xí)（RL）將推薦系統(tǒng)建模為序列決策過程，支持長期效益和非連續(xù)指標(biāo)的優(yōu)化，是推薦系統(tǒng)領(lǐng)域的主流建模范式之一。然而，傳統(tǒng) RL 推薦系統(tǒng)受困于狀態(tài)建模難、動(dòng)作空間大、獎(jiǎng)勵(lì)設(shè)計(jì)復(fù)雜、反饋稀疏延遲及模擬環(huán)境失真等瓶頸。近期，大語言模型（LLM）的崛起帶來了新機(jī)遇。LLM 憑借常識(shí)儲(chǔ)備、推理能力和語義天賦，不僅能讓智能體更懂用戶，還能充當(dāng)高保真的環(huán)境模擬器。LLM 與 RL 的結(jié)合開啟了更加智能、穩(wěn)健且可信的LLM-RL 協(xié)同推薦系統(tǒng)新范式。

針對(duì)這一新興方向，研究團(tuán)隊(duì)聯(lián)合發(fā)布了首篇聚焦 LLM-RL 協(xié)同推薦的系統(tǒng)性綜述。該論文創(chuàng)新性地提出五大主流協(xié)同范式，全面總結(jié)評(píng)估體系框架，深入分析了當(dāng)前關(guān)鍵挑戰(zhàn)與未來發(fā)展路徑，為該領(lǐng)域的研究者和工程師提供了一份從方法范式到評(píng)測(cè)體系、從研究現(xiàn)狀到創(chuàng)新方向的一站式參考指南。

論文標(biāo)題：Integrating Large Language Models with Reinforcement Learning: A Survey of LLM-RL Synergistic Recommendation
論文鏈接：https://doi.org/10.36227/techrxiv.177155631.17855475/v1

一、研究背景

1. 演進(jìn)之路：從「引擎」驅(qū)動(dòng)到「智能」協(xié)同

推薦系統(tǒng)的技術(shù)演進(jìn)，經(jīng)歷了從「靜態(tài)預(yù)測(cè)」到「動(dòng)態(tài)決策」，再到「認(rèn)知協(xié)同」的階段性躍遷。其核心邏輯是驅(qū)動(dòng)力從簡單匹配機(jī)制升級(jí)為具備環(huán)境適應(yīng)能力的決策引擎，進(jìn)一步邁向融合世界知識(shí)與推理能力的智能協(xié)同體系。

早期推薦系統(tǒng)：通常假設(shè)用戶偏好相對(duì)靜態(tài)，依賴于簡單的相似度匹配或評(píng)分預(yù)測(cè)，對(duì)動(dòng)態(tài)環(huán)境的適應(yīng)能力有限，就像早期的「人力驅(qū)動(dòng)車輛」面對(duì)上坡路段時(shí)顯得力不從心。
RL 推薦系統(tǒng)：從靜態(tài)預(yù)測(cè)轉(zhuǎn)向動(dòng)態(tài)交互。RL 作為核心決策機(jī)制，通過與環(huán)境的持續(xù)交互實(shí)現(xiàn)用戶留存等長期效益的優(yōu)化。就如「發(fā)動(dòng)機(jī)」（Engine）為車輛提供持續(xù)的核心驅(qū)動(dòng)力，RL 為推薦系統(tǒng)在動(dòng)態(tài)和隨機(jī)環(huán)境中運(yùn)行提供了規(guī)范化的框架。
LLM-RL 協(xié)同推薦系統(tǒng)：RL 提供動(dòng)態(tài)建模框架，LLM 則憑借世界知識(shí)、語義理解與推理能力，在 RL pipeline 中扮演關(guān)鍵角色，共同構(gòu)建起更智能穩(wěn)健的系統(tǒng)。LLM 的引入，恰如現(xiàn)代汽車集成了「電動(dòng)機(jī)」：它推動(dòng)系統(tǒng)從純機(jī)械結(jié)構(gòu)向智能化、軟件驅(qū)動(dòng)的平臺(tái)跨越。LLM-RL 協(xié)同推薦系統(tǒng)將推薦過程從低維、被動(dòng)的決策，進(jìn)化為高維、具備認(rèn)知能力的深度交互。

2. 核心機(jī)遇：LLM 的引入帶來了什么變化？

大語言模型的引入并非簡單的技術(shù)疊加，而是對(duì)推薦本質(zhì)的一次重塑。它憑借強(qiáng)大的認(rèn)知與推理能力，在表征空間、智能體定位、環(huán)境建模與交互范式這四大維度上，為推薦系統(tǒng)帶來了前所未有的質(zhì)變：

重塑表征空間：從「稀疏的 ID」到「豐富的語義」。
重塑智能體定位：從「固化模型」到「智能動(dòng)態(tài)決策者」。
重塑環(huán)境建模：從「黑盒模擬」到「高保真仿真」。
重塑交互范式：從「單向推送隱式反饋」到「雙向共建靈活交互」。

二、 LLM-RL 協(xié)同推薦綜述解析

1. 五大協(xié)同范式：LLM 與 RL 如何協(xié)同？

在 LLM-RL 協(xié)同驅(qū)動(dòng)的推薦系統(tǒng)中，LLM 以深度融合、廣泛參與的方式融入強(qiáng)化學(xué)習(xí)流程的諸多環(huán)節(jié)。推薦系統(tǒng)的架構(gòu)從「智能體-環(huán)境」二元范式，演進(jìn)為由多個(gè) LLM 增強(qiáng)的功能模塊共同構(gòu)成的、更靈活、更富層次的協(xié)同框架。

在智能體（Agent）一側(cè)，LLM 可以勝任多重角色：

LLM as Policy（策略）：擔(dān)任推薦系統(tǒng)的核心決策模塊，根據(jù)狀態(tài)生成推薦動(dòng)作或排序列表。優(yōu)化路徑包括采用 PPO、GRPO 等 RL 算法的顯式獎(jiǎng)勵(lì)優(yōu)化，或通過 DPO 直接擬合用戶偏好的隱式對(duì)齊。
LLM as Reasoner（推理器）：對(duì)多樣化的輸入信息進(jìn)行綜合分析，提煉出高層語義表征或推斷用戶偏好，并將這些輸出傳遞給策略模塊。
LLM as Representer（表示器）：將原始、稀疏、異構(gòu)的輸入數(shù)據(jù)轉(zhuǎn)化為蘊(yùn)含深層意圖的高維語義特征，突破傳統(tǒng) ID 化表征的局限。
LLM as Explainer（解釋器）：為推薦結(jié)果生成解釋，從而增強(qiáng)系統(tǒng)的可信度與可解釋性。不僅向用戶輸出解釋，還可以將解釋作為中間推理步驟。

在環(huán)境（Environment）一側(cè)，LLM 主要扮演：

LLM as Simulator（模擬器）：生成更豐富的獎(jiǎng)勵(lì)信號(hào)與交互反饋，使系統(tǒng)與真實(shí)應(yīng)用場(chǎng)景的對(duì)齊更精準(zhǔn)，解決真實(shí)環(huán)境測(cè)試成本高、風(fēng)險(xiǎn)大的痛點(diǎn)。部分基于 LLM 的模擬器具備可訓(xùn)練、可優(yōu)化的能力。通過針對(duì)性的微調(diào)與迭代，能夠在行為真實(shí)感、邏輯一致性等維度上實(shí)現(xiàn)顯著提升。

除以上 5 種主流協(xié)同范式，學(xué)界與業(yè)界仍在探索更多元的路徑：

在智能體（Agent）一側(cè)，LLM 正從單純的推薦生成器，進(jìn)化為智能體的高層控制器：它可以是制定探索路徑的策略規(guī)劃師（Planner），提供專家建議的決策顧問（Adviser），亦或是反思決策偏差的評(píng)估反思者（Reflector）。
在環(huán)境（Environment）一側(cè)，LLM 還扮演著獎(jiǎng)勵(lì)塑形器（Reward Formulator）、狀態(tài)表征器（Representer）與仿真推理器（Reasoner）等角色。

2. 標(biāo)準(zhǔn)評(píng)估協(xié)議：如何衡量系統(tǒng)表現(xiàn)？

為了全面、客觀地評(píng)價(jià) LLM-RL 協(xié)同推薦系統(tǒng)的性能，本綜述從任務(wù)（Task）、數(shù)據(jù)集（Dataset）、評(píng)估策略（Strategy）以及指標(biāo)（Metric）四個(gè)關(guān)鍵維度構(gòu)建了標(biāo)準(zhǔn)化的評(píng)估協(xié)議。

任務(wù)（Task）

任務(wù)形式：

序列推薦：基于用戶歷史行為預(yù)測(cè)下一個(gè)交互物品。
交互式推薦：系統(tǒng)與用戶之間進(jìn)行多輪交互，實(shí)時(shí)響應(yīng)用戶反饋。
評(píng)分預(yù)測(cè)：預(yù)測(cè)用戶對(duì)物品的顯式評(píng)分，常用于評(píng)估模型的推理能力。
對(duì)話式推薦：系統(tǒng)通過自然語言與用戶進(jìn)行多輪對(duì)話，主動(dòng)澄清偏好、細(xì)化需求。
點(diǎn)擊率預(yù)測(cè)：預(yù)測(cè)用戶點(diǎn)擊行為。
其他領(lǐng)域任務(wù)：崗位推薦、醫(yī)療推薦、興趣點(diǎn)推薦、跨域推薦、可解釋推薦等。

任務(wù)目標(biāo)：

準(zhǔn)確性：最基礎(chǔ)的目標(biāo)，旨在最大化推薦物品與用戶偏好的匹配度。
可解釋性：聚焦于生成人類可理解的推薦理由。
新穎性：鼓勵(lì)系統(tǒng)推薦用戶未曾接觸或意料之外的物品。
多樣性：要求推薦列表在類別、屬性或語義內(nèi)容上覆蓋更廣。
安全性：安全性在高風(fēng)險(xiǎn)領(lǐng)域尤為重要。
無偏性：旨在緩解推薦系統(tǒng)中固有的系統(tǒng)性偏差。

數(shù)據(jù)集（Dataset）

當(dāng)前研究使用的數(shù)據(jù)集呈現(xiàn)「頭部集中、長尾分布」的特征：

傳統(tǒng)推薦數(shù)據(jù)集：如 Amazon Review、MovieLens 等，因其通用性和可復(fù)現(xiàn)性成為絕大多數(shù)研究的首選。
對(duì)話推薦數(shù)據(jù)集：如 ReDial、OpenDialKG 等，適用于對(duì)話式推薦任務(wù)，強(qiáng)調(diào)多輪語言交互能力。
專用領(lǐng)域數(shù)據(jù)集：如 Foursquare（POI）、BOSS Zhipin（崗位推薦）、MIMIC/eICU（醫(yī)療）、COCO（課程推薦）等。

值得注意的是，工業(yè)級(jí)數(shù)據(jù)集（如 Taobao、KuaiRec）的使用比例正在上升，表明研究正從學(xué)術(shù)基準(zhǔn)向真實(shí)大規(guī)模系統(tǒng)遷移。

評(píng)估策略（Strategy）

離線評(píng)估（Offline）：基于靜態(tài)歷史數(shù)據(jù)進(jìn)行訓(xùn)練和測(cè)試，成本低、可復(fù)現(xiàn)，是目前最主流的方式。但受限于歷史策略帶來的各種偏差，難以真實(shí)反映系統(tǒng)在動(dòng)態(tài)環(huán)境中的表現(xiàn)。
在線評(píng)估（Online）：通過 A/B 測(cè)試在真實(shí)用戶環(huán)境中驗(yàn)證系統(tǒng)效果，最真實(shí)有效，但成本高、風(fēng)險(xiǎn)大，多用于工業(yè)界部署驗(yàn)證。
仿真評(píng)估（Simulation）：利用 LLM 構(gòu)建用戶模擬器，在可控環(huán)境中進(jìn)行策略訓(xùn)練與評(píng)估。低成本、可重復(fù)、支持長期交互，但可靠性高度依賴于仿真器的真實(shí)性。

指標(biāo)（Metric）

推薦導(dǎo)向指標(biāo)
輸出型指標(biāo)：主要為準(zhǔn)確性指標(biāo)，如 NDCG、HR 等排名指標(biāo)；RMSE、MAE 等評(píng)分預(yù)測(cè)指標(biāo)；AUC、Logloss 等 CTR 指標(biāo)。還包括多樣性（DivRatio、CV）、公平性（MGU、DGU）、新穎性（Serendipity）等方面的指標(biāo)。
過程型指標(biāo)：如累計(jì)獎(jiǎng)勵(lì)（Reward）、平均交互輪次（Average Turn）等。
語言導(dǎo)向指標(biāo)
客觀指標(biāo)：通過將生成的文本與參考文本或真實(shí)數(shù)據(jù)進(jìn)行對(duì)比，來定量評(píng)估其質(zhì)量，如 BLEU、ROUGE 等。
主觀指標(biāo)：通過人工評(píng)分或「LLM 作為裁判」的方式，評(píng)估生成文本的信息量、說服力等維度。

3. 挑戰(zhàn)與未來方向

LLM-RL 協(xié)同推薦系統(tǒng)帶來了范式級(jí)的能力躍升，但也暴露出系統(tǒng)性風(fēng)險(xiǎn)與工程瓶頸。

算法去偏
協(xié)同推薦系統(tǒng)面臨「LLM 固有偏差」與「RL 累積偏差」的雙重壓力。
未來方向：從傳統(tǒng)的單一模塊去偏，轉(zhuǎn)向系統(tǒng)級(jí)治理。通過建立偏見溯源機(jī)制，阻斷偏差在推理與決策鏈條中的自我強(qiáng)化，確保推薦結(jié)果的公平性與多樣性。
隱私與安全
LLM 在處理用戶歷史和意圖時(shí)，強(qiáng)大的語義推理能力可能導(dǎo)致敏感屬性（如身份、偏好）被「無意中泄露」或「過度推斷」。
未來方向：實(shí)現(xiàn)「安全對(duì)齊」。通過隱私計(jì)算與強(qiáng)化學(xué)習(xí)的結(jié)合，讓系統(tǒng)在理解用戶的同時(shí)，具備自動(dòng)過濾敏感信息的能力，構(gòu)建更可靠、更具防御性的智能體。
計(jì)算效率
LLM 的巨量參數(shù)和 RL 的高頻交互之間存在天然的效率矛盾，導(dǎo)致「推理延遲高」、「訓(xùn)練成本大」。
未來方向：開發(fā)更輕量化的協(xié)同框架。例如采用參數(shù)高效微調(diào)（PEFT）、多智能體協(xié)作（將復(fù)雜任務(wù)拆解給多個(gè)小模型）以及優(yōu)化采樣策略，以降低計(jì)算開銷，實(shí)現(xiàn)真正可落地的實(shí)時(shí)推薦。
幻覺治理
LLM 生成的「虛假反饋」或「邏輯不一致」的輸出會(huì)誤導(dǎo) RL 策略，導(dǎo)致推薦決策偏離軌道。
未來方向：引入「過程監(jiān)督」與「不確定性感知」。通過對(duì)思維鏈的中間步驟進(jìn)行事實(shí)核查，并賦予系統(tǒng)「自知之明」（識(shí)別自身知識(shí)邊界），在檢測(cè)到高幻覺風(fēng)險(xiǎn)時(shí)自動(dòng)回退至保守策略。

三、結(jié)語

這篇深度綜述揭示了推薦系統(tǒng)從「自動(dòng)化」向「智能化」跨越的清晰路徑。在「雙動(dòng)力」時(shí)代，強(qiáng)化學(xué)習(xí)提供穩(wěn)定的決策框架，大模型注入更強(qiáng)的認(rèn)知能力。推薦系統(tǒng)正從效率工具走向智能伙伴，變得更加有溫度，也更加有深度。

本文作者來自中國科學(xué)技術(shù)大學(xué)、快手科技、中國人民大學(xué)、浙江大學(xué)、山東大學(xué)、香港科技大學(xué)。第一作者高夢(mèng)瑤，中國科學(xué)技術(shù)大學(xué) LDS 實(shí)驗(yàn)室研究生，研究方向?yàn)?LLM 推薦系統(tǒng)；通訊作者高崇銘，中國科學(xué)技術(shù)大學(xué) LDS 實(shí)驗(yàn)室博士后研究員；通訊作者蔡慶芃，快手商業(yè)化算法部客戶機(jī)制中心負(fù)責(zé)人。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.