![]()
強(qiáng)化學(xué)習(xí)(RL)將推薦系統(tǒng)建模為序列決策過程,支持長期效益和非連續(xù)指標(biāo)的優(yōu)化,是推薦系統(tǒng)領(lǐng)域的主流建模范式之一。然而,傳統(tǒng) RL 推薦系統(tǒng)受困于狀態(tài)建模難、動(dòng)作空間大、獎(jiǎng)勵(lì)設(shè)計(jì)復(fù)雜、反饋稀疏延遲及模擬環(huán)境失真等瓶頸。近期,大語言模型(LLM)的崛起帶來了新機(jī)遇。LLM 憑借常識(shí)儲(chǔ)備、推理能力和語義天賦,不僅能讓智能體更懂用戶,還能充當(dāng)高保真的環(huán)境模擬器。LLM 與 RL 的結(jié)合開啟了更加智能、穩(wěn)健且可信的LLM-RL 協(xié)同推薦系統(tǒng)新范式。
針對(duì)這一新興方向,研究團(tuán)隊(duì)聯(lián)合發(fā)布了首篇聚焦 LLM-RL 協(xié)同推薦的系統(tǒng)性綜述。該論文創(chuàng)新性地提出五大主流協(xié)同范式,全面總結(jié)評(píng)估體系框架,深入分析了當(dāng)前關(guān)鍵挑戰(zhàn)與未來發(fā)展路徑,為該領(lǐng)域的研究者和工程師提供了一份從方法范式到評(píng)測(cè)體系、從研究現(xiàn)狀到創(chuàng)新方向的一站式參考指南。
![]()
- 論文標(biāo)題:Integrating Large Language Models with Reinforcement Learning: A Survey of LLM-RL Synergistic Recommendation
- 論文鏈接:https://doi.org/10.36227/techrxiv.177155631.17855475/v1
一、 研究背景
1. 演進(jìn)之路:從「引擎」驅(qū)動(dòng)到「智能」協(xié)同
推薦系統(tǒng)的技術(shù)演進(jìn),經(jīng)歷了從「靜態(tài)預(yù)測(cè)」到「動(dòng)態(tài)決策」,再到「認(rèn)知協(xié)同」的階段性躍遷。其核心邏輯是驅(qū)動(dòng)力從簡單匹配機(jī)制升級(jí)為具備環(huán)境適應(yīng)能力的決策引擎,進(jìn)一步邁向融合世界知識(shí)與推理能力的智能協(xié)同體系。
![]()
- 早期推薦系統(tǒng):通常假設(shè)用戶偏好相對(duì)靜態(tài),依賴于簡單的相似度匹配或評(píng)分預(yù)測(cè),對(duì)動(dòng)態(tài)環(huán)境的適應(yīng)能力有限,就像早期的「人力驅(qū)動(dòng)車輛」面對(duì)上坡路段時(shí)顯得力不從心。
- RL 推薦系統(tǒng):從靜態(tài)預(yù)測(cè)轉(zhuǎn)向動(dòng)態(tài)交互。RL 作為核心決策機(jī)制,通過與環(huán)境的持續(xù)交互實(shí)現(xiàn)用戶留存等長期效益的優(yōu)化。就如「發(fā)動(dòng)機(jī)」(Engine)為車輛提供持續(xù)的核心驅(qū)動(dòng)力,RL 為推薦系統(tǒng)在動(dòng)態(tài)和隨機(jī)環(huán)境中運(yùn)行提供了規(guī)范化的框架。
- LLM-RL 協(xié)同推薦系統(tǒng):RL 提供動(dòng)態(tài)建模框架,LLM 則憑借世界知識(shí)、語義理解與推理能力,在 RL pipeline 中扮演關(guān)鍵角色,共同構(gòu)建起更智能穩(wěn)健的系統(tǒng)。LLM 的引入,恰如現(xiàn)代汽車集成了「電動(dòng)機(jī)」:它推動(dòng)系統(tǒng)從純機(jī)械結(jié)構(gòu)向智能化、軟件驅(qū)動(dòng)的平臺(tái)跨越。LLM-RL 協(xié)同推薦系統(tǒng)將推薦過程從低維、被動(dòng)的決策,進(jìn)化為高維、具備認(rèn)知能力的深度交互。
2. 核心機(jī)遇:LLM 的引入帶來了什么變化?
大語言模型的引入并非簡單的技術(shù)疊加,而是對(duì)推薦本質(zhì)的一次重塑。它憑借強(qiáng)大的認(rèn)知與推理能力,在表征空間、智能體定位、環(huán)境建模與交互范式這四大維度上,為推薦系統(tǒng)帶來了前所未有的質(zhì)變:
![]()
- 重塑表征空間:從「稀疏的 ID」到「豐富的語義」。
- 重塑智能體定位:從「固化模型」到「智能動(dòng)態(tài)決策者」。
- 重塑環(huán)境建模:從「黑盒模擬」到「高保真仿真」。
- 重塑交互范式:從「單向推送隱式反饋」到「雙向共建靈活交互」。
二、 LLM-RL 協(xié)同推薦綜述解析
1. 五大協(xié)同范式:LLM 與 RL 如何協(xié)同?
在 LLM-RL 協(xié)同驅(qū)動(dòng)的推薦系統(tǒng)中,LLM 以深度融合、廣泛參與的方式融入強(qiáng)化學(xué)習(xí)流程的諸多環(huán)節(jié)。推薦系統(tǒng)的架構(gòu)從「智能體-環(huán)境」二元范式,演進(jìn)為由多個(gè) LLM 增強(qiáng)的功能模塊共同構(gòu)成的、更靈活、更富層次的協(xié)同框架。
![]()
在智能體(Agent)一側(cè),LLM 可以勝任多重角色:
- LLM as Policy(策略):擔(dān)任推薦系統(tǒng)的核心決策模塊,根據(jù)狀態(tài)生成推薦動(dòng)作或排序列表。優(yōu)化路徑包括采用 PPO、GRPO 等 RL 算法的顯式獎(jiǎng)勵(lì)優(yōu)化,或通過 DPO 直接擬合用戶偏好的隱式對(duì)齊。
- LLM as Reasoner(推理器):對(duì)多樣化的輸入信息進(jìn)行綜合分析,提煉出高層語義表征或推斷用戶偏好,并將這些輸出傳遞給策略模塊。
- LLM as Representer(表示器):將原始、稀疏、異構(gòu)的輸入數(shù)據(jù)轉(zhuǎn)化為蘊(yùn)含深層意圖的高維語義特征,突破傳統(tǒng) ID 化表征的局限。
- LLM as Explainer(解釋器):為推薦結(jié)果生成解釋,從而增強(qiáng)系統(tǒng)的可信度與可解釋性。不僅向用戶輸出解釋,還可以將解釋作為中間推理步驟。
在環(huán)境(Environment)一側(cè),LLM 主要扮演:
- LLM as Simulator(模擬器):生成更豐富的獎(jiǎng)勵(lì)信號(hào)與交互反饋,使系統(tǒng)與真實(shí)應(yīng)用場(chǎng)景的對(duì)齊更精準(zhǔn),解決真實(shí)環(huán)境測(cè)試成本高、風(fēng)險(xiǎn)大的痛點(diǎn)。部分基于 LLM 的模擬器具備可訓(xùn)練、可優(yōu)化的能力。通過針對(duì)性的微調(diào)與迭代,能夠在行為真實(shí)感、邏輯一致性等維度上實(shí)現(xiàn)顯著提升。
除以上 5 種主流協(xié)同范式,學(xué)界與業(yè)界仍在探索更多元的路徑:
- 在智能體(Agent)一側(cè),LLM 正從單純的推薦生成器,進(jìn)化為智能體的高層控制器:它可以是制定探索路徑的策略規(guī)劃師(Planner),提供專家建議的決策顧問(Adviser),亦或是反思決策偏差的評(píng)估反思者(Reflector)。
- 在環(huán)境(Environment)一側(cè),LLM 還扮演著獎(jiǎng)勵(lì)塑形器(Reward Formulator)、狀態(tài)表征器(Representer)與仿真推理器(Reasoner)等角色。
2. 標(biāo)準(zhǔn)評(píng)估協(xié)議:如何衡量系統(tǒng)表現(xiàn)?
為了全面、客觀地評(píng)價(jià) LLM-RL 協(xié)同推薦系統(tǒng)的性能,本綜述從任務(wù)(Task)、數(shù)據(jù)集(Dataset)、評(píng)估策略(Strategy)以及指標(biāo)(Metric)四個(gè)關(guān)鍵維度構(gòu)建了標(biāo)準(zhǔn)化的評(píng)估協(xié)議。
任務(wù)(Task)
任務(wù)形式:
- 序列推薦:基于用戶歷史行為預(yù)測(cè)下一個(gè)交互物品。
- 交互式推薦:系統(tǒng)與用戶之間進(jìn)行多輪交互,實(shí)時(shí)響應(yīng)用戶反饋。
- 評(píng)分預(yù)測(cè):預(yù)測(cè)用戶對(duì)物品的顯式評(píng)分,常用于評(píng)估模型的推理能力。
- 對(duì)話式推薦:系統(tǒng)通過自然語言與用戶進(jìn)行多輪對(duì)話,主動(dòng)澄清偏好、細(xì)化需求。
- 點(diǎn)擊率預(yù)測(cè):預(yù)測(cè)用戶點(diǎn)擊行為。
- 其他領(lǐng)域任務(wù):崗位推薦、醫(yī)療推薦、興趣點(diǎn)推薦、跨域推薦、可解釋推薦等。
任務(wù)目標(biāo):
- 準(zhǔn)確性:最基礎(chǔ)的目標(biāo),旨在最大化推薦物品與用戶偏好的匹配度。
- 可解釋性:聚焦于生成人類可理解的推薦理由。
- 新穎性:鼓勵(lì)系統(tǒng)推薦用戶未曾接觸或意料之外的物品。
- 多樣性:要求推薦列表在類別、屬性或語義內(nèi)容上覆蓋更廣。
- 安全性:安全性在高風(fēng)險(xiǎn)領(lǐng)域尤為重要。
- 無偏性:旨在緩解推薦系統(tǒng)中固有的系統(tǒng)性偏差。
數(shù)據(jù)集(Dataset)
當(dāng)前研究使用的數(shù)據(jù)集呈現(xiàn)「頭部集中、長尾分布」的特征:
- 傳統(tǒng)推薦數(shù)據(jù)集:如 Amazon Review、MovieLens 等,因其通用性和可復(fù)現(xiàn)性成為絕大多數(shù)研究的首選。
- 對(duì)話推薦數(shù)據(jù)集:如 ReDial、OpenDialKG 等,適用于對(duì)話式推薦任務(wù),強(qiáng)調(diào)多輪語言交互能力。
- 專用領(lǐng)域數(shù)據(jù)集:如 Foursquare(POI)、BOSS Zhipin(崗位推薦)、MIMIC/eICU(醫(yī)療)、COCO(課程推薦)等。
值得注意的是,工業(yè)級(jí)數(shù)據(jù)集(如 Taobao、KuaiRec)的使用比例正在上升,表明研究正從學(xué)術(shù)基準(zhǔn)向真實(shí)大規(guī)模系統(tǒng)遷移。
評(píng)估策略(Strategy)
- 離線評(píng)估(Offline):基于靜態(tài)歷史數(shù)據(jù)進(jìn)行訓(xùn)練和測(cè)試,成本低、可復(fù)現(xiàn),是目前最主流的方式。但受限于歷史策略帶來的各種偏差,難以真實(shí)反映系統(tǒng)在動(dòng)態(tài)環(huán)境中的表現(xiàn)。
- 在線評(píng)估(Online):通過 A/B 測(cè)試在真實(shí)用戶環(huán)境中驗(yàn)證系統(tǒng)效果,最真實(shí)有效,但成本高、風(fēng)險(xiǎn)大,多用于工業(yè)界部署驗(yàn)證。
- 仿真評(píng)估(Simulation):利用 LLM 構(gòu)建用戶模擬器,在可控環(huán)境中進(jìn)行策略訓(xùn)練與評(píng)估。低成本、可重復(fù)、支持長期交互,但可靠性高度依賴于仿真器的真實(shí)性。
指標(biāo)(Metric)
- 推薦導(dǎo)向指標(biāo)
- 輸出型指標(biāo):主要為準(zhǔn)確性指標(biāo),如 NDCG、HR 等排名指標(biāo);RMSE、MAE 等評(píng)分預(yù)測(cè)指標(biāo);AUC、Logloss 等 CTR 指標(biāo)。還包括多樣性(DivRatio、CV)、公平性(MGU、DGU)、新穎性(Serendipity)等方面的指標(biāo)。
- 過程型指標(biāo):如累計(jì)獎(jiǎng)勵(lì)(Reward)、平均交互輪次(Average Turn)等。
- 語言導(dǎo)向指標(biāo)
- 客觀指標(biāo):通過將生成的文本與參考文本或真實(shí)數(shù)據(jù)進(jìn)行對(duì)比,來定量評(píng)估其質(zhì)量,如 BLEU、ROUGE 等。
- 主觀指標(biāo):通過人工評(píng)分或「LLM 作為裁判」的方式,評(píng)估生成文本的信息量、說服力等維度。
![]()
3. 挑戰(zhàn)與未來方向
LLM-RL 協(xié)同推薦系統(tǒng)帶來了范式級(jí)的能力躍升,但也暴露出系統(tǒng)性風(fēng)險(xiǎn)與工程瓶頸。
- 算法去偏
- 協(xié)同推薦系統(tǒng)面臨「LLM 固有偏差」與「RL 累積偏差」的雙重壓力。
- 未來方向:從傳統(tǒng)的單一模塊去偏,轉(zhuǎn)向系統(tǒng)級(jí)治理。通過建立偏見溯源機(jī)制,阻斷偏差在推理與決策鏈條中的自我強(qiáng)化,確保推薦結(jié)果的公平性與多樣性。
- 隱私與安全
- LLM 在處理用戶歷史和意圖時(shí),強(qiáng)大的語義推理能力可能導(dǎo)致敏感屬性(如身份、偏好)被「無意中泄露」或「過度推斷」。
- 未來方向:實(shí)現(xiàn)「安全對(duì)齊」。通過隱私計(jì)算與強(qiáng)化學(xué)習(xí)的結(jié)合,讓系統(tǒng)在理解用戶的同時(shí),具備自動(dòng)過濾敏感信息的能力,構(gòu)建更可靠、更具防御性的智能體。
- 計(jì)算效率
- LLM 的巨量參數(shù)和 RL 的高頻交互之間存在天然的效率矛盾,導(dǎo)致「推理延遲高」、「訓(xùn)練成本大」。
- 未來方向:開發(fā)更輕量化的協(xié)同框架。例如采用參數(shù)高效微調(diào)(PEFT)、多智能體協(xié)作(將復(fù)雜任務(wù)拆解給多個(gè)小模型)以及優(yōu)化采樣策略,以降低計(jì)算開銷,實(shí)現(xiàn)真正可落地的實(shí)時(shí)推薦。
- 幻覺治理
- LLM 生成的「虛假反饋」或「邏輯不一致」的輸出會(huì)誤導(dǎo) RL 策略,導(dǎo)致推薦決策偏離軌道。
- 未來方向:引入「過程監(jiān)督」與「不確定性感知」。通過對(duì)思維鏈的中間步驟進(jìn)行事實(shí)核查,并賦予系統(tǒng)「自知之明」(識(shí)別自身知識(shí)邊界),在檢測(cè)到高幻覺風(fēng)險(xiǎn)時(shí)自動(dòng)回退至保守策略。
三、 結(jié)語
這篇深度綜述揭示了推薦系統(tǒng)從「自動(dòng)化」向「智能化」跨越的清晰路徑。在「雙動(dòng)力」時(shí)代,強(qiáng)化學(xué)習(xí)提供穩(wěn)定的決策框架,大模型注入更強(qiáng)的認(rèn)知能力。推薦系統(tǒng)正從效率工具走向智能伙伴,變得更加有溫度,也更加有深度。
本文作者來自中國科學(xué)技術(shù)大學(xué)、快手科技、中國人民大學(xué)、浙江大學(xué)、山東大學(xué)、香港科技大學(xué)。第一作者高夢(mèng)瑤,中國科學(xué)技術(shù)大學(xué) LDS 實(shí)驗(yàn)室研究生,研究方向?yàn)?LLM 推薦系統(tǒng);通訊作者高崇銘,中國科學(xué)技術(shù)大學(xué) LDS 實(shí)驗(yàn)室博士后研究員;通訊作者蔡慶芃,快手商業(yè)化算法部客戶機(jī)制中心負(fù)責(zé)人。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.