![]()
“知人者智,自知者明。”——《道德經(jīng)》
古人早已洞見:真正的人類智慧,不僅僅在于公式推演、掌握技藝,更是能理解他人、洞察人心。今天的大語(yǔ)言模型已能在代碼、數(shù)學(xué)與工具使用上出色地完成任務(wù),然而距離成為真正的用戶伙伴,它們依舊缺少那份 “知人” 的能力。這主要源于現(xiàn)實(shí)交互遠(yuǎn)比解題更加復(fù)雜:
- 現(xiàn)實(shí)交互中,用戶目標(biāo)常常未在最初完全成形(underspecification)、而是在多輪對(duì)話中逐步顯露(incrementality)、并且以含蓄 / 間接的方式表達(dá)(indirectness)。
- 在這種不確定、動(dòng)態(tài)、多目標(biāo)的語(yǔ)境里,模型不止要會(huì)解決用戶需求,更要主動(dòng)澄清(clarification)、持續(xù)適配(adaptation)、善用工具(tool-use)并做出明智的權(quán)衡(decision-making)。
這正是智能體面臨的下一個(gè)時(shí)代課題:從 “會(huì)解題” 邁向 “懂用戶”。而要真正回答這一課題,我們需要全新的動(dòng)態(tài)評(píng)測(cè)框架與訓(xùn)練機(jī)制:不僅能測(cè)量模型在交互中的表現(xiàn),還能驅(qū)動(dòng)其學(xué)會(huì)在用戶不確定與多目標(biāo)的世界里,問之有道,斷之有衡,答之有據(jù)。為此,來(lái)自 UIUC 與 Salesforce 的研究團(tuán)隊(duì)提出了一套系統(tǒng)化方案:
- UserBench—— 首次將 “用戶特性” 制度化,構(gòu)建交互評(píng)測(cè)環(huán)境,用于專門檢驗(yàn)大模型是否真正 “懂人”;
- UserRL—— 在 UserBench 及其他標(biāo)準(zhǔn)化 Gym 環(huán)境之上,搭建統(tǒng)一的用戶交互強(qiáng)化學(xué)習(xí)框架,并系統(tǒng)探索以用戶為驅(qū)動(dòng)的獎(jiǎng)勵(lì)建模。
二者相輔相成,把 “以用戶為中心” 從理念落地為可復(fù)現(xiàn)的流程、接口與評(píng)測(cè)指標(biāo)。
![]()
- UserBench 論文鏈接:https://arxiv.org/pdf/2507.22034
- UserBench 代碼倉(cāng)庫(kù):https://github.com/SalesforceAIResearch/UserBench
![]()
- UserRL 論文鏈接:https://arxiv.org/pdf/2509.19736
- UserRL 代碼倉(cāng)庫(kù):https://github.com/SalesforceAIResearch/UserRL
UserBench
先把 “用戶價(jià)值” 量化,才能倒逼智能體進(jìn)化
核心思想
UserBench 的核心出發(fā)點(diǎn)是:真正的智能體價(jià)值不在于完成任務(wù)本身,而在于是否能夠理解用戶、服務(wù)用戶。不同于傳統(tǒng)評(píng)測(cè)大多進(jìn)行的 “做題比賽”,其通過刻畫三類 “用戶特征”,并將它們嵌入到可復(fù)現(xiàn)的環(huán)境與標(biāo)準(zhǔn)化接口之中,從而把 “用戶價(jià)值” 從抽象理念轉(zhuǎn)化為可量化的研究對(duì)象。
1. 設(shè)計(jì)原則
長(zhǎng)期以來(lái),智能體的評(píng)測(cè)大多集中在工具調(diào)用與任務(wù)完成,但卻鮮少觸及一個(gè)更根本的問題:模型是否真正對(duì)齊了用戶的潛在與動(dòng)態(tài)意圖。
UserBench 的設(shè)計(jì)正是為了解決這一缺口。它把 “用戶真實(shí)交互三大特征” 作為評(píng)測(cè)核心:
- 模糊性(underspecification):用戶目標(biāo)往往并未完整表達(dá);
- 漸進(jìn)性(incrementality):意圖需要在對(duì)話中逐步顯露;
- 間接性(indirectness):用戶偏好常常通過隱含線索體現(xiàn)。
在這樣的環(huán)境里,模型不再是 “照題答題”,而是必須主動(dòng)追問、澄清約束,并在復(fù)雜條件下做出連貫而明智的決策。
![]()
UserBench 設(shè)計(jì)與交互流程示意圖
2. 環(huán)境與數(shù)據(jù)構(gòu)造
UserBench 的標(biāo)志性設(shè)計(jì)是旅行規(guī)劃任務(wù),覆蓋五個(gè)子場(chǎng)景。每個(gè)維度都設(shè)置了數(shù)十條隱式偏好表述,如 “行程很緊” 暗含 “直飛 / 少中轉(zhuǎn)”,要求模型在與環(huán)境中的模擬用戶進(jìn)行交互時(shí),需要理解用戶每一句話背后的語(yǔ)義邏輯。同時(shí),環(huán)境中內(nèi)置了穩(wěn)定數(shù)據(jù)庫(kù)后段,并且搜索返回采用了混合式選項(xiàng)進(jìn)一步增加了模型認(rèn)知難度:
- 正確項(xiàng):完全滿足全部偏好;
- 錯(cuò)誤項(xiàng):違背至少一條偏好;
- 噪聲項(xiàng):與需求不符或信息缺失。
這使得模型必須學(xué)會(huì)過濾噪聲、權(quán)衡約束,而非直接機(jī)械化地比對(duì)。UserBench 同時(shí)也進(jìn)行了數(shù)據(jù)難度分層,根據(jù)用戶偏好的復(fù)雜程度涵蓋了 Easy/Medium/Hard 三檔,這種設(shè)計(jì)讓其既保有真實(shí)性(場(chǎng)景、語(yǔ)言與需求均來(lái)自真實(shí)語(yǔ)料指導(dǎo)下的 LLM 用戶模擬),又具備實(shí)驗(yàn)可控性。
3. 以工具為界面:標(biāo)準(zhǔn)化交互接口
以往針對(duì)模型,用戶以及環(huán)境的三方交互接口復(fù)雜。而在文章中,這種復(fù)雜交互被抽象為了三類原語(yǔ)操作:
- Action:與用戶對(duì)話(澄清、追問、確認(rèn)偏好);
- Search:檢索數(shù)據(jù)庫(kù)(返回混合候選集,模擬真實(shí)世界的不完美檢索);
- Answer:提交推薦(直接完成用戶需求)。
這三類操作高度濃縮了 “理解 — 檢索 — 決策” 的鏈路,使不同任務(wù)可以在同一坐標(biāo)系下被評(píng)估與比較。在 UserRL 訓(xùn)練框架中,這個(gè)標(biāo)準(zhǔn)化接口被保留并得以進(jìn)一步拓展,使模型訓(xùn)練也變得可以自由定制化和拓展。
![]()
UserBench 上不同模型主要評(píng)測(cè)結(jié)果以及分析指標(biāo)
4. 評(píng)價(jià)指標(biāo)與關(guān)鍵發(fā)現(xiàn)
UserBench 的評(píng)分體系兼顧結(jié)果與過程:
- 核心指標(biāo):歸一化得分。對(duì)于每一項(xiàng)旅行需求,在數(shù)據(jù)庫(kù)中選到最優(yōu)解記 1.0;選到正確但次優(yōu)解記 0.8;其余記 0。在一個(gè)問題中用戶需求可能會(huì)涵蓋多個(gè)場(chǎng)景(例如交通和酒店住宿),需要被測(cè)試模型深入挖掘,理解偏好,再進(jìn)行判斷和抉擇。
- 除此之外,文章還提出了若干過程指標(biāo)以進(jìn)行綜合分析:
- Valid Search / Action Attempt:搜索與用戶對(duì)話操作的有效率;
- Preference Elicited:偏好在用戶交互是否被主動(dòng) / 被動(dòng)引出。
主要結(jié)論:模型并非輸在 “不會(huì)算”,而是常常沒能問對(duì)問題、沒能挖出關(guān)鍵信息。換言之,真正的挑戰(zhàn)不是推理鏈,而是智能體與人的交互中進(jìn)行有效的 “用戶價(jià)值” 提煉與捕捉。
關(guān)鍵發(fā)現(xiàn)
- 單選比多選難很多:對(duì)于每一項(xiàng)旅行需求,如果把模型可回答的次數(shù)限制為一次,平均分?jǐn)?shù)下滑約 40%,暴露了 “只能給一次答案” 時(shí)的抉擇困難
- 用戶偏好揭示率普遍偏低:主流模型僅~20% 的答案完全貼合全部用戶意圖,即便是強(qiáng)模型,通過主動(dòng)互動(dòng)挖掘到的偏好不到 30%,顯示了當(dāng)下模型 “主動(dòng)問對(duì)問題” 能力仍然欠缺。
- 會(huì)用工具 ≠ 真懂用戶:模型普遍有效搜索 > 80%,但有效對(duì)話顯著更低,說明 “循證澄清” 的難度更高。
- 難點(diǎn)在 “單一維度的偏好多而復(fù)雜”:當(dāng)總偏好數(shù)固定時(shí),把偏好更平均地分散到多個(gè)旅行需求中更容易,而集中在少數(shù)需求上會(huì)顯著拉低分?jǐn)?shù),這揭示了本質(zhì)挑戰(zhàn)來(lái)自局部約束的組合復(fù)雜度
- 更多對(duì)話輪數(shù)≠更好表現(xiàn):盲目拉長(zhǎng)交互輪數(shù)并不能帶來(lái)收益;同時(shí),命中答案的 “時(shí)效性”(更早給出有效答案)與整體模型對(duì)話質(zhì)量也并不總是正相關(guān):小模型 “早早猜中” 整體也不如大模型的 “穩(wěn)扎穩(wěn)打”。
![]()
盲目增加交互輪數(shù)并不能增強(qiáng)交互質(zhì)量
UserRL
把 “能測(cè)試” 擴(kuò)展為 “會(huì)訓(xùn)練”
核心思想
UserRL 的出發(fā)點(diǎn)相比更加直接:在 UserBench 抽象出的三個(gè)原語(yǔ)接口之上,構(gòu)建一個(gè)統(tǒng)一的 gym 環(huán)境,把 User-in-th-Loop 的多輪交互轉(zhuǎn)化為一個(gè)可訓(xùn)練的強(qiáng)化學(xué)習(xí)問題。這意味著,智能體不再只是完成一次問答,而是要在一個(gè)有明確定義的交互環(huán)境中,通過多輪對(duì)話和工具調(diào)用來(lái)優(yōu)化回報(bào)。
![]()
UserRL 中進(jìn)行訓(xùn)練的八個(gè)用戶中心場(chǎng)景設(shè)計(jì)
1. 八大 Gym Environments:能力光譜的全覆蓋
UserRL 對(duì)接了八類環(huán)境,覆蓋從個(gè)性化推薦到復(fù)雜推理的多維能力:
- TravelGym:側(cè)重個(gè)性化偏好挖掘與多目標(biāo)權(quán)衡;
- TauGym:強(qiáng)調(diào)工具編排與用戶任務(wù)實(shí)現(xiàn);
- PersuadeGym:模擬論證與說服場(chǎng)景,關(guān)注對(duì)抗式對(duì)話能力;
- TurtleGym:創(chuàng)造性推理環(huán)境(“海龜湯” 游戲);
- TelepathyGym:意圖猜測(cè)與假設(shè)檢驗(yàn);
- FunctionGym:數(shù)理模式識(shí)別與規(guī)律發(fā)現(xiàn);
- IntentionGym:針對(duì)真實(shí)場(chǎng)景的意圖澄清;
- SearchGym:外部知識(shí)檢索與基于檢索的問答。
所有環(huán)境都統(tǒng)一在Action / Search / Answer的接口下,但考察指標(biāo)有所差異。這種統(tǒng)一接口 + 多元任務(wù)的設(shè)計(jì),使得 UserRL 既能橫向比較不同方法,又能縱向推動(dòng)能力遷移。
![]()
UserRL 完整訓(xùn)練框架示意圖
2. 用戶模擬與多輪 Rollout
在每個(gè)環(huán)境中,用戶同樣由 LLM 進(jìn)行模擬,并且可以更換不同用戶模擬模型,以實(shí)現(xiàn)交互的多樣性。UserRL 框架的核心特點(diǎn)包括:
- 確定性任務(wù)狀態(tài) + 可驗(yàn)證獎(jiǎng)勵(lì)函數(shù)
- 自然語(yǔ)言互動(dòng),保留了動(dòng)態(tài)模擬用戶對(duì)話的開放性;
- 多輪 rollout,讓模型在交中做出策略性的交互選擇。
3. 獎(jiǎng)勵(lì)建模:讓過程價(jià)值變成可學(xué)信號(hào)
在 UserRL 中,我們重點(diǎn)探索了雙層獎(jiǎng)勵(lì)設(shè)計(jì):回合層(Turn-level)以及軌跡層(Trajectory-level)。在回合層中,我們重新映射 Gym 環(huán)境在每一輪中反饋的獎(jiǎng)勵(lì)信號(hào),探索了多種方法以區(qū)分不同層的重要性:
- Naive:直接用環(huán)境獎(jiǎng)勵(lì),但往往非常稀疏,在實(shí)際環(huán)境中并不適合訓(xùn)練。
- Equalized:為所有回合賦予同樣的獎(jiǎng)勵(lì),確保所有鋪墊性動(dòng)作不被忽視。
- Reward-to-Go (R2G):把未來(lái)的預(yù)期獎(jiǎng)勵(lì)收益折扣回流,以體現(xiàn)當(dāng)前輪次對(duì)于未來(lái)獎(jiǎng)勵(lì)的價(jià)值。
![]()
- Exponential Mapping (EM):對(duì)原始獎(jiǎng)勵(lì)做非線性映射,讓某些小進(jìn)展也能帶來(lái)正反饋獎(jiǎng)勵(lì)信號(hào)。
![]()
在軌跡層中,我們將每一輪的獎(jiǎng)勵(lì)反饋整合成與用戶多輪交互的總體得分,以便于后續(xù)適配 GRPO 等下游各種 RL 算法,其中我們主要探索了兩種整合方式:
- Sum:直接累積每回合的獎(jiǎng)勵(lì),以衡量整體任務(wù)完成度。
- R2G:對(duì)早期進(jìn)展賦予更高價(jià)值,更強(qiáng)調(diào)任務(wù)完成效率。
![]()
在實(shí)際訓(xùn)練中這兩層獎(jiǎng)勵(lì)可以靈活組合以適配不同交互任務(wù)。
![]()
UserRL 訓(xùn)練主要試驗(yàn)結(jié)果
4. 評(píng)價(jià)指標(biāo)與關(guān)鍵發(fā)現(xiàn)
文章主要采用了GRPO算法進(jìn)行優(yōu)化:在同一 query 下采樣多條軌跡,組內(nèi)歸一化優(yōu)勢(shì),再結(jié)合回合與軌跡獎(jiǎng)勵(lì)進(jìn)行聯(lián)合優(yōu)化。同時(shí),在 RL 訓(xùn)練之前,模型預(yù)先進(jìn)行了 SFT 小規(guī)模優(yōu)化,實(shí)驗(yàn)發(fā)現(xiàn) SFT 冷啟動(dòng)能夠有效幫助后續(xù) RL 訓(xùn)練。
UserRL 用其中的五個(gè) Gym 的訓(xùn)練集數(shù)據(jù)進(jìn)行訓(xùn)練,另外三個(gè) Gym 則作為 OOD 環(huán)境進(jìn)行測(cè)試。所有主實(shí)驗(yàn)均采用 Qwen3-32B 作為用戶模擬。不同任務(wù)的測(cè)試指標(biāo)不盡相同,但是都是以準(zhǔn)確度作為衡量基礎(chǔ)。
主要結(jié)論:模型的提升并非來(lái)自更復(fù)雜的算力堆疊,而是得益于對(duì)過程價(jià)值的刻畫與利用。換言之,真正的突破點(diǎn)不在于 “終局答案對(duì)不對(duì)”,而在于能否在多輪交互中持續(xù)累積小進(jìn)展、盡早對(duì)齊用戶意圖,并把這種過程性價(jià)值轉(zhuǎn)化為學(xué)習(xí)信號(hào)。
關(guān)鍵總結(jié)果
- 回合均等 + 軌跡 Reward-to-Go 在 4B/8B 模型上最穩(wěn)健、平均最好;反觀回合均等 + 軌跡 Sum最弱,說明軌跡級(jí)計(jì)分比回合級(jí)細(xì)分更具有決定性價(jià)值。
- 經(jīng)過 UserRL 訓(xùn)練的 Qwen3 在 TravelGym、PersuadeGym、IntentionGym 等交互型任務(wù)上超過強(qiáng)閉源模型;跨 8 個(gè) gym 的平均也領(lǐng)先閉源對(duì)照,體現(xiàn)出 “針對(duì)用戶交互的 RL 訓(xùn)練” 能實(shí)打?qū)嵦嵘芰Α?/li>
- SFT 冷啟動(dòng)是必要條件:先做 SFT 再 RL,能顯著避免早期坍塌,部分任務(wù)收益超 100%。
- 用戶模擬器選擇很關(guān)鍵:用 GPT-4o 做模擬用戶訓(xùn)練的模型下游更強(qiáng);但 Qwen3-32B 作為開源模擬器具備性價(jià)比高且可遷移的優(yōu)勢(shì)。
![]()
![]()
SFT 冷啟動(dòng)(左側(cè)對(duì)照)與 GPT-4o 作為模擬用戶(右側(cè)對(duì)照)均能帶來(lái)更好的 RL 效果
結(jié)語(yǔ):從 “完成任務(wù)” 到 “成就用戶”
UserBench 提供了一面 “明鏡”,讓我們得以量化模型是否真正理解用戶;UserRL 則把這面鏡子變成 “磨刀石”,推動(dòng)模型在交互中不斷迭代,學(xué)會(huì)在模糊與多目標(biāo)之間提煉價(jià)值。
《論語(yǔ)》有云:“君子和而不同。” 未來(lái)的通用智能體,也應(yīng)當(dāng)在理解用戶多元價(jià)值的同時(shí),學(xué)會(huì)和而不同:既能尊重偏好,又能提供建設(shè)性選擇;既能滿足需求,又能引導(dǎo)更優(yōu)解。這,才是通向真正通用智能的必要一課。
所有環(huán)境、數(shù)據(jù)以及訓(xùn)練框架已開源,歡迎研究人員探索。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.