<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      OPeRA Dataset: 首次系統(tǒng)評估LLM的人類行為模擬能力

      0
      分享至



      近年來,大語言模型(LLM)正在快速從「語言生成器」走向「行動者」。在越來越多的 agent 系統(tǒng)中,模型已經(jīng)不僅僅是回答問題,而是開始執(zhí)行任務:它會搜索、瀏覽網(wǎng)頁、點擊商品、比較選項,甚至在過程中給出一段看似合理的解釋。很多時候,這些行為已經(jīng)足夠自然,以至于我們會產(chǎn)生一種直覺 —— 它們已經(jīng)「很像人」。

      但一個更關(guān)鍵的問題往往被忽略了:這些行為,真的接近人類嗎?

      換句話說,我們現(xiàn)在看到的,是一種「看起來合理」的行為;但它是否準確地反映了真實用戶在相同情境下的決策,其實仍然是一個未知數(shù)。



      為此,來自美國東北大學等機構(gòu)的研究者提出了OPeRA(Observation, Persona, Rationale, Action)數(shù)據(jù)集。該數(shù)據(jù)集采集真實用戶的 step-wise 在線購物行為,并首次支持對 LLM 在個體化行為預測任務中的能力進行系統(tǒng)評測。



      • 論文:https://arxiv.org/pdf/2506.05606
      • 數(shù)據(jù):https://huggingface.co/datasets/NEU-HAI/OPeRA

      Believable,并不等于 Accurate

      隨著越來越多工作嘗試使用 LLM 來模擬人類行為,模型已經(jīng)能夠生成連貫且情境合理的多步?jīng)Q策過程。在許多場景中,這些行為在直覺上已經(jīng)「足夠像人」。

      然而,現(xiàn)有研究大多停留在看起來「believable」的層面,但對于其與真實人類行為之間的偏差,仍缺乏系統(tǒng)性的量化分析。我們能夠判斷這些行為「看起來像」,卻難以回答它們「到底有多像」。

      這一問題的核心瓶頸并不在于建模能力,而在于評估基礎(chǔ)的缺失。過去的大多數(shù)數(shù)據(jù)主要記錄最終結(jié)果,例如用戶是否完成任務或購買商品,但這類結(jié)果導向的信號無法反映決策是如何逐步產(chǎn)生的。真實的人類行為本質(zhì)上是一個連續(xù)過程:用戶在具體情境中,基于自身背景、當前環(huán)境以及歷史交互,不斷做出條件化的選擇。如果缺少 step-wise 的行為軌跡,我們就無法判斷模型是否在關(guān)鍵節(jié)點上做出了符合人類的決策。

      與此同時,現(xiàn)有數(shù)據(jù)往往并非來自真實用戶,而是由標注者構(gòu)造或模型生成,這使得「像人」的行為缺乏真實分布作為參照。更進一步,即使具備完整的行為序列,如果缺少用戶身份(persona)以及決策動機(rationale),行為本身仍然是不可判定的:同一情境下,不同個體可能做出不同選擇;而相同的 action,也可能對應完全不同的決策原因。我們關(guān)心:在這個具體上下文中,這個具體的人,會不會這樣做?

      然而,由于缺乏同時包含行為過程、上下文信息、個體信息以及決策動機的高質(zhì)量數(shù)據(jù),這一問題長期以來難以被量化刻畫。

      OPeRA:讓「人類行為」第一次可以被評估

      基于上述思考,該工作提出了OPeRA(Observation, Persona, Rationale, Action)dataset,一個面向人類行為模擬的真實數(shù)據(jù)集及評測框架。OPeRA 選擇在線購物(online shopping)作為研究場景,一方面,這一場景天然包含豐富的多步交互與決策過程(如搜索、篩選、對比與購買),能夠充分體現(xiàn)人類行為的序列性與條件依賴;另一方面,其具有明確的目標驅(qū)動,同時又允許個體差異充分體現(xiàn)。

      OPeRA 采用了基于瀏覽器插件的真實用戶行為記錄方式。研究者邀請參與者在日常在線購物過程中使用定制插件,自動記錄其在網(wǎng)頁中的交互行為,包括點擊、搜索、頁面跳轉(zhuǎn)等操作,從而獲取完整的 step-wise 行為軌跡。同時,在關(guān)鍵決策節(jié)點,系統(tǒng)會以輕量化的彈窗方式提示用戶輸入當前操作的原因,以實時的形式收集對應的 rationale,避免事后回憶帶來的偏差。此外,研究者通過問卷與訪談收集用戶的 persona 信息,包括人口統(tǒng)計特征、購物習慣與偏好等。



      基于此,研究者從 51 名真實用戶中收集了近 700 個購物 session。每一個 session 都是一個帶時間戳的行為序列(time-stamped action sequence),用于刻畫用戶在連續(xù)交互過程中的逐步?jīng)Q策,累計記錄了 28904 條行為數(shù)據(jù)。在每一步用戶行為中,數(shù)據(jù)同時涵蓋了用戶的操作(action)和對應的頁面信息(observation),包括網(wǎng)頁內(nèi)容、關(guān)鍵元素以及截圖等;同時,還收集了用戶在當下做出該操作的原因(rationale)。此外,數(shù)據(jù)中還包含用戶的基本畫像(persona),如人口統(tǒng)計信息和購物偏好。通過將 persona、observation、rationale 和 action 統(tǒng)一在同一條行為序列中,OPeRA 提供了一個更完整的人類決策過程表示。



      基于 OPeRA 的人類行為模擬實驗


      為了研究 LLM 模擬人類行為的能力,作者基于 OPeRA 定義了一個「下一步行為預測」(Next Action Prediction)任務。具體來說,給定用戶在當前購物 session 中的歷史行為序列、對應的頁面信息(observation)、已有的決策理由(rationale),以及用戶畫像(persona),模型需要預測用戶在當前時刻的下一步操作。

      基于上述任務,研究者對一些主流 LLM 進行了系統(tǒng)評測:



      整體來看,當前模型在該任務上的表現(xiàn)仍然有限。以最優(yōu)的 GPT-4.1 為例,其下一步行為預測的準確率僅在20% 左右,而其他模型普遍低于這一水平。盡管在更粗粒度的指標(如 action type 分類)上,模型可以達到約 40%–50% 的 F1,但在更細粒度的 click type 或具體 action 預測上,性能明顯下降 。這表明,模型可以大致判斷「要做什么類型的操作」,但難以精確預測「具體會點哪里、做什么」。

      進一步分析發(fā)現(xiàn),不同輸入信息對模型表現(xiàn)的影響具有明顯差異。首先,persona 的引入對性能提升并不穩(wěn)定:雖然在 action type 等粗粒度任務上有所幫助,但對最終 action 預測準確率影響有限,甚至在部分情況下帶來噪聲。這說明當前模型尚無法有效利用 persona 信息進行細粒度決策建模。相比之下,rationale 對模型更為關(guān)鍵。移除歷史 rationale 后,大多數(shù)模型在多個指標上均出現(xiàn)明顯下降,尤其是在 session outcome 等高層決策任務上。這表明,rationale 作為中間決策信號,可以幫助模型更好地理解用戶意圖并進行推理。



      從錯誤類型來看,模型的主要失敗模式高度集中。超過 60% 的錯誤來自「點擊了錯誤的按鈕」,是最主要的錯誤來源 。這說明模型雖然能夠判斷「需要點擊」,但難以準確定位具體交互目標。此外,模型在 input 和 terminate 行為上也存在明顯問題。一方面,模型經(jīng)常無法正確生成搜索輸入(例如生成錯誤輸入信息,或選擇錯誤輸入框);另一方面,對于「終止行為」(terminate),模型普遍預測不足。盡管真實用戶在部分情況下會放棄購物,但模型往往傾向于繼續(xù)操作。這些現(xiàn)象揭示了一個重要偏差:當前 LLM 更傾向于「完成任務」,而不是「模擬真實人類」。


      結(jié)語和未來展望


      本文提出了 OPeRA 數(shù)據(jù)集,一個面向人類行為模擬的在線購物行為數(shù)據(jù)集。通過記錄完整的購物軌跡,包括用戶的操作序列、頁面環(huán)境、個體畫像以及顯式的決策理由,OPeRA 為個體化的人類行為建模提供了一個可驗證、可分析的數(shù)據(jù)基礎(chǔ)。在此基礎(chǔ)上,作者構(gòu)建了一系列評測任務,并對多種主流 LLM 進行了系統(tǒng)評估。實驗結(jié)果表明,當前模型在復雜決策過程建模以及個體化行為刻畫方面仍存在明顯不足。總體來看,OPeRA 不僅提供了一個更貼近真實場景的數(shù)據(jù)集,也揭示了當前 LLM 在人類行為模擬中的能力邊界。與此同時,近期一系列工作從不同角度探索了改進方向:例如 Shop-R1 通過強化學習對「rationale–action」進行分階段建模與分層獎勵優(yōu)化,See-Think-Act 框架引入多模態(tài)感知以統(tǒng)一「感知–推理–行動」流程,Customer-R1 強調(diào)個體化用戶建模與行為對齊,而 Yuxuan 等人的研究則進一步凸顯高質(zhì)量行為數(shù)據(jù)與中間推理信號在提升模擬真實性中的關(guān)鍵作用。這些工作共同表明,結(jié)合強化學習、多模態(tài)信息與個體建模,是推動人類行為模擬能力提升的重要路徑。未來,如何更好地建模長程決策過程、利用個體信息進行個性化推理,仍是值得進一步探索的重要方向。

      作者介紹

      本文由美國東北大學 Human-Centered AI Lab 團隊聯(lián)合南加州大學、石溪大學、俄亥俄州立大學、圣母大學及哥倫比亞大學等多家機構(gòu)研究者合作完成。其中論文一作王子奕為東北大學計算機科學專業(yè)二年級博士生,師從王大闊副教授。本科及碩士畢業(yè)于清華大學。其研究方向主要聚焦于大語言模型(LLM)Agent,圍繞 LLM 對人類行為的建模能力,以及 tool-calling agent 的數(shù)據(jù)構(gòu)建與訓練展開研究,致力于提升 Agent 在復雜真實場景中的行為一致性與決策能力。歡迎相關(guān)方向研究者交流探討。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      湖人3-0奪賽點!詹姆斯砍29+13連創(chuàng)歷史第一:轟絕平三分救主太狠

      湖人3-0奪賽點!詹姆斯砍29+13連創(chuàng)歷史第一:轟絕平三分救主太狠

      追球者
      2026-04-25 11:06:45
      美國媒體:中國開始彎道超車,不攻克光刻機也能解決芯片難題?

      美國媒體:中國開始彎道超車,不攻克光刻機也能解決芯片難題?

      黑翼天使
      2026-04-25 05:04:48
      《古墓麗影》勞拉新形象被力挺!玩家直呼更順眼

      《古墓麗影》勞拉新形象被力挺!玩家直呼更順眼

      游民星空
      2026-04-25 11:28:21
      清朝一個很特殊的官職,叫“道臺”,幾乎沒人能說清他是干啥的

      清朝一個很特殊的官職,叫“道臺”,幾乎沒人能說清他是干啥的

      抽象派大師
      2026-04-24 12:23:42
      韓媒:下賽季英超大概率沒韓國球員;韓國足球在走下坡路

      韓媒:下賽季英超大概率沒韓國球員;韓國足球在走下坡路

      懂球帝
      2026-04-25 12:07:11
      賀希寧再封神!深圳鎖定第3!徐昕一言難盡,廣州輸球仍進季后賽

      賀希寧再封神!深圳鎖定第3!徐昕一言難盡,廣州輸球仍進季后賽

      后仰大風車
      2026-04-24 21:34:27
      39歲前國腳現(xiàn)狀:定居美國踢野球,早已財富自由,有2個可愛女兒

      39歲前國腳現(xiàn)狀:定居美國踢野球,早已財富自由,有2個可愛女兒

      攬星河的筆記
      2026-04-14 15:18:30
      死亡高峰還沒來!中國人口真正的挑戰(zhàn):不是少生而是大批量離世

      死亡高峰還沒來!中國人口真正的挑戰(zhàn):不是少生而是大批量離世

      生活新鮮市
      2026-04-24 17:03:41
      張萌穿成這樣去海邊還讓不讓人玩了?

      張萌穿成這樣去海邊還讓不讓人玩了?

      時間巡查
      2026-04-23 15:30:25
      油車換電車1年真實感受:普通人別跟風!買車前沒人告訴你的真相

      油車換電車1年真實感受:普通人別跟風!買車前沒人告訴你的真相

      華庭講美食
      2026-03-28 17:08:13
      1990年馬紹信飾演林彪亮相后,上邊發(fā)話“林彪”要換人,這是為何

      1990年馬紹信飾演林彪亮相后,上邊發(fā)話“林彪”要換人,這是為何

      翠羽
      2026-04-25 08:50:14
      阿努廷很謙虛,他為王外長開車門并駕車去餐廳,西哈薩后排陪同

      阿努廷很謙虛,他為王外長開車門并駕車去餐廳,西哈薩后排陪同

      羽逸地之光
      2026-04-24 21:32:03
      第1次!詹姆斯布朗尼空接連線!連得11分!4-0橫掃火箭,天王老子來了也一樣!

      第1次!詹姆斯布朗尼空接連線!連得11分!4-0橫掃火箭,天王老子來了也一樣!

      貴圈真亂
      2026-04-25 11:15:13
      島內(nèi)最新民調(diào)出爐!賴清德總算反應過來,鄭麗文訪陸讓統(tǒng)一不遠了

      島內(nèi)最新民調(diào)出爐!賴清德總算反應過來,鄭麗文訪陸讓統(tǒng)一不遠了

      野史日記
      2026-04-24 10:10:09
      停水通知!提前做好儲水準備

      停水通知!提前做好儲水準備

      大連開放前沿
      2026-04-25 08:36:44
      上海一對夫妻冷戰(zhàn)二十年誰料:妻子突然去世丈夫整理衣物才知真相

      上海一對夫妻冷戰(zhàn)二十年誰料:妻子突然去世丈夫整理衣物才知真相

      金哥說新能源車
      2026-04-25 07:56:20
      52歲樸樹近況:無兒無女,沒錢沒房,成了要錢不要命的“瘋子”

      52歲樸樹近況:無兒無女,沒錢沒房,成了要錢不要命的“瘋子”

      流云隨風去遠方
      2026-04-14 12:22:59
      34歲男星喜得女!妻子試管成功保胎三月,28周早產(chǎn)

      34歲男星喜得女!妻子試管成功保胎三月,28周早產(chǎn)

      日落于西
      2026-04-24 23:44:26
      張?zhí)鞇厶竽懥舜┻@么敢去沙灘玩

      張?zhí)鞇厶竽懥舜┻@么敢去沙灘玩

      阿廢冷眼觀察所
      2026-04-14 12:42:56
      李亞鵬復婚登上熱搜,前妻海哈金喜回應:我們都是夏夏的父母,不會不聯(lián)系和尷尬,我們都很好,謝謝大家關(guān)心

      李亞鵬復婚登上熱搜,前妻海哈金喜回應:我們都是夏夏的父母,不會不聯(lián)系和尷尬,我們都很好,謝謝大家關(guān)心

      臺州交通廣播
      2026-04-24 19:02:38
      2026-04-25 13:40:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12852文章數(shù) 142636關(guān)注度
      往期回顧 全部

      科技要聞

      DeepSeek V4發(fā)布!黃仁勛預言的"災難"降臨

      頭條要聞

      美能源出口創(chuàng)新高 二戰(zhàn)以來首次接近成為原油凈出口國

      頭條要聞

      美能源出口創(chuàng)新高 二戰(zhàn)以來首次接近成為原油凈出口國

      體育要聞

      火箭0-3觸發(fā)百分百出局定律:本季加時賽9戰(zhàn)8敗

      娛樂要聞

      鄧超最大的幸運,就是遇見孫儷

      財經(jīng)要聞

      90%訂單消失,中東旺季沒了

      汽車要聞

      2026款樂道L90亮相北京車展 樂道L80正式官宣

      態(tài)度原創(chuàng)

      本地
      教育
      游戲
      旅游
      數(shù)碼

      本地新聞

      云游中國|逛世界風箏都 留學生探秘中國傳統(tǒng)文化

      教育要聞

      小學教師中碩博士越來越多,超5900名擁有博士學歷

      任天堂提醒您:吃灰的Switch別忘記充電

      旅游要聞

      疊石尋真愛 花谷遇良緣 2026酉陽疊石花谷首屆愛情旅游季即將啟幕

      數(shù)碼要聞

      華為WATCH Buds 2開售 手表耳機二合一 3488元起

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 久久精品中文字幕无码绿巨人| 江孜县| 亚洲综合国产| 久久99国内精品自在现线| 好吊妞这里有精品| 国产主播在线观看| 国产精品一区二区AV不卡| 顶级欧美熟妇高潮xxxxx| 中文字幕天天色色干干| 亚洲欧洲美洲无码精品va| 日本熟妇色xxxxx欧美老妇| 亚洲成a人片77777kkkk| 成年无码av片在线蜜芽| 午夜精品变态另类AV| 91久久精品视频| 天天摸夜夜摸夜夜狠狠添| 亚洲精品中文字幕一区二区三区| 久久久久无码专区亚洲av| 九区视频免费观看| 无码国产精品一区二区免费式影视| AV在线影院| 亚洲色欲网| A片黄色| jizzjizzjizzjizz| 99亚洲精品| jizz国产免费观看| 亚洲大尺度无码无码专线| 性欧美激情AA片在线播放| 亚洲欧美在线综合一区二区三区| 国产成人一区免费观看| 夜夜欢天天干| 富民县| 国产成人高清亚洲综合| heyzo一区二区三区| 日本免费一区二区三区高清视频| 国产区成人精品视频| 亚洲女人天堂| 天天做天天爱夜夜爽导航| 99精品福利视频| 国产精品无码v在线观看| 大地资源在线观看官网第三页|