![]()
在大模型驅(qū)動(dòng)的 Agentic Search 日益常態(tài)化的背景下,真實(shí)環(huán)境中智能體 “如何發(fā)查詢、如何改寫、是否真正用上檢索信息” 一直缺乏系統(tǒng)刻畫與分析。
CMU 團(tuán)隊(duì)基于可重復(fù)檢索平臺(tái) DeepResearchGym,從統(tǒng)一后端的半年真實(shí)流量中整理出 1400 萬余條搜索請(qǐng)求、約 400 萬個(gè)會(huì)話,在嚴(yán)格匿名化與清洗后,構(gòu)建并于 Hugging Face 開源了首個(gè) Agentic Search 行為日志數(shù)據(jù)集。
在此基礎(chǔ)上,工作提出 “會(huì)話意圖(Declarative / Procedural / Reasoning)→軌跡動(dòng)作(專化 / 泛化 / 探索 / 重復(fù))→檢索信息采納率(CTAR)” 三層分析框架,利用 LLM 進(jìn)行會(huì)話切分與標(biāo)簽推斷,刻畫出智能體搜索中普遍存在的下鉆偏好、事實(shí)型任務(wù)中的重試循環(huán),以及不同改寫模式對(duì)歷史檢索信息依賴程度的顯著差異。
總體而言,該研究既為觀察與評(píng)估 Agentic Search 行為提供了首個(gè)大規(guī)模開源日志,也為后續(xù)在智能體訓(xùn)練與系統(tǒng)設(shè)計(jì)中顯式建模 “會(huì)不會(huì)搜” 提供了可復(fù)現(xiàn)的數(shù)據(jù)基礎(chǔ)與可量化的行為信號(hào)。
![]()
- 論文標(biāo)題:Agentic Search in the Wild: Intents and Trajectory Dynamics from 14M+ Real Search Requests
- 論文鏈接:https://arxiv.org/abs/2601.17617
![]()
- Hugging Face 開源數(shù)據(jù)集:DeepResearchGym Agentic Search Logs
- 數(shù)據(jù)集鏈接:https://huggingface.co/datasets/cx-cmu/deepresearchgym-agentic-search-logs
01 從任務(wù)到行為:Agentic Search 的缺失一環(huán)
近年來,大型語言模型驅(qū)動(dòng)的 Agentic Search 與 Deep Research 逐漸成為信息獲取的重要形態(tài),即系統(tǒng)不再只返回一頁文件結(jié)果,而是通過智能體自動(dòng)發(fā)起多輪檢索、閱讀文檔、改寫問題,再生成綜合回答。
與之相對(duì)應(yīng),已有研究提出了多種基準(zhǔn)任務(wù)和評(píng)測(cè)框架,用于衡量系統(tǒng)在問答、推理、工具調(diào)用等方面的性能。然而,這些評(píng)測(cè)大多基于構(gòu)造好的題目和離散樣本,缺乏對(duì)真實(shí)環(huán)境中智能體檢索行為的系統(tǒng)觀察與結(jié)構(gòu)化分析:
- 多輪會(huì)話在實(shí)際使用中如何展開;
- 不同任務(wù)類型下,智能體采用哪些檢索策略;
- 在多步改寫過程中,檢索證據(jù)信息在多大程度上真正影響了后續(xù)查詢。
這篇 Agentic Search in the Wild: Intents and Trajectory Dynamics from 14M+ Real Search Requests 論文針對(duì)上述缺口,基于 DeepResearchGym(DRGym)平臺(tái)提出了兩方面貢獻(xiàn):
1. 從半年真實(shí)流量中整理出超過 1400 萬條 Agentic Search 請(qǐng)求、約 400 萬個(gè)搜索會(huì)話,在嚴(yán)格匿名化與清洗之后,發(fā)布為首個(gè)開源的 Agentic Search 行為日志數(shù)據(jù)集。
2. 在此基礎(chǔ)上,從任務(wù)意圖(intent)與檢索軌跡(trajectory)兩個(gè)維度,系統(tǒng)分析智能體的搜索過程,并提出一個(gè)衡量 “是否利用檢索到信息” 的指標(biāo) CTAR(Context-driven Term Adoption Rate)。
![]()
02 數(shù)據(jù)與平臺(tái):DRGym 日志概況
DRGym 是該團(tuán)隊(duì)搭建的一個(gè)面向研究用途的可重復(fù)檢索平臺(tái)(https://www.deepresearchgym.ai/),對(duì)外提供統(tǒng)一的 /search API,后端基于密集檢索,掛載在固定的 Web 語料快照上,例如 ClueWeb22、FineWeb 等。不同智能體可以以任意策略調(diào)用該接口,但所有請(qǐng)求都運(yùn)行在統(tǒng)一的檢索基礎(chǔ)設(shè)施之上。
日志中的每條記錄包含如下信息:
- 查詢文本 query_text;
- 檢索文檔數(shù)量 num_of_docs(即 top-K);
- 所用數(shù)據(jù)集 dataset(如 ClueWeb22 / FineWeb);
- 檢索預(yù)算相關(guān)參數(shù) complexity;
- 時(shí)間戳、匿名化 IP 等會(huì)話識(shí)別字段。
論文選取約半年時(shí)間窗口,得到來自橫跨 25 個(gè)國(guó)家,近 600 個(gè) IP 地址,超過 1400 萬條請(qǐng)求日志,約 400 萬個(gè)會(huì)話(session)。
這為驗(yàn)證日志是否具有廣泛多元使用的多樣性,而非某些基準(zhǔn)題目的重復(fù)回放訓(xùn)練,作者從兩方面進(jìn)行了檢查:
- 使用文本向量表示(embedding)分析查詢語義分布,結(jié)果顯示查詢覆蓋的語義空間較為分散;
- 將日志中的查詢與若干常用 Agentic Benchmark 的題目進(jìn)行語義匹配,重合比例極低。
![]()
![]()
隱私方面,日志經(jīng)過了字段裁剪與匿名化處理:去除直接可識(shí)別信息,對(duì)自由文本進(jìn)行 PII 清理,并重新生成會(huì)話級(jí)別的匿名 ID,最終在 Hugging Face 上公開。
03 從請(qǐng)求到會(huì)話:Session 切分方法
原始日志是時(shí)間順序的請(qǐng)求流,要分析行為模式,需要先劃分搜索會(huì)話。與傳統(tǒng)人類 Web 日志不同,智能體請(qǐng)求往往高頻且可并發(fā),僅依賴固定時(shí)間閾值(例如 “間隔超過 30 分鐘”)容易誤分。
該工作采用了語義 + 時(shí)間聯(lián)合的 Sessionization 策略:
1. 首先,基于一批相鄰請(qǐng)求樣本,通過 LLM 標(biāo)注 “是否屬于同一會(huì)話”,構(gòu)建連續(xù)性標(biāo)簽;
2. 其次,使用查詢的向量表示訓(xùn)練一個(gè)連續(xù)性判別模型,預(yù)測(cè)兩條查詢之間是否應(yīng)歸為同一 session;
3. 在線劃分時(shí),對(duì)同一匿名 IP 下的新查詢,與當(dāng)前所有活躍會(huì)話的末尾查詢計(jì)算連續(xù)性分?jǐn)?shù),在分?jǐn)?shù)與時(shí)間差均滿足條件時(shí)并入對(duì)應(yīng)會(huì)話,否則開啟新會(huì)話。
這一策略最終得到約 400 萬個(gè) session。整體分布上:
- 單輪會(huì)話仍然占據(jù)一定比例,但相當(dāng)多的會(huì)話包含多步查詢;
- 大部分相鄰請(qǐng)求的時(shí)間間隔在數(shù)秒到十幾秒之內(nèi),體現(xiàn)出 agentic search 中 “高頻、小步迭代” 的特征。
![]()
![]()
04 兩層視角:任務(wù)意圖與檢索軌跡
在會(huì)話劃分的基礎(chǔ)上,論文從兩層視角刻畫 agentic search 過程:
- 會(huì)話層面:Session Intent,即智能體在此次搜索中試圖完成的任務(wù)類型;
- 逐步步驟軌跡層面:Trajectory Move,即相鄰兩條查詢之間的改寫動(dòng)作類型。
4.1 三類 Session Intent
作者沿用經(jīng)典的 Web Search 目標(biāo)分類,對(duì)多輪會(huì)話進(jìn)行三類劃分:
1.Declarative:陳述型 / 事實(shí)與知識(shí)檢索
- 典型問題包括 “是什么”“誰是”“列出……”。
2.Procedural:過程型 / 操作與步驟檢索
- 包括 “如何做”“如何修復(fù)”“完成某項(xiàng)任務(wù)的步驟” 等。
3.Reasoning:推理型 / 分析與比較檢索
- 包括 “為什么”“如何權(quán)衡”“多因素比較和規(guī)劃” 等。
標(biāo)注方式為,將一個(gè) session 內(nèi)全部查詢串聯(lián),交由 LLM 進(jìn)行意圖分類,并在樣本上用另一模型交叉驗(yàn)證,標(biāo)簽可靠性較高。
統(tǒng)計(jì)結(jié)果表明,日志中以陳述型任務(wù)為主,其次是推理型任務(wù),過程型任務(wù)比例相對(duì)較小。不同意圖下,會(huì)話長(zhǎng)度與檢索配置表現(xiàn)出明顯差異,例如過程型任務(wù)更傾向一次性拉取更多文檔,而推理型任務(wù)的查詢文本往往更長(zhǎng)、前后變化幅度更大。
![]()
不通過目標(biāo)分類下的Query 樣例
4.2 四類 Trajectory Move
在單個(gè)會(huì)話內(nèi)部,相鄰兩條查詢之間的變化被劃分為四種改寫動(dòng)作:
1.Specialization(專化):增加約束,下鉆到更具體的條件或子范圍;
2.Generalization(泛化):去除約束,將查詢放寬到更一般的描述;
3.Exploration(探索):在同一主題下轉(zhuǎn)向新的側(cè)面或子問題,例如從 “定位” 轉(zhuǎn)向 “屬性信息”;
4.Repetition(重復(fù)):語義基本不變的輕微改寫或直接重試,例如改寫語序、替換同義表達(dá)。
類似的這些標(biāo)簽基于 LLM 對(duì)查詢對(duì)的判別結(jié)果獲得,并結(jié)合向量相似度和檢索結(jié)果重疊進(jìn)行驗(yàn)證。整體來看,智能體呈現(xiàn)出明顯的 “下鉆偏好”(Drill-down Bias):專化與探索使用頻率較高,泛化相對(duì)稀少,而在許多事實(shí)型會(huì)話的后期,重復(fù)動(dòng)作顯著增多,形成 “重試循環(huán)”。
![]()
案例1:事實(shí)型會(huì)話的后期形成“重試循環(huán)”
另一方面,智能體也表現(xiàn)出一定的“重置 - 再細(xì)化”(Reset-then-Refine)模式,如下圖可見,智能體先在一個(gè)寬泛主題上做專化(例如從 “拿破侖戰(zhàn)役” 收窄到 “1796 年意大利戰(zhàn)役”),隨后通過去掉這些約束做一次泛化(得到更短、更寬泛的查詢),再沿著另一個(gè)側(cè)面重新專化(切換到 “埃及遠(yuǎn)征” 等新的細(xì)化方向)。
從查詢長(zhǎng)度的變化也能看出這一點(diǎn),即專化通常會(huì)拉長(zhǎng)查詢,而泛化則會(huì)縮短查詢。整體上,泛化在這里更像是一種輕量級(jí)回溯,用來在不同細(xì)化分支之間切換,而不是持續(xù)性地將查詢維持在寬泛層級(jí)。
![]()
案例2:“重置-再細(xì)化”的步驟循環(huán)
05 Agent 對(duì)于搜索到信息的具體利用:
CTAR 指標(biāo)
在多輪檢索中,關(guān)鍵問題之一是:新的查詢?cè)诙啻蟪潭壬鲜艿搅思扔袡z索信息的影響。由于日志中沒有點(diǎn)擊、停留時(shí)間等顯性交互信號(hào),論文提出了一個(gè)簡(jiǎn)單的間接度量:CTAR(Context-driven Term Adoption Rate)。
計(jì)算方法概括如下:
- 對(duì)相鄰查詢對(duì) q_k → q_{k+1} 進(jìn)行分詞與停用詞過濾;
- 找出 q_{k+1} 中首次出現(xiàn)的 “新詞”;
- 在上一步或累積至今的歷史檢索結(jié)果中檢查這些新詞是否以詞面形式出現(xiàn);
- CTAR 即為 “在上下文中出現(xiàn)的新詞占全部新詞的比例”。
這個(gè)指標(biāo)帶來的核心發(fā)現(xiàn)包括:
1.整體 CTAR 超過一半
大約一半以上的新詞可以在之前檢索到的文檔中找到。這表明,在相當(dāng)多的步驟中,智能體并非完全憑空提出新的條件,而是從已有獲取信息中采納術(shù)語和約束。
2.不同 Trajectory Move 的 CTAR 存在顯著差異
專化和探索動(dòng)作的 CTAR 明顯高于平均水平,說明這兩類改寫更依賴已有文檔信息;重復(fù)動(dòng)作的 CTAR 則較低,通常對(duì)應(yīng)表述上的微調(diào)或重試,而非基于新信息的策略調(diào)整。
3.歷史上下文具有額外貢獻(xiàn)
只看上一輪檢索結(jié)果時(shí),CTAR 較低;將更早步驟的文檔一并納入后,CTAR 穩(wěn)定提升,說明部分新詞來源于更早的檢索信息,智能體在一定程度上會(huì) “回溯” 歷史上下文。
![]()
![]()
需要強(qiáng)調(diào)的是,CTAR 僅刻畫 “新詞在檢索信息中的可追溯性”,并不直接等價(jià)于因果利用;但由于定義簡(jiǎn)單且易于解釋,適合作為衡量 “是否參考檢索上下文” 的粗粒度指標(biāo)。
06 對(duì) Agentic Search 系統(tǒng)設(shè)計(jì)的啟示
基于上述行為分析與 CTAR 指標(biāo),論文在結(jié)尾討論了若干與系統(tǒng)設(shè)計(jì)直接相關(guān)的啟示:
1.重復(fù)動(dòng)作可視為潛在 “停滯信號(hào)”
在大量陳述型會(huì)話中,隨著 Agent 步驟推進(jìn),重復(fù)改寫的占比明顯提高,其檢索結(jié)果高度重疊且 CTAR 較低。這種模式可以視為系統(tǒng)進(jìn)入 “原地重試” 的信號(hào)。在工程上,可以基于重復(fù)率、結(jié)果重疊度和 CTAR 等聯(lián)合特征,檢測(cè)并中斷重試循環(huán),強(qiáng)制觸發(fā)泛化或探索策略,或切換到更高配置的工具鏈。
2.檢索預(yù)算應(yīng)隨任務(wù)意圖與軌跡自適應(yīng)調(diào)整
日志表明,現(xiàn)有許多智能體將檢索深度 K 寫死為有限幾個(gè)固定值,在同一會(huì)話內(nèi)幾乎不做調(diào)整。然而,不同意圖和軌跡狀態(tài)對(duì)檢索策略的需求顯然不同,即過程型任務(wù)更依賴一次性較寬的文檔覆蓋,推理型任務(wù)則往往更需要多輪細(xì)化與驗(yàn)證。因此,更合理的設(shè)計(jì)是,先對(duì)會(huì)話意圖進(jìn)行識(shí)別,再結(jié)合當(dāng)前軌跡(如是否處于探索階段、是否陷入重試)動(dòng)態(tài)調(diào)整 top-K、上下文長(zhǎng)度與工具組合,而非采用全局統(tǒng)一配置。
3.將 CTAR 等 “信息采納率” 指標(biāo)納入系統(tǒng)監(jiān)控
CTAR 在不同改寫類型之間具有明顯區(qū)分度,在專化和探索步驟中,CTAR 高時(shí)往往對(duì)應(yīng)基于檢索信息的實(shí)質(zhì)推進(jìn),而重復(fù)步驟中 CTAR 較低則更可能反映策略停滯。
因此,可以將 CTAR 一類指標(biāo)納入系統(tǒng)的觀測(cè)與調(diào)度邏輯:當(dāng)長(zhǎng)時(shí)間觀測(cè)到 CTAR 偏低或在特定模式下急劇下降時(shí),觸發(fā)算法層或工作流層面的干預(yù)與重規(guī)劃。
07 結(jié)語:從第一份開源日志
到 Agentic IR 的 “常識(shí)層” 認(rèn)識(shí)
整體來看,這篇工作完成了三件具有基礎(chǔ)設(shè)施意義的事情:
1.提供首個(gè)開源的 Agentic Search 行為日志數(shù)據(jù)集
基于 DRGym 平臺(tái)采集并清洗的 1400 萬 + 請(qǐng)求、約 400 萬會(huì)話,在經(jīng)過匿名化處理后,在 Hugging Face 平臺(tái)公開,為后續(xù)研究提供了可復(fù)現(xiàn)的行為數(shù)據(jù)基礎(chǔ)。
2.提出面向 Agentic Search 的 “意圖–軌跡–信息利用” 分析框架
通過三類 Session Intent、四類 Trajectory Move 以及 CTAR 指標(biāo),從結(jié)構(gòu)和內(nèi)容兩個(gè)維度刻畫智能體搜索過程,為后續(xù)的行為建模、策略比較和訓(xùn)練目標(biāo)設(shè)計(jì)提供了分析工具。
3.將若干經(jīng)驗(yàn)性觀察固化為可量化的設(shè)計(jì)建議
具體包括,將重復(fù)改寫視作停滯信號(hào)、依據(jù)任務(wù)意圖與軌跡模式自適應(yīng)檢索預(yù)算,以及通過檢索信息采納率監(jiān)控智能體是否真正 “讀取并利用” 檢索結(jié)果。
對(duì)于從事信息檢索與智能體系統(tǒng)研究的讀者,這份數(shù)據(jù)與框架為理解和改進(jìn) agentic search 提供了新的切入點(diǎn);對(duì)于工程實(shí)踐者,則可以據(jù)此審視現(xiàn)有系統(tǒng)的行為模式,并據(jù)實(shí)引入新的監(jiān)控和控制機(jī)制。
作者簡(jiǎn)介:
本論文第一作者為卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)學(xué)院語言技術(shù)研究所碩士研究生 Jingjie Ning,研究方向聚焦信息檢索、DeepResearch、Query 理解與強(qiáng)化、推薦系統(tǒng) Benchmark 等工作。Jingjie Ning 師從 Jamie Callan 教授及 Chenyan Xiong 教授。在卡內(nèi)基梅隆大學(xué)前,Jingjie 曾在騰訊任職 Senior Data Scientist。個(gè)人主頁:https://ethanning.github.io
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.