![]()
這項由紐約大學上海分校、耶魯大學和紐約大學數據科學中心聯合開展的研究發表于2026年,論文編號為arXiv:2602.05975v1,揭示了一個令人意外的發現:在科學文獻檢索這個復雜任務中,看似老舊的傳統檢索方法竟然大幅超越了最新的AI檢索技術。
近年來,深度研究智能體正在成為處理復雜查詢的強大工具。這些系統就像是配備了超級大腦的智能助手,能夠自主規劃多步驟的研究流程,從在線資源中檢索信息,并將證據綜合成全面且有據可查的答案。與此同時,基于大語言模型的檢索器也展現出了強大的能力,特別是在遵循指令和支持推理密集型檢索方面。
然而,這引出了一個關鍵問題:這些看起來更加智能的AI檢索器能否真正有效地為深度研究智能體的工作流程做出貢獻?為了回答這個問題,研究團隊決定從科學文獻搜索這個角度入手進行系統性研究。
選擇科學文獻搜索作為研究對象有其深刻的考量。首先,這是一個既常見又具有重大影響的任務。搜索相關文獻是研究過程中不可或缺的一部分,無論是驗證某個想法是否已經被探索過,還是收集相關工作資料,一個強大的智能系統都可能顯著加速科學發現的進程。其次,與依賴整個網絡的現有深度研究任務不同,科學文獻搜索采用了受控的特定領域語料庫,這為精確評估不同檢索器提供了可控的實驗環境。第三,現有的科學文獻搜索數據集往往存在不足,難以有效評估深度研究智能體,因為這些數據集中使用的論文已經過時,往往包含在大語言模型的預訓練知識中。
基于這些考慮,研究團隊構建了SAGE(科學智能體檢索評估)基準測試,這是一個包含1200個查詢的綜合性評估框架,涵蓋了計算機科學、自然科學、醫療健康和人文社科四個關鍵科學領域。每個領域都配備了一個包含5萬篇最新論文的檢索語料庫。這個數據集的統計數據顯示了其全面性:短答題部分每個領域包含150個查詢,平均查詢長度在180到201個詞元之間,每個查詢對應一個準確答案;開放式問題部分同樣每個領域包含150個查詢,平均查詢長度約100詞元,但每個問題對應多個相關論文作為標準答案。
一、深度研究智能體的表現分析
研究團隊首先評估了六個深度研究智能體的表現,包括GPT-5、GPT-5-mini、GPT-5-nano等專有系統,以及開源的DR Tulu系統。這些系統在處理復雜查詢時的表現呈現出有趣的差異化特征。
在短答題方面,GPT-5系列展現出了最強的整體性能,其中GPT-5在各個領域都取得了最佳的精確匹配率,達到71.69%。這就像是在一場知識競賽中,GPT-5總是能最準確地找到那個唯一正確的答案。相比之下,開放式問題的結果則更加多樣化:GPT-5-nano在醫療健康領域表現最佳,而Gemini-2.5-flash在計算機科學和人文社科領域具有競爭力。值得注意的是,開源的DR Tulu在短答題上的表現超越了閉源的Gemini-2.5系列智能體,這表明開源深度研究智能體在精確的、檢索密集型設置中可以匹敵甚至超越專有系統。
一個意外的發現是,搜索數量并不是準確性的主要驅動因素。在短答題中,Gemini-2.5-flash的網絡搜索調用次數幾乎是GPT-5的兩倍,而DR Tulu返回的參考文獻數量異常龐大(平均37.32篇),但兩者的表現都大幅落后于GPT-5。這種現象就像是在圖書館里找書,有些人雖然翻遍了更多書架,查閱了更多資料,但最終找到正確答案的效率卻不如那些目標明確、搜索策略精準的人。這個模式表明,蠻力搜索或大量積累參考文獻對于精確檢索來說是不夠的,更強的模型似乎能夠從更準確的查詢分解和更有針對性的證據選擇中受益,用更少但更精準的搜索實現更高的準確性。
不同智能體在不同類型查詢上的搜索策略也展現出了適應性差異。當從短答題轉向開放式問題時,DR Tulu和Gemini系列會減少搜索次數,這與更寬松的約束條件和可能的早期停止策略相一致。相比之下,GPT-5在開放式問題上增加了搜索活動,并獲得了最佳的整體結果,雖然與其他智能體相比,參考文獻數量的增加幅度適中且可以接受。
二、檢索器性能的深度對比
為了更深入地理解LLM檢索器在深度研究工作流中的整合效果,研究團隊使用DR Tulu作為骨干智能體,將其網絡搜索工具替換為三種不同的檢索器:傳統的BM25稀疏檢索器、基于LLM的gte-Qwen2-7B-instruct檢索器,以及專門為推理密集任務訓練的ReasonIR檢索器。
結果令人震驚:BM25在短答題上顯著超越LLM檢索器約30%的性能差距。這就像是在一場尋寶游戲中,使用傳統地圖和指南針的尋寶者竟然比使用最新GPS導航系統的人更快找到寶藏。具體而言,BM25在k=10設置下達到了81.2%的平均準確率,而gte-Qwen在相同設置下僅為63.0%,ReasonIR更是只有49.3%。
這種性能差異的背后隱藏著一個重要發現:現有深度研究智能體生成的子查詢主要是面向關鍵詞的。分析顯示,專有模型傾向于將查詢分解為更具短語化、語義結構化的搜索查詢,而DR Tulu的子查詢更常類似于結構較少的關鍵詞串聯。這種差異與觀察到的效率差距相符,更結構化的分解對應于更少但產出更高的搜索和改進的檢索精度。
在開放式問題上,BM25和gte-Qwen2-7B-instruct的性能相當,而ReasonIR在兩種查詢類型上都排名最后。值得注意的是,gte-Qwen2-7B-instruct甚至可以略微超越BM25,這表明當評估容忍更廣泛的證據覆蓋時,基于LLM的檢索可能具有競爭力。
研究團隊還發現了一個關鍵的查詢-檢索器不匹配問題。雖然基于LLM的檢索器是在自然語言查詢上訓練的,但智能體經常生成類似關鍵詞的子查詢,這與檢索器的訓練分布匹配度較差,可能無法充分利用語義能力。這就像是給一個習慣了優雅對話的管家下達簡短粗暴的命令,結果自然不如預期。
三、語料庫級別的測試時擴展方法
面對推理密集型檢索的挑戰,研究團隊提出了一種新穎的語料庫級別測試時擴展框架。這個方法的核心思想是,與其增加查詢的復雜性,不如將推理衍生的信息整合到文檔中,使現成的檢索器更容易檢索到它們。
這種方法就像是為圖書館的每本書都制作了一個詳細的標簽和關鍵詞索引。具體來說,研究團隊使用大語言模型為每篇論文提取了八個主題相關的關鍵詞,這些關鍵詞總結了論文的核心貢獻。同時,他們還獲取了關鍵的書目元數據,包括發表場所、年份、作者和引用數量。這些信息被格式化為強調關鍵詞,并添加到每個文檔的Markdown開頭,這樣書目信號和高層語義線索都能被有效地表面化,以實現基于關鍵詞的有效檢索。
實驗結果表明,這種語料庫級別的測試時擴展確實帶來了實質性的改進。在短答題上,BM25獲得了8.18%的絕對增益,從75.80%提升到83.98%。其他檢索器也有所改進,但幅度較小:gte-Qwen提升了0.90%,ReasonIR提升了1.70%。這種差異的原因在于BM25對關鍵詞信號更加敏感,而基于LLM的檢索器在文檔接近輸入長度限制時會遇到困難,因此添加的信息對它們來說只是略微容易處理。
在開放式問題上,所有三個檢索器都只顯示出邊際改進。這個結果與之前的觀察一致,即DR Tulu生成的查詢缺乏多樣性,這限制了檢索的廣度,并阻止了語料庫級別擴展完全轉化為下游性能增益。
四、深入的消融研究
為了更好地理解不同類型查詢信息的重要性,研究團隊進行了詳細的消融研究。他們發現,短答題涵蓋了查詢信息的三個方面:論文元數據、多模態細節和論文間關系。手動檢查顯示,利用其中任意兩個組件足以定位93.67%的目標論文。
搜索方法強烈影響哪些信息最重要。不同的深度研究智能體強調查詢的不同組件,這種強調會隨著搜索方法的改變而變化。在網絡搜索下,DR Tulu對論文細節最敏感,而在基于語料庫的搜索下,論文間關系成為主導因素。此外,共享相同搜索方法的智能體表現出相似的敏感性模式。例如,DR Tulu和Gemini-2.5-Pro都依賴Google搜索,都受論文細節的影響最大,這表明檢索后端在很大程度上決定了哪部分查詢信息驅動性能。
這種發現就像是發現不同的導航系統在相同的道路網絡上會有不同的路徑偏好。使用相同搜索引擎的系統會表現出相似的信息偏好模式,這揭示了底層技術架構對系統行為的深層影響。
五、實驗設計的技術細節
在實驗設計方面,研究團隊采用了嚴謹的方法確保結果的可靠性。對于網絡搜索實驗,他們評估了兩類深度研究智能體:專有的和開源的。專有智能體包括GPT-5、GPT-5-mini、GPT-5-nano、Gemini-2.5-Pro和Gemini-2.5-Flash,都通過官方API使用。對于GPT系列,他們將"推理努力"設置為"中等",并啟用網絡搜索功能。對于Gemini系列,他們將"思考預算"設置為"-1"以啟用動態思考,并給予網絡搜索權限。
對于語料庫搜索實驗,研究團隊修改了DR Tulu的MCP服務,使其只能使用提供的檢索器作為搜索工具。在檢索索引構建過程中,他們首先根據SAGE數據集中的URL下載所有PDF,然后使用PyMuPDF轉換為Markdown格式處理文本,使用PDFPlumber處理表格。接下來,他們使用相應的檢索器對每個Markdown文件的前32000個詞元進行嵌入,以確保保留每個PDF內容的絕大部分,同時匹配gte-Qwen2-7B-instruct的最大輸入長度。
在檢索設置中,DR Tulu智能體部署在兩個H100 GPU上,一個運行vLLM進行答案生成,另一個運行由選定檢索器驅動的MCP。他們將最大搜索迭代設置為10,對于每個檢索器,他們評估了每次搜索返回結果數量的兩種設置:前5和前10。每個檢索步驟返回論文標題列表及其摘要。
六、基準測試數據集的構建
SAGE基準測試的構建過程體現了研究團隊的細致考量。對于短答題,他們從三個來源構建問題-答案對:提取的論文元數據(如作者數量、標題長度)、使用PyMuPDF提取的圖表,以及通過引用重疊建立的論文間關系。為了建立論文間關系,他們計算論文之間的引用重疊,如果兩篇論文在參考文獻列表中至少共享四個共同引用,就認為它們相關。
數據生成過程就像是精心編織一張復雜的關系網。研究團隊首先從每個領域的主要會議期刊中采樣種子論文和2024年后發表的相關論文,然后提取相應的元數據、圖表、表格和論文間關系。接著,他們使用GPT-5-mini生成需要跨多個來源推理的問題,每個問題的答案就是種子論文本身。
對于開放式問題,構建過程更加復雜。這些問題由兩個組件組成:研究主題的背景上下文和一對論文之間的共享引用。研究團隊利用前面提到的引用重疊信息選擇論文對,對于每個選定的對,他們采用GPT-5-mini分析兩篇論文之間的相互關系以及它們共享引用的原因。基于這種分析,GPT-5-mini生成相應的問題。由于每個開放式問題有多個標準答案論文,他們使用分層結構創建標準答案:最相關的論文是選定的種子論文對,其次是兩篇核心論文都引用的論文。
七、評估指標的科學設計
評估指標的設計體現了對不同問題類型特性的深刻理解。對于短答題,研究團隊使用精確匹配作為指標,評估標準答案是否包含在輸出文本或引用中。這種評估方式就像是判斷學生在考試中是否給出了完全正確的答案,不允許有任何偏差。
對于開放式問題,評估更加復雜。鑒于這類問題的標準答案論文列表的特性,研究團隊首先分配離散的相關性分數r∈{2,1,0}:最相關(r=2)給兩篇種子論文;相關(r=1)給核心論文引用的交集;不相關(r=0)給所有其他論文。然后他們報告加權召回率來捕獲輸出文本和引用列表中的所有論文。這種評估方式就像是評判一篇綜述文章的質量,不僅要看它是否找到了最核心的參考文獻,還要看它是否覆蓋了足夠廣泛的相關資料。
語料庫構建也遵循了嚴格的科學原則。對于每個領域,研究團隊構建了一個50k論文的語料庫,僅使用開放獲取的PDF以確保可訪問性。語料庫從以下內容開始:計算出的引用重疊信息中的標準答案目標論文及其最高重疊伙伴、它們引用的交集,以及它們引用的并集。然后通過從相應領域的主要會議期刊中采樣2020年或之后發表的論文來擴展語料庫,直到達到所需的語料庫大小。由于人文社科領域論文的有限可用性,該語料庫產生了大約4萬篇論文,因為研究團隊有意排除了非常舊的文獻。
研究結果揭示了深度研究智能體檢索行為的重要洞察。所有評估的系統都在推理密集型檢索方面存在困難,這種檢索需要綜合元數據和論文間關系。使用DR Tulu作為骨干智能體的進一步比較顯示,BM25顯著超越基于LLM的檢索器約30%,因為現有智能體生成面向關鍵詞的子查詢。這種行為與表面形式匹配很好地對齊,而由于查詢公式不匹配,基于LLM的檢索器的語義能力受到影響。
為了解決推理密集型檢索挑戰,研究團隊提出的語料庫級別測試時擴展框架取得了實質性改進,在短答題上獲得8%的增益,在開放式問題上獲得2%的增益。這種方法通過利用大語言模型對每篇論文進行推理并用額外信號豐富語料庫,使現成檢索器的檢索變得更容易。
說到底,這項研究為我們理解AI檢索系統的真實表現提供了寶貴的洞察。它告訴我們,最新最炫的AI技術并不總是意味著最好的性能,有時候簡單可靠的傳統方法可能更加有效。同時,通過巧妙的數據增強策略,我們可以讓傳統方法發揮出更大的潛力。這就像是發現,在某些情況下,經驗豐富的老師傅使用傳統工具能夠比年輕人使用最新設備做得更好,而如果我們為老師傅提供一些精心準備的輔助材料,他們的表現還能進一步提升。
這項研究強調了有效的檢索器與智能體協作需要進一步適應的重要性。它也提醒我們,在追求技術創新的同時,不應該忽視經過時間考驗的經典方法的價值。對于有興趣深入了解這項研究的讀者,可以通過論文編號arXiv:2602.05975v1查詢完整的技術細節和實驗數據。
Q&A
Q1:SAGE基準測試包含哪些內容?
A:SAGE是一個科學文獻檢索基準,包含1200個查詢,覆蓋計算機科學、自然科學、醫療健康和人文社科四個領域。每個領域有300個問題,分為短答題(需要找到唯一正確答案)和開放式問題(有多個相關論文作為答案)兩種類型,配備20萬篇最新論文作為檢索語料庫。
Q2:為什么BM25檢索器比先進的AI檢索器表現更好?
A:主要原因是深度研究智能體生成的查詢主要是關鍵詞導向的,而不是自然語言表達。BM25擅長處理關鍵詞匹配,而AI檢索器在自然語言查詢上訓練,面對關鍵詞式查詢時無法充分發揮語義理解優勢。這種查詢-檢索器不匹配導致AI檢索器性能下降約30%。
Q3:語料庫級別測試時擴展方法是如何工作的?
A:這種方法使用大語言模型為每篇論文提取8個核心關鍵詞和重要元數據(如發表場所、作者、引用數等),然后將這些信息作為強調關鍵詞添加到論文開頭。這樣做使傳統檢索器更容易找到相關論文,BM25在短答題上獲得了8%的性能提升。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.