網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

大廠數(shù)據(jù)護(hù)城河打破！上交全開(kāi)源Search Agent OpenSeeker登場(chǎng)

2026-04-01 11:45:37　來(lái)源: 機(jī)器之心Pro

河北舉報(bào)

分享至

一直以來(lái)，高性能 Search Agent 都像是 “大廠的專屬游戲”。雖然業(yè)界涌現(xiàn)了許多開(kāi)源模型，但真正決定 Agent 能力上限的 “高質(zhì)量訓(xùn)練數(shù)據(jù)” 卻始終被各大企業(yè)嚴(yán)格保密，形成了一道堅(jiān)固的數(shù)據(jù)護(hù)城河。這種持續(xù)的數(shù)據(jù)稀缺，極大地阻礙了廣大研究社區(qū)在這一領(lǐng)域的創(chuàng)新與發(fā)展。

今天，由上海交通大學(xué)研究團(tuán)隊(duì)推出的OpenSeeker徹底打破這一現(xiàn)狀！

作為首個(gè)純學(xué)術(shù)團(tuán)隊(duì)打造，完整開(kāi)源模型 + 100% 全量訓(xùn)練數(shù)據(jù)的前沿深度搜索 Agent，OpenSeeker 證明了：不靠堆砌算力資源，依靠極高的數(shù)據(jù)合成質(zhì)量，學(xué)術(shù)界同樣能跑出 SOTA！在同等條件下（約 30B 參數(shù)量、純 ReAct 架構(gòu)），OpenSeeker 僅需11.7k 合成樣本進(jìn)行單輪 SFT（監(jiān)督微調(diào)），便在多個(gè)前沿榜單上取得了 SOTA 成績(jī)。

GitHub: https://github.com/rui-ye/OpenSeeker
全量訓(xùn)練數(shù)據(jù): https://huggingface.co/datasets/OpenSeeker/OpenSeeker-v1-Data
模型權(quán)重: https://huggingface.co/OpenSeeker/OpenSeeker-v1-30B-SFT
Huggingface Paper: https://huggingface.co/papers/2603.15594
論文直達(dá): https://arxiv.org/pdf/2603.15594

核心亮點(diǎn)速覽

純學(xué)術(shù)團(tuán)隊(duì)打造，打破大廠壟斷：完全開(kāi)源所有訓(xùn)練數(shù)據(jù)（QA + 軌跡）和模型，為研究人員提供高質(zhì)量數(shù)據(jù)基礎(chǔ)，無(wú)需依賴企業(yè)級(jí)規(guī)模資源，也能探索與構(gòu)建下一代 Search Agent。
跨榜單 SOTA，越級(jí)挑戰(zhàn)強(qiáng)化學(xué)習(xí)模型：在 BrowseComp-ZH 榜單上取得48.4%的成績(jī)，直接超越了阿里 Tongyi DeepResearch 通過(guò)采用 CPT（持續(xù)預(yù)訓(xùn)練）、SFT（監(jiān)督微調(diào)）和 RL（強(qiáng)化學(xué)習(xí)）多輪復(fù)雜訓(xùn)練得出的 46.7%。在約 30B 級(jí)純 SFT 模型中，全面斬獲第一（BrowseComp 29.5 /xbench 74.0 / WideSearch 59.4）

核心技術(shù)揭秘：

突破大廠數(shù)據(jù)瓶頸的高質(zhì)量數(shù)據(jù)合成方案

要有效訓(xùn)練深度搜索 Agent，核心在于解決兩個(gè)關(guān)鍵問(wèn)題：首先，必須構(gòu)建足夠高難度的問(wèn)答任務(wù)，以激發(fā)模型“推理 → 工具調(diào)用 → 工具反饋”的多輪工具調(diào)用能力，從而形成包含明確決策節(jié)點(diǎn)和長(zhǎng)工具調(diào)用鏈的長(zhǎng)程交互軌跡；其次，需要通過(guò)穩(wěn)定且可復(fù)現(xiàn)的方法生成高質(zhì)量解題軌跡，確保訓(xùn)練信號(hào)學(xué)習(xí)到的是正確且可泛化的策略，而非依賴隨機(jī)采樣產(chǎn)生的偶然成功。

為此，OpenSeeker 進(jìn)一步提出基于真實(shí)網(wǎng)頁(yè)結(jié)構(gòu)的事實(shí)錨定問(wèn)答構(gòu)建與動(dòng)態(tài)去噪軌跡合成方法，以系統(tǒng)性提升多跳推理能力與信息提取能力。

1. 基于事實(shí)錨定的問(wèn)答構(gòu)建：基于真實(shí)網(wǎng)頁(yè)圖譜構(gòu)造高難度多跳問(wèn)題

現(xiàn)有的檢索任務(wù)往往容易被模型通過(guò)簡(jiǎn)單的模式匹配 “走捷徑”。為了逼迫模型進(jìn)行真正的多跳推理，OpenSeeker 直接從海量真實(shí)網(wǎng)頁(yè)的圖結(jié)構(gòu)出發(fā)進(jìn)行逆向工程。

從隨機(jī)種子頁(yè)面出發(fā)進(jìn)行拓?fù)鋱D擴(kuò)展，尋找互聯(lián)的信息簇并提取出實(shí)體子圖。
引入實(shí)體混淆機(jī)制，將具體實(shí)體模糊化，把簡(jiǎn)單的事實(shí)轉(zhuǎn)化為復(fù)雜的推理謎題。

OpenSeek QA 合成的方法，不僅保證了數(shù)據(jù)的真實(shí)可信，還從結(jié)構(gòu)上強(qiáng)制模型必須進(jìn)行多步導(dǎo)航與深度推理。

2. 動(dòng)態(tài)去噪軌跡合成：基于非對(duì)稱上下文構(gòu)建，強(qiáng)化嘈雜環(huán)境下的核心信息提取

真實(shí)的網(wǎng)頁(yè)環(huán)境充滿了冗長(zhǎng)且無(wú)關(guān)的噪音。為了合成高質(zhì)量的動(dòng)作軌跡，OpenSeeker 設(shè)計(jì)了一套非對(duì)稱的 “動(dòng)態(tài)上下文去噪” 策略：

生成階段（Teacher）：引入回顧性總結(jié)機(jī)制，將上一步的嘈雜工具返回結(jié)果壓縮為干凈摘要，讓 Teacher 模型在無(wú)噪的上下文中生成專家級(jí)的推理和工具調(diào)用。
訓(xùn)練階段（Student）：在訓(xùn)練時(shí)撤掉摘要，給模型喂入原始的、未經(jīng)壓縮的嘈雜工具返回結(jié)果，倒逼其預(yù)測(cè) Teacher 的高質(zhì)量決策

該方法激發(fā) OpenSeeker 從嘈雜的真實(shí)網(wǎng)頁(yè)環(huán)境中學(xué)習(xí)到了強(qiáng)大的信息提取與去噪能力。

實(shí)驗(yàn)結(jié)果：11.7k 數(shù)據(jù)的越級(jí)挑戰(zhàn)

11.7k 數(shù)據(jù)單輪 SFT，媲美大廠表現(xiàn)：OpenSeeker 僅使用 11.7k 樣本和 SFT 進(jìn)行單輪訓(xùn)練，便展現(xiàn)出媲美甚至超越大廠資源密集型模型的競(jìng)爭(zhēng)力。令人矚目的是，在 BrowseComp-ZH 榜單上，僅采用單輪簡(jiǎn)單 SFT 訓(xùn)練的 OpenSeeker-v1-30B-SFT 取得了48.4%的高分，超越經(jīng)歷了持續(xù)預(yù)訓(xùn)練 (CPT)、SFT 和強(qiáng)化學(xué)習(xí) (RL) 多階段訓(xùn)練的 Tongyi DeepResearch (46.7%)。

純 SFT 與 ReAct 架構(gòu)下的 SOTA 表現(xiàn)：在同為 SFT 訓(xùn)練的 ReAct Agent 競(jìng)爭(zhēng)中，OpenSeeker 取得 SOTA。僅憑借 11.7k 數(shù)據(jù)，OpenSeeker 在 BrowseComp (29.5)、BrowseComp-ZH (48.4)、xbench (74.0) 和 WideSearch-EN (59.4) 四大榜單上均取得最優(yōu)成績(jī)，顯著拉開(kāi)了與阿里巴巴通義實(shí)驗(yàn)室提出的 WebSailor-V2、WebLeaper 等同類開(kāi)源模型的差距。

同等數(shù)據(jù)規(guī)模下的顯著優(yōu)勢(shì)，凸顯極高數(shù)據(jù)質(zhì)量：在控制數(shù)據(jù)量規(guī)模可比的情況下（10k-15k 級(jí)別），OpenSeeker 的數(shù)據(jù)質(zhì)量明顯優(yōu)于阿里巴巴通義實(shí)驗(yàn)室的 WebSailer-V2 和 WebLeaper 的各類組合版本，在各項(xiàng)指標(biāo)上均保持顯著優(yōu)勢(shì)。

遠(yuǎn)超 Benchmark 的數(shù)據(jù)難度：為了量化數(shù)據(jù)難度，研究團(tuán)隊(duì)使用相同的模型對(duì)合成數(shù)據(jù)和標(biāo)準(zhǔn) Benchmark 進(jìn)行了推理對(duì)比。結(jié)果顯示：

合成的中文數(shù)據(jù)難度遠(yuǎn)超 BrowseComp-ZH：每條軌跡平均需要進(jìn)行46.35 次工具調(diào)用，平均 token 長(zhǎng)度高達(dá)76.1k；而 BrowseComp-ZH 分別僅為 26.98 次和 15.1k tokens。
英文數(shù)據(jù)的難度也達(dá)到了與 BrowseComp-EN 相媲美的水平。

社區(qū)反響：真正推動(dòng)領(lǐng)域發(fā)展的底層開(kāi)源支撐

OpenSeeker 一經(jīng)發(fā)布，便在海外社交平臺(tái)和開(kāi)源社區(qū)引發(fā)了熱烈反響。許多研究者與開(kāi)發(fā)者紛紛表示，這正是目前學(xué)術(shù)界最迫切需要的破局之作：

明確科研與數(shù)據(jù)的邊界：“這才是真正能推動(dòng)領(lǐng)域發(fā)展的開(kāi)源發(fā)布。全量訓(xùn)練數(shù)據(jù)加上 30B 模型，讓研究人員終于能區(qū)分出，性能的提升到底是來(lái)自真正的方法創(chuàng)新，還是僅僅因?yàn)槌粤碎]源數(shù)據(jù)的紅利。”
打破數(shù)據(jù)壟斷：“現(xiàn)在，大家終于可以在沒(méi)有‘?dāng)?shù)據(jù)守門人’限制的情況下，自由構(gòu)建多步智能體了！”
呼喚已久的透明度：“AI Agent 終于迎來(lái)了數(shù)據(jù)透明，太令人振奮了！”、“開(kāi)源再次勝利！”

這不僅是一個(gè) SOTA 模型，更是賦能整個(gè)學(xué)術(shù)界探索下一代 Search Agent 的堅(jiān)實(shí)基座。

全面開(kāi)源，即刻體驗(yàn)！

OpenSeeker 作為首個(gè)由純學(xué)術(shù)團(tuán)隊(duì)打造、模型與全量訓(xùn)練數(shù)據(jù)完全開(kāi)源的深度搜索 Agent，從根本上打破了長(zhǎng)期以來(lái)由大廠構(gòu)筑的數(shù)據(jù)護(hù)城河，真正為科研人員提供了可直接使用、可復(fù)現(xiàn)、可擴(kuò)展的高質(zhì)量研究數(shù)據(jù)基礎(chǔ)。這一開(kāi)放不僅降低了前沿 Search Agent 研究的門檻，更讓研究者能夠?qū)Ｗ⒂诜椒▌?chuàng)新本身，而不再受限于數(shù)據(jù)。打破閉源壟斷，讓前沿研究不再遙不可及。也期待更多開(kāi)發(fā)者與研究者加入，共同探索下一代 Agent 的可能性，歡迎 Star 關(guān)注并上手體驗(yàn)！

作者介紹：

本文共同第一作者為上海交通大學(xué)博士生杜鈺文與葉銳，其中葉銳為項(xiàng)目負(fù)責(zé)人，指導(dǎo)老師為上海交通大學(xué)人工智能學(xué)院陳思衡教授，主要研究方向?yàn)?AI Agents、Agentic Science 等領(lǐng)域。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.