![]()
一直以來(lái),高性能 Search Agent 都像是 “大廠的專屬游戲”。雖然業(yè)界涌現(xiàn)了許多開(kāi)源模型,但真正決定 Agent 能力上限的 “高質(zhì)量訓(xùn)練數(shù)據(jù)” 卻始終被各大企業(yè)嚴(yán)格保密,形成了一道堅(jiān)固的數(shù)據(jù)護(hù)城河。這種持續(xù)的數(shù)據(jù)稀缺,極大地阻礙了廣大研究社區(qū)在這一領(lǐng)域的創(chuàng)新與發(fā)展。
今天,由上海交通大學(xué)研究團(tuán)隊(duì)推出的OpenSeeker徹底打破這一現(xiàn)狀!
作為首個(gè)純學(xué)術(shù)團(tuán)隊(duì)打造,完整開(kāi)源模型 + 100% 全量訓(xùn)練數(shù)據(jù)的前沿深度搜索 Agent,OpenSeeker 證明了:不靠堆砌算力資源,依靠極高的數(shù)據(jù)合成質(zhì)量,學(xué)術(shù)界同樣能跑出 SOTA!在同等條件下(約 30B 參數(shù)量、純 ReAct 架構(gòu)),OpenSeeker 僅需11.7k 合成樣本進(jìn)行單輪 SFT(監(jiān)督微調(diào)),便在多個(gè)前沿榜單上取得了 SOTA 成績(jī)。
![]()
- GitHub: https://github.com/rui-ye/OpenSeeker
- 全量訓(xùn)練數(shù)據(jù): https://huggingface.co/datasets/OpenSeeker/OpenSeeker-v1-Data
- 模型權(quán)重: https://huggingface.co/OpenSeeker/OpenSeeker-v1-30B-SFT
- Huggingface Paper: https://huggingface.co/papers/2603.15594
- 論文直達(dá): https://arxiv.org/pdf/2603.15594
核心亮點(diǎn)速覽
- 純學(xué)術(shù)團(tuán)隊(duì)打造,打破大廠壟斷:完全開(kāi)源所有訓(xùn)練數(shù)據(jù)(QA + 軌跡)和模型,為研究人員提供高質(zhì)量數(shù)據(jù)基礎(chǔ),無(wú)需依賴企業(yè)級(jí)規(guī)模資源,也能探索與構(gòu)建下一代 Search Agent。
- 跨榜單 SOTA,越級(jí)挑戰(zhàn)強(qiáng)化學(xué)習(xí)模型:在 BrowseComp-ZH 榜單上取得48.4%的成績(jī),直接超越了阿里 Tongyi DeepResearch 通過(guò)采用 CPT(持續(xù)預(yù)訓(xùn)練)、SFT(監(jiān)督微調(diào))和 RL(強(qiáng)化學(xué)習(xí))多輪復(fù)雜訓(xùn)練得出的 46.7%。在約 30B 級(jí)純 SFT 模型中,全面斬獲第一(BrowseComp 29.5 /xbench 74.0 / WideSearch 59.4)
核心技術(shù)揭秘:
突破大廠數(shù)據(jù)瓶頸的高質(zhì)量數(shù)據(jù)合成方案
要有效訓(xùn)練深度搜索 Agent,核心在于解決兩個(gè)關(guān)鍵問(wèn)題:首先,必須構(gòu)建足夠高難度的問(wèn)答任務(wù),以激發(fā)模型“推理 → 工具調(diào)用 → 工具反饋”的多輪工具調(diào)用能力,從而形成包含明確決策節(jié)點(diǎn)和長(zhǎng)工具調(diào)用鏈的長(zhǎng)程交互軌跡;其次,需要通過(guò)穩(wěn)定且可復(fù)現(xiàn)的方法生成高質(zhì)量解題軌跡,確保訓(xùn)練信號(hào)學(xué)習(xí)到的是正確且可泛化的策略,而非依賴隨機(jī)采樣產(chǎn)生的偶然成功。
為此,OpenSeeker 進(jìn)一步提出基于真實(shí)網(wǎng)頁(yè)結(jié)構(gòu)的事實(shí)錨定問(wèn)答構(gòu)建與動(dòng)態(tài)去噪軌跡合成方法,以系統(tǒng)性提升多跳推理能力與信息提取能力。
1. 基于事實(shí)錨定的問(wèn)答構(gòu)建:基于真實(shí)網(wǎng)頁(yè)圖譜構(gòu)造高難度多跳問(wèn)題
![]()
現(xiàn)有的檢索任務(wù)往往容易被模型通過(guò)簡(jiǎn)單的模式匹配 “走捷徑”。為了逼迫模型進(jìn)行真正的多跳推理,OpenSeeker 直接從海量真實(shí)網(wǎng)頁(yè)的圖結(jié)構(gòu)出發(fā)進(jìn)行逆向工程。
- 從隨機(jī)種子頁(yè)面出發(fā)進(jìn)行拓?fù)鋱D擴(kuò)展,尋找互聯(lián)的信息簇并提取出實(shí)體子圖。
- 引入實(shí)體混淆機(jī)制,將具體實(shí)體模糊化,把簡(jiǎn)單的事實(shí)轉(zhuǎn)化為復(fù)雜的推理謎題。
OpenSeek QA 合成的方法,不僅保證了數(shù)據(jù)的真實(shí)可信,還從結(jié)構(gòu)上強(qiáng)制模型必須進(jìn)行多步導(dǎo)航與深度推理。
2. 動(dòng)態(tài)去噪軌跡合成:基于非對(duì)稱上下文構(gòu)建,強(qiáng)化嘈雜環(huán)境下的核心信息提取
![]()
真實(shí)的網(wǎng)頁(yè)環(huán)境充滿了冗長(zhǎng)且無(wú)關(guān)的噪音。為了合成高質(zhì)量的動(dòng)作軌跡,OpenSeeker 設(shè)計(jì)了一套非對(duì)稱的 “動(dòng)態(tài)上下文去噪” 策略:
- 生成階段(Teacher):引入回顧性總結(jié)機(jī)制,將上一步的嘈雜工具返回結(jié)果壓縮為干凈摘要,讓 Teacher 模型在無(wú)噪的上下文中生成專家級(jí)的推理和工具調(diào)用。
- 訓(xùn)練階段(Student):在訓(xùn)練時(shí)撤掉摘要,給模型喂入原始的、未經(jīng)壓縮的嘈雜工具返回結(jié)果,倒逼其預(yù)測(cè) Teacher 的高質(zhì)量決策
該方法激發(fā) OpenSeeker 從嘈雜的真實(shí)網(wǎng)頁(yè)環(huán)境中學(xué)習(xí)到了強(qiáng)大的信息提取與去噪能力。
實(shí)驗(yàn)結(jié)果:11.7k 數(shù)據(jù)的越級(jí)挑戰(zhàn)
11.7k 數(shù)據(jù)單輪 SFT,媲美大廠表現(xiàn):OpenSeeker 僅使用 11.7k 樣本和 SFT 進(jìn)行單輪訓(xùn)練,便展現(xiàn)出媲美甚至超越大廠資源密集型模型的競(jìng)爭(zhēng)力。令人矚目的是,在 BrowseComp-ZH 榜單上,僅采用單輪簡(jiǎn)單 SFT 訓(xùn)練的 OpenSeeker-v1-30B-SFT 取得了48.4%的高分,超越經(jīng)歷了持續(xù)預(yù)訓(xùn)練 (CPT)、SFT 和強(qiáng)化學(xué)習(xí) (RL) 多階段訓(xùn)練的 Tongyi DeepResearch (46.7%)。
![]()
純 SFT 與 ReAct 架構(gòu)下的 SOTA 表現(xiàn):在同為 SFT 訓(xùn)練的 ReAct Agent 競(jìng)爭(zhēng)中,OpenSeeker 取得 SOTA。僅憑借 11.7k 數(shù)據(jù),OpenSeeker 在 BrowseComp (29.5)、BrowseComp-ZH (48.4)、xbench (74.0) 和 WideSearch-EN (59.4) 四大榜單上均取得最優(yōu)成績(jī),顯著拉開(kāi)了與阿里巴巴通義實(shí)驗(yàn)室提出的 WebSailor-V2、WebLeaper 等同類開(kāi)源模型的差距。
![]()
同等數(shù)據(jù)規(guī)模下的顯著優(yōu)勢(shì),凸顯極高數(shù)據(jù)質(zhì)量:在控制數(shù)據(jù)量規(guī)模可比的情況下(10k-15k 級(jí)別),OpenSeeker 的數(shù)據(jù)質(zhì)量明顯優(yōu)于阿里巴巴通義實(shí)驗(yàn)室的 WebSailer-V2 和 WebLeaper 的各類組合版本,在各項(xiàng)指標(biāo)上均保持顯著優(yōu)勢(shì)。
![]()
遠(yuǎn)超 Benchmark 的數(shù)據(jù)難度:為了量化數(shù)據(jù)難度,研究團(tuán)隊(duì)使用相同的模型對(duì)合成數(shù)據(jù)和標(biāo)準(zhǔn) Benchmark 進(jìn)行了推理對(duì)比。結(jié)果顯示:
- 合成的中文數(shù)據(jù)難度遠(yuǎn)超 BrowseComp-ZH:每條軌跡平均需要進(jìn)行46.35 次工具調(diào)用,平均 token 長(zhǎng)度高達(dá)76.1k;而 BrowseComp-ZH 分別僅為 26.98 次和 15.1k tokens。
- 英文數(shù)據(jù)的難度也達(dá)到了與 BrowseComp-EN 相媲美的水平。
![]()
社區(qū)反響:真正推動(dòng)領(lǐng)域發(fā)展的底層開(kāi)源支撐
OpenSeeker 一經(jīng)發(fā)布,便在海外社交平臺(tái)和開(kāi)源社區(qū)引發(fā)了熱烈反響。許多研究者與開(kāi)發(fā)者紛紛表示,這正是目前學(xué)術(shù)界最迫切需要的破局之作:
![]()
- 明確科研與數(shù)據(jù)的邊界:“這才是真正能推動(dòng)領(lǐng)域發(fā)展的開(kāi)源發(fā)布。全量訓(xùn)練數(shù)據(jù)加上 30B 模型,讓研究人員終于能區(qū)分出,性能的提升到底是來(lái)自真正的方法創(chuàng)新,還是僅僅因?yàn)槌粤碎]源數(shù)據(jù)的紅利。”
- 打破數(shù)據(jù)壟斷:“現(xiàn)在,大家終于可以在沒(méi)有‘?dāng)?shù)據(jù)守門人’限制的情況下,自由構(gòu)建多步智能體了!”
- 呼喚已久的透明度:“AI Agent 終于迎來(lái)了數(shù)據(jù)透明,太令人振奮了!”、“開(kāi)源再次勝利!”
這不僅是一個(gè) SOTA 模型,更是賦能整個(gè)學(xué)術(shù)界探索下一代 Search Agent 的堅(jiān)實(shí)基座。
全面開(kāi)源,即刻體驗(yàn)!
OpenSeeker 作為首個(gè)由純學(xué)術(shù)團(tuán)隊(duì)打造、模型與全量訓(xùn)練數(shù)據(jù)完全開(kāi)源的深度搜索 Agent,從根本上打破了長(zhǎng)期以來(lái)由大廠構(gòu)筑的數(shù)據(jù)護(hù)城河,真正為科研人員提供了可直接使用、可復(fù)現(xiàn)、可擴(kuò)展的高質(zhì)量研究數(shù)據(jù)基礎(chǔ)。這一開(kāi)放不僅降低了前沿 Search Agent 研究的門檻,更讓研究者能夠?qū)W⒂诜椒▌?chuàng)新本身,而不再受限于數(shù)據(jù)。打破閉源壟斷,讓前沿研究不再遙不可及。也期待更多開(kāi)發(fā)者與研究者加入,共同探索下一代 Agent 的可能性,歡迎 Star 關(guān)注并上手體驗(yàn)!
作者介紹:
本文共同第一作者為上海交通大學(xué)博士生杜鈺文與葉銳,其中葉銳為項(xiàng)目負(fù)責(zé)人,指導(dǎo)老師為上海交通大學(xué)人工智能學(xué)院陳思衡教授,主要研究方向?yàn)?AI Agents、Agentic Science 等領(lǐng)域。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.