4月8日消息,近日,智源研究院聯(lián)合高校與開源社區(qū)共同研發(fā)的DeepXiv項目現(xiàn)已開源并免費開放使用。據悉,該項目是專為智能體設計的科技文獻基礎設施,旨在將論文搜索、漸進式閱讀、熱點追蹤和深度調研轉化為可調用、可編排的能力。
![]()
據介紹,DeepXiv能將讓開放科技文獻從"人類可讀"升級為"智能體可用",原生支持JSON和Markdown,使智能體可直接獲取標題、作者、摘要、參考文獻等元信息。同時,DeepXiv提供面向智能體優(yōu)化的數據組織方式,如在預覽(Preview)層面,DeepXiv 先快速獲取論文核心信息,低成本判斷相關性;再通過分塊(Chunking)功能按結構或語義切分論文內容,支持論文局部精讀;在整體閱讀過程中,DeepXiv 還會實現(xiàn)漸進披露(Progressive Disclosure):先看少量、再按需展開。
據悉,DeepXiv目前已覆蓋全量ArXiv數據,并保持每日增量更新。同時該項目正擴展至包括 PubMed Central (PMC)、ACM、bioRxiv / medRxiv / ChemRxiv 等各類 *Rxiv,以及 Semantic Scholar,等更多開放文獻源,計劃建立覆蓋超過2億篇開放科技文獻的統(tǒng)一智能體接入層。
在功能集成方面,DeepXiv基于專屬搜索引擎提供問答、信息提取及熱點追蹤等技能,其內置的深度調研Agent可串聯(lián)搜索、篩選與歸納整理等環(huán)節(jié)。
![]()
![]()
此外,不止于把論文"搜出來",DeepXiv 進一步打造了更豐富的技能:在問答能力層面,DeepXiv 可圍繞文獻直接完成信息提取與理解,例如:"論文的核心貢獻是什么?""實驗設置和對比基線是什么?",實現(xiàn)對文獻的深入理解;同時DeepXiv 還可實現(xiàn)熱點追蹤,了解每天 / 每周 / 每月關于某一主題的熱點論文有哪些?;在面向復雜問題時,DeepXiv 還將開展深入研究,例如:"過去三年關于 Agent Memory 的代表性工作有哪些?""多模態(tài)檢索增強在金融場景中的公開基準及數據集有哪些?"
據了解,DeepXiv提供多種接入形態(tài)以滿足不同需求。其中,CLI(命令行界面)為核心形態(tài),智能體可通過編排腳本實現(xiàn)工作流;同時提供MCP接入能力,支持嵌入各類智能體開發(fā)框架;此外,還為開發(fā)者提供Python SDK,用于定制化科研智能體的集成。同時,基于 deepxiv,開發(fā)者可以非常快速地封裝出一批面向具體科研任務的定制化 Skills。這意味著,DeepXiv 不只是提供一個"可調用的工具",而是在為日常科研工作流提供一層可快速復用、可持續(xù)擴展的能力底座。(袁寧)
