![]()
ICLR 2026 的 Rebuttal 結束了。當 OpenReview 上的喧囂散去,我們發現,作者與審稿人之間漫長的拉鋸戰,最終往往只剩下一個核心分歧:「這個想法,以前真的沒人做過嗎?」
Novelty(創新性)是學術評審中被高度關注的指標之一, 但其評估在實踐中仍高度依賴評審者的經驗判斷與檢索覆蓋。隨 arXiv 文獻數量的快速增長,僅靠人工檢索與記憶來追溯相關研究工作,已難以滿足高效的評審需求。
![]()
針對這一挑戰,復旦大學 NLP 研究團隊與其此前孵化的學術搜索平臺 WisPaper 展開合作,共同研發了 OpenNovelty——一個基于大語言模型、強調證據與可驗證性的自動化新穎性分析系統。
![]()
- 論文標題:OpenNovelty: An LLM-powered Agentic System for Verifiable Scholarly Novelty Assessment
- 論文鏈接:https://arxiv.org/abs/2601.01576
- Github 鏈接:https://github.com/january-blue/OpenNovelty
- HuggingFace:https://huggingface.co/papers/2601.01576
核心設計
OpenNovelty 的根本原則很簡單:任何關于「該論文創新性不足」的判斷,都必須附帶可追溯的真實證據,這些證據必須來自于已發表的文獻,并且能精確定位到原文具體段落。若系統未能找到相關證據,則如實說明「未發現支持該判斷的證據」。
與傳統查重僅關注文字表層重疊不同,OpenNovelty 試圖解決語義層面的重復。 系統會對投稿進行結構化抽取,將作者表述轉寫為更便于檢索與對比的學術概念短句,自動提取出論文的一個核心任務(Core Task)和若干具體貢獻(Contributions)。
此外,系統還采用了「查詢擴展(Query Expansion)」機制,針對提取出的每條信息,生成多個語義等價的變體,在 WisPaper 的索引庫中進行地毯式檢索,防止單一表述帶來的檢索遺漏。
四步分析流程:
從論文提交到生成
可驗證的新穎性評估報告
第一步:核心信息提取
系統從論文的標題、摘要和引言,精準地提取出兩類信息:
- 核心任務:論文擬解決的核心學術問題(例如:「基于多輪強化學習的 LLM 智能體長周期決策訓練」);
- 貢獻聲明:作者明確宣稱的創新點,如新方法、框架、算法或理論形式化(例如:「一個支持多種強化學習算法的統一訓練框架」)。
![]()
第二步:相關文獻檢索與篩選
基于提取的信息,系統自動生成一組學術搜索語句(包括同義詞及變體表達,避免因措辭差異而遺漏相關文獻),然后利用 WisPaper 學術引擎展開地毯式搜索。
初步檢索可能召回數百至上千篇潛在相關論文,隨后通過去重、時間過濾與篩除弱相關性文獻等步驟,最終形成約 60–80 篇用于后續分析的候選論文集合。
![]()
第三步:層次化分析與證據比對
這是系統的核心分析環節。系統會基于核心任務召回的候選論文構建層次化 taxonomy(樹狀分類體系),以呈現目標論文在相關研究脈絡中的位置。提供目標論文在候選研究脈絡中的相對定位,供評審者快速瀏覽。
針對每條貢獻聲明,系統會在貢獻召回的候選論文集合中進行逐篇對比,并嘗試給出可核驗的對應證據片段。比對的結果有如下三種:
- 能反駁(can_refute):找到已發表的論文具有相似貢獻,必須附帶雙方論文的原文摘錄作為證據。
![]()
- 無法反駁(cannot_refute):在當前檢索范圍內,未發現可質疑該創新貢獻的文獻。
- 存疑(unclear):信息不足,無法判斷。
關鍵在于:如果系統做出「能反駁」的判斷,但其提供的證據(即摘錄段落)無法在原論文中找到或匹配度過低,該判斷會自動降級為「無法反駁」。
第四步:「新穎性調查報告」生成
系統整合前三階段結果,生成包含以下模塊的評估報告:
- 論文的核心任務
- 研究領域的分類體系
- 每條創新聲明的比對結果和證據
- 綜合的「新穎性評估」敘述
對于系統給出的關鍵判斷,報告會盡量提供可追溯的候選文獻與可核驗的原文證據位置,便于評審者快速定位與人工復查。
![]()
系統部署與公開驗證
截止到 1 月 16 日,團隊已經在系統上分析了 1360 篇投稿,并且把所有生成的新穎性報告公開發布在其官方網站。任何人都可以查閱系統對某篇投稿的分析結果、檢索到的相關文獻以及判斷依據。
團隊計劃進一步將分析規模擴展至 2000+ 篇投稿,此外,還將持續優化系統,計劃將其應用于其他 AI 頂級會議,并對所收集的報告和評審證據進行深入分析。
OpenNovelty 的影響
對審稿人而言:它是一個輔助工具而非替代。系統可以幫助評審者梳理文獻脈絡,快速掌握一篇論文在領域中的位置,從而將更多精力集中于更需要人類專業判斷的關鍵環節,如研究意義、方法嚴謹性等問題。
對論文作者而言:它可作為投稿前的自查工具。如果研究具備實質創新性,系統可以提供相關證據;如果漏引了重要文獻,系統亦能指出問題。
對學術界而言:該系統提供了一種“可驗證的新穎性評估”工程路徑——用檢索到的真實文獻與貢獻級證據對比來約束結論輸出,讓判斷能夠被追溯與復核,而不是停留在模型的無證據生成。推動 AI 成為負責人的知識引證者,而非不可靠的內容生成器。
仍需人類判斷
團隊在論文里也明確指出了系統的局限性:
- 難以理解復雜的數學公式和圖表——如果一篇論文的核心創新藏在一個復雜的方程式里,系統可能會錯過;
- 只能搜到被索引過的論文,可能錯過未被收錄的小眾期刊或非英語出版物;
- 「無法反駁」僅表示在「檢索范圍內未找到」,并不等于「確實不存在」。
因此,團隊一再強調:這是輔助工具,而非決策主體。最終的學術判斷,仍然要由人類審稿人完成。
結語
OpenNovelty 的出現帶有某種實驗性的克制。它并非試圖取代現有的同行評審體系,而是作為一套第三方審計系統介入。在 Rebuttal 結束后的最終決策階段,它負責清洗迷霧,向 AC 展示那些被淹沒的證據,而將最終的價值判斷權留給人類。
目前,ICLR 2026 的部分論文查新報告已在 OpenNovelty 官網開放查閱。對于即將在明年繼續沖擊頂會的科研人員來說,這或許是一個審視自己工作的新鮮視角。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.