<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      再不怕亂引文獻(xiàn)!繞過付費(fèi)墻,BibAgent把學(xué)術(shù)核驗(yàn)轉(zhuǎn)為證據(jù)鏈

      0
      分享至


      新智元報道

      編輯:LRST

      【新智元導(dǎo)讀】大模型正在批量生成「看起來很像真的」學(xué)術(shù)論述,但這些論述背后的引用,真的成立嗎?更關(guān)鍵的是:當(dāng)被引論文被付費(fèi)墻鎖住、原文根本讀不到時,自動化核驗(yàn)是否就注定失效?BIBAGENT給出了一個極具沖擊力的答案:不破解付費(fèi)墻,也能驗(yàn)證引文語義真?zhèn)巍K状伟选覆豢稍L問原文」從驗(yàn)證終點(diǎn),改寫成一種仍可推理、仍可審計(jì)的證據(jù)場景。

      在生成式 AI 全面進(jìn)入科研寫作之后,學(xué)術(shù)世界正在遭遇一個比「寫得像不像論文」更根本的問題:它引用的文獻(xiàn),究竟有沒有真正支持它說的話?

      這并不是吹毛求疵。引用是科學(xué)論證的承重墻,決定一項(xiàng)結(jié)論究竟是建立在證據(jù)之上,還是只是披著文獻(xiàn)外衣的「合理幻覺」。

      現(xiàn)實(shí)中,錯誤引用并不罕見:把相關(guān)性說成因果,把局部結(jié)果外推為普遍規(guī)律,把綜述包裝成一手實(shí)驗(yàn)依據(jù),甚至直接引用一個根本無法定位的「幽靈文獻(xiàn)」。

      而當(dāng)大模型開始大規(guī)模生成流暢、完整、格式正確的科研文字時,這類問題正在被成倍放大。

      于是,一個看似基礎(chǔ)、其實(shí)極難的問題被推到了臺前:我們能不能把 citation verification 這件事,真正做成規(guī)模化、系統(tǒng)化、可追溯的能力?

      難點(diǎn)恰恰在于,過去絕大多數(shù)方法都默認(rèn)了一個并不真實(shí)的前提:被引論文是可以讀到全文的。

      可現(xiàn)實(shí)世界里,大量論文被鎖在 publisher paywall 之后。只要原文不可訪問,自動化引文核驗(yàn)通常就會陷入兩難:要么直接放棄,要么依賴零碎的搜索片段和模型腦補(bǔ),給出一個聽起來有理、實(shí)際上卻并不可靠的判斷。也就是說,最值得被嚴(yán)格審查的那部分引用,長期恰恰處在自動化驗(yàn)證的盲區(qū)里。

      BIBAGENT 的真正突破,就從這里開始。


      論文鏈接:https://arxiv.org/abs/2601.16993

      不是「查引用」

      而是「驗(yàn)引用語義」

      很多相關(guān)工作做的是 citation classification,或者只回答一個很粗的問題:這條引用看起來「像不像支持」這句話。

      但BIBAGENT要處理的是更難、也更接近真實(shí)學(xué)術(shù)審稿的問題:一條引用究竟有沒有被正確使用?如果錯了,錯在什么層級?證據(jù)又在哪里?

      為了讓這個問題可以被系統(tǒng)地定義和評測,論文先提出了一套統(tǒng)一的五類 miscitation taxonomy,把過去籠統(tǒng)的「壞引用」拆成五種具有操作性的錯誤類型:

      • Attribution & Traceability:引用本身無法可靠追溯,例如 ghost citation、作者或來源錯配;

      • Citation Validity:文獻(xiàn)本身不應(yīng)再被當(dāng)作當(dāng)前主張的有效證據(jù),例如撤稿論文、過時證據(jù)、二手綜述被誤當(dāng)作一手研究;

      • Content Misrepresentation:引用者實(shí)質(zhì)性歪曲、偽造或反轉(zhuǎn)了原文結(jié)論;

      • Scope Extrapolation:原文在特定對象、任務(wù)或條件下成立,卻被不當(dāng)外推到更廣范圍;

      • Evidence Characterization:對證據(jù)類型或強(qiáng)度的夸大,例如把相關(guān)性寫成因果,把邊際結(jié)果寫成定論。

      這套taxonomy的價值很大。它讓系統(tǒng)的輸出不再只是一個模糊的「對/錯」,而是一個帶有錯誤碼、證據(jù)鏈和解釋邏輯的判斷。換句話說,BIBAGENT不是在做「引用格式檢查器」,而是在做引用語義審計(jì)器

      把citation verification拆成兩個世界

      BIBAGENT最聰明的地方,在于它沒有把所有引用都塞進(jìn)同一種處理邏輯里,而是非常清楚地承認(rèn):現(xiàn)實(shí)中citation verification天生存在兩個regime。


      原文可訪問:難點(diǎn)不是「能不能看」,而是「能不能找到?jīng)Q定性證據(jù)」

      對于可訪問全文的被引論文,BIBAGENT走的是ACSV(Accessible Cited Source Verifier)分支。它沒有簡單把「引用上下文 + 被引全文」整篇喂給大模型,而是設(shè)計(jì)了一條更像真正審稿過程的漏斗式路徑:

      1. 先在被引論文中做高召回的粗檢索,抓出最相關(guān)的段落;

      2. 再用cross-encoder精排,把焦點(diǎn)縮小到更小的證據(jù)集合;

      3. 隨后用NLI判斷哪些證據(jù)窗口明顯支持、明顯沖突,先解決掉一批簡單樣本;

      4. 只有在證據(jù)弱、沖突多、語義依賴上下文時,才把問題送入更強(qiáng)的大模型做深度推理與自一致性表決。

      這條鏈路看上去像工程細(xì)節(jié),實(shí)際上恰恰擊中了citation verification的要害:決定一條引用真?zhèn)蔚年P(guān)鍵信息,往往并不在整篇論文里平均分布,而是埋在極少數(shù)局部窗口、限定條件、實(shí)驗(yàn)caveat和邊界描述里。

      如果把整篇全文暴力喂給模型,模型確實(shí)可能「讀到了很多東西」,但也更容易被長上下文稀釋、被無關(guān)段落干擾,最后輸出一段流暢卻并不真正grounded的解釋。ACSV的核心價值,就是把判斷盡可能錨定在小而準(zhǔn)的證據(jù)窗口上。

      原文不可訪問:不再「猜原文」,而是重建社區(qū)證據(jù)

      真正讓這篇論文一下子拉開層級的,是ICSV(Inaccessible Cited Source Verifier),也就是它為paywalled source設(shè)計(jì)的驗(yàn)證機(jī)制。


      這一步的思想非常漂亮:當(dāng)系統(tǒng)無法直接讀取被引論文 (B) 時,它不再試圖「假裝看過 B」,也不把問題退化成一次脆弱的網(wǎng)頁檢索;相反,它把注意力轉(zhuǎn)向所有后續(xù)引用了 B 的開放論文,去收集這些論文究竟是如何描述B的。

      具體來說,ICSV會先把當(dāng)前citing paper對 (B) 的說法,抽取成一個盡量自足、明確、去代詞化的原子claim;然后在所有可訪問的下游引用者中,提取它們關(guān)于 (B) 的局部引用語境,再通過語義聚類,把這些描述分成若干「方面」:

      例如某篇論文的方法貢獻(xiàn)、數(shù)據(jù)集角色、關(guān)鍵實(shí)驗(yàn)發(fā)現(xiàn)、適用邊界等。接著,系統(tǒng)會為每個方面蒸餾出一條規(guī)范化的 canonical evidence statement,并結(jié)合見證論文在本領(lǐng)域內(nèi)的影響力,對這些證據(jù)做加權(quán)。

      論文把這套機(jī)制稱為Evidence Committee

      它本質(zhì)上是在問一個非常有力量的問題:當(dāng)原文本身不可讀時,學(xué)術(shù)共同體究竟如何在后續(xù)文獻(xiàn)中持續(xù)描述它?

      這比簡單搜索一個摘要、抓一段snippet要可靠得多。因?yàn)樗话褑我凰槠?dāng)成「原文替身」,而是把多個獨(dú)立下游見證整合成一份帶權(quán)重、帶沖突感知、帶棄權(quán)機(jī)制的「社區(qū)證詞」。

      最后,ICSV再把這份證詞與當(dāng)前引用的說法進(jìn)行比對,判斷它是被支持、被反駁,還是證據(jù)不足。

      最關(guān)鍵的是,當(dāng)見證論文太少、證據(jù)彼此沖突、社區(qū)記憶并不穩(wěn)定時,系統(tǒng)不會硬判,而是明確輸出Undecidable。這點(diǎn)極其重要。

      它讓BIBAGENT在paywall場景下的能力,不是「神奇猜中原文內(nèi)容」,而是在證據(jù)足夠時謹(jǐn)慎判斷,在證據(jù)不足時誠實(shí)棄權(quán)。這正是一個可信核驗(yàn)系統(tǒng)該有的姿態(tài)。

      真正夠硬的benchmark

      為了系統(tǒng)評測miscitation,論文同時構(gòu)建了MISCITEBENCH。這是一個覆蓋254個JCR學(xué)科類別、21個高層級學(xué)科、共6,350條專家校驗(yàn)樣本的大規(guī)模benchmark。

      它最值得注意的,不只是「大」,而是「干凈」。作者專門設(shè)計(jì)了knowledge-blank cleanroom protocol:候選論文只有在一組強(qiáng)模型面對僅給元數(shù)據(jù)的法醫(yī)式提問時全部回答失敗,才允許進(jìn)入benchmark。

      也就是說,MISCITEBENCH有意避免讓模型靠參數(shù)記憶「背題」過關(guān),而是逼著方法真正去做citation-level reasoning。

      更進(jìn)一步,論文還確保benchmark與上面的五類taxonomy 一一對齊。

      于是,BIBAGENT 的預(yù)測空間和 benchmark 的標(biāo)簽空間是統(tǒng)一的:系統(tǒng)不僅要判斷對錯,還必須給出錯的類型。這使得它的評測目標(biāo)更加接近真實(shí)科研審稿,而不是一個過于抽象的「支持/反駁」二分類。

      結(jié)果非常硬:可訪問場景更準(zhǔn)更省,不可訪問場景第一次真正能做


      MisciteBench-Open上,也就是被引論文全文可訪問的場景,BIBAGENT相比同backbone的full-text baseline,準(zhǔn)確率提升+5.7到+19.8個點(diǎn),同時節(jié)省44.6%到79.4%的token消耗。這說明它不是靠「喂更多上下文」暴力取勝,而是靠更貼合問題結(jié)構(gòu)的agentic過程,把引用核驗(yàn)做得更準(zhǔn)、更省、更可解釋。


      而在最難、也最有現(xiàn)實(shí)意義的MisciteBench-Paywall上,差距更大。 傳統(tǒng) Search baseline 即便允許外部搜索,在強(qiáng)模型上也只有22.1到36.2的Acc-pass@3;而 BIBAGENT 的 ICSV 分支可以把結(jié)果提升到66.5到80.3。更重要的是,這個提升不是靠「偶然搜到一段相似文本」,而是來自對社區(qū)共識的系統(tǒng)重建。


      論文還做了一個非常關(guān)鍵的可靠性分析:當(dāng)某個 paywalled source 的主導(dǎo)語義方面擁有至少6個獨(dú)立downstream witnesses時,系統(tǒng)的非棄權(quán)率和條件精度都會明顯穩(wěn)定下來。這個結(jié)果并不只是一個數(shù)字,它揭示了ICSV的可信來源:它依賴的不是某次檢索運(yùn)氣,而是一個可以觀察、可以解釋的證據(jù)密度閾值。

      這篇工作的真正意義:給 AI 時代的科學(xué)寫作補(bǔ)上一層「可審計(jì)基礎(chǔ)設(shè)施」

      BIBAGENT最值得重視的地方,不只是「又做了一個論文工具」,而是它提出了一個更深的判斷:在AI 時代,寫作和驗(yàn)證必須解耦;引用完整性不能繼續(xù)停留在人工抽查,而必須進(jìn)入系統(tǒng)審計(jì)。

      它告訴我們,miscitation不是零散的寫作疏漏,而是一個可以被結(jié)構(gòu)化定義、規(guī)模化檢測、證據(jù)化追溯的問題;它也告訴我們,paywall不應(yīng)該繼續(xù)作為自動化科學(xué)核驗(yàn)的絕對終點(diǎn)。

      只要把「直接讀原文」擴(kuò)展為「重建可追溯的社區(qū)證據(jù)」,那些過去被視為無解的場景,其實(shí)可以進(jìn)入一個可驗(yàn)證、可解釋、可保守棄權(quán)的框架。

      換句話說,這篇paper修補(bǔ)的,不是citation format,而是科學(xué)寫作最底層的一條信任鏈:當(dāng)一句學(xué)術(shù)論斷被寫下時,我們終于開始有機(jī)會系統(tǒng)地追問——這條引用,真的說了你說的那句話嗎?

      參考資料:

      https://arxiv.org/abs/2601.16993

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      我在非洲開餐館,年入百萬,娶了3個老婆,如今卻很焦慮

      我在非洲開餐館,年入百萬,娶了3個老婆,如今卻很焦慮

      千秋文化
      2026-04-06 19:51:23
      海水制氫突破:真正革命不是氫便宜,而是人類開始 “開采海洋”

      海水制氫突破:真正革命不是氫便宜,而是人類開始 “開采海洋”

      臨云史策
      2026-04-08 15:10:20
      上報78億實(shí)際到賬不足1億,河南舞陽引進(jìn)省外資金數(shù)據(jù)造假,當(dāng)?shù)鼗鶎樱荷霞壷豢磾?shù)字增長

      上報78億實(shí)際到賬不足1億,河南舞陽引進(jìn)省外資金數(shù)據(jù)造假,當(dāng)?shù)鼗鶎樱荷霞壷豢磾?shù)字增長

      都市快報橙柿互動
      2026-04-08 22:18:06
      震驚!73歲日本大爺在豐田40年,退休來中國大廠,已離職在找工作

      震驚!73歲日本大爺在豐田40年,退休來中國大廠,已離職在找工作

      火山詩話
      2026-04-09 07:00:22
      美副總統(tǒng)稱美方從未承諾停火協(xié)議包含黎巴嫩

      美副總統(tǒng)稱美方從未承諾停火協(xié)議包含黎巴嫩

      國際在線
      2026-04-09 07:17:52
      全紅嬋報警:潛伏裁判給低分,郭晶晶看出貓膩,過往不公徹底曝光

      全紅嬋報警:潛伏裁判給低分,郭晶晶看出貓膩,過往不公徹底曝光

      眼光很亮
      2026-04-08 14:51:46
      涉霍爾木茲海峽草案,中俄投票反對,伊朗代表:感謝中俄“堅(jiān)定站在歷史正確一邊”

      涉霍爾木茲海峽草案,中俄投票反對,伊朗代表:感謝中俄“堅(jiān)定站在歷史正確一邊”

      環(huán)球網(wǎng)資訊
      2026-04-09 07:03:17
      大風(fēng)315 | 在淘寶買卡薩帝冰箱,店家限時優(yōu)惠又送高檔電器,保溫杯頂替冰箱發(fā)了貨,冰箱沒收到店鋪已關(guān)閉

      大風(fēng)315 | 在淘寶買卡薩帝冰箱,店家限時優(yōu)惠又送高檔電器,保溫杯頂替冰箱發(fā)了貨,冰箱沒收到店鋪已關(guān)閉

      大風(fēng)新聞
      2026-04-08 18:45:10
      抵達(dá)南京后,鄭麗文說出3句話,對賴清德稱呼變了,大陸一錘定音

      抵達(dá)南京后,鄭麗文說出3句話,對賴清德稱呼變了,大陸一錘定音

      天氣觀察站
      2026-04-09 03:24:39
      美以果然違反停火協(xié)議!再次轟炸伊朗!伊方請求中國充當(dāng)擔(dān)保國

      美以果然違反停火協(xié)議!再次轟炸伊朗!伊方請求中國充當(dāng)擔(dān)保國

      觀察者海風(fēng)
      2026-04-09 04:09:56
      中俄投下反對票!傅聰:不給使用武力開通行證

      中俄投下反對票!傅聰:不給使用武力開通行證

      看看新聞Knews
      2026-04-08 16:59:04
      河北兩名群眾、一名輔警為救落水女子不幸犧牲,四人全部遇難,事發(fā)地被市民擺滿鮮花,當(dāng)?shù)囟喾交貞?yīng)

      河北兩名群眾、一名輔警為救落水女子不幸犧牲,四人全部遇難,事發(fā)地被市民擺滿鮮花,當(dāng)?shù)囟喾交貞?yīng)

      大風(fēng)新聞
      2026-04-08 18:56:14
      當(dāng)你覺得自己沒用時,可以點(diǎn)進(jìn)來看看元宇宙的現(xiàn)狀。

      當(dāng)你覺得自己沒用時,可以點(diǎn)進(jìn)來看看元宇宙的現(xiàn)狀。

      差評XPIN
      2026-04-08 00:13:54
      張雪從凱越離開 33 字離職信意外走紅!網(wǎng)友:天馬行空又鋒芒畢露……

      張雪從凱越離開 33 字離職信意外走紅!網(wǎng)友:天馬行空又鋒芒畢露……

      互聯(lián)網(wǎng)思維
      2026-04-08 23:34:35
      福建車輛墜河5死,原因已找到,3個機(jī)會沒有抓住,丈夫責(zé)任也不小

      福建車輛墜河5死,原因已找到,3個機(jī)會沒有抓住,丈夫責(zé)任也不小

      潮鹿逐夢
      2026-04-08 13:17:07
      巴黎2-0利物浦,克瓦拉茨赫利亞一條龍,杜埃建功,利物浦0射正

      巴黎2-0利物浦,克瓦拉茨赫利亞一條龍,杜埃建功,利物浦0射正

      懂球帝
      2026-04-09 04:58:22
      中東面面觀丨美以伊戰(zhàn)爭迎來兩周停火 是暫停鍵還是休止符?

      中東面面觀丨美以伊戰(zhàn)爭迎來兩周停火 是暫停鍵還是休止符?

      極目新聞
      2026-04-09 08:07:26
      全紅嬋報警:記者楊爍被點(diǎn)名,陳芋汐評論區(qū)被沖,多家媒體發(fā)聲!

      全紅嬋報警:記者楊爍被點(diǎn)名,陳芋汐評論區(qū)被沖,多家媒體發(fā)聲!

      眼光很亮
      2026-04-08 15:20:24
      全紅嬋被誰網(wǎng)暴了?那個微信群網(wǎng)暴全紅嬋的那個微信群能跑掉嗎?

      全紅嬋被誰網(wǎng)暴了?那個微信群網(wǎng)暴全紅嬋的那個微信群能跑掉嗎?

      常識群
      2026-04-08 14:46:05
      狂銷120億,低調(diào)江門老板,默默霸榜中國摩托23年

      狂銷120億,低調(diào)江門老板,默默霸榜中國摩托23年

      快刀財經(jīng)
      2026-04-08 22:13:41
      2026-04-09 09:23:00
      新智元 incentive-icons
      新智元
      AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
      14931文章數(shù) 66755關(guān)注度
      往期回顧 全部

      科技要聞

      Meta凌晨首發(fā)閉源大模型 扎克伯格又行了?

      頭條要聞

      一天之內(nèi) 以軍空襲黎巴嫩致254死1165傷

      頭條要聞

      一天之內(nèi) 以軍空襲黎巴嫩致254死1165傷

      體育要聞

      40歲,但實(shí)力倒退12年

      娛樂要聞

      侯佩岑全家悉尼度假,一家四口幸福滿溢

      財經(jīng)要聞

      局勢再升級!霍爾木茲海峽關(guān)閉

      汽車要聞

      20萬級滿配華為全家桶 華境S是懂家庭的大六座

      態(tài)度原創(chuàng)

      時尚
      親子
      手機(jī)
      家居
      公開課

      ED網(wǎng)紅病,正在掏空年輕女性

      親子要聞

      深圳婦幼救治孕期22周超早產(chǎn)兒,出生體重僅550克

      手機(jī)要聞

      從三足鼎立到四分天下,榮耀入局強(qiáng)勢改變格局

      家居要聞

      自在恣意 侘寂風(fēng)別墅

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版