聞樂 發自 凹非寺
量子位 | 公眾號 QbitAI
AI寫論文這事兒確實不新鮮了,但天下苦假引用久矣。
以往咱用大模型寫個綜述,看著像模像樣的,結果一查參考文獻——
好家伙,論文不存在、期刊不存在、作者也不存在(扶額)。
現在不用愁了,Nature新發表了一篇研究,艾倫人工智能研究所(Ai2)和華盛頓大學開源了一個叫OpenScholar的AI系統,寫文獻綜述絕不瞎編。
![]()
背靠整整4500萬篇科學論文庫,直接把GPT-4o那種78%-90%的虛假引用率給干翻了。
那么問題來了,大家都在編,OpenScholar為啥不編?
自我反饋推理
其實主要還是因為LLM的底層邏輯就是預測下一個詞出現的概率。
當你問它一個非常生僻的學術問題時,它為了維持語言的連貫性以及“我無所不知”的人設——
會強行根據語料庫里的作者名、期刊名、標題關鍵詞,拼湊出一個看起來最像真論文的…幻覺產物。
還有,通用AI缺乏事實錨點,讀過萬卷書結果全記串了。
張教授寫過超導,李教授寫過材料,當你問它超導材料時,它能面不改色地給你編出一篇《張教授與李教授關于超導材料的巔峰對話》……
這種由于訓練數據截斷以及缺乏真實文獻驗證機制導致的假引用,真的太太太離譜了!
![]()
OpenScholar就不一樣了,不再拍腦門預測下一個詞,直接接入了一個名為ScholarStore的龐大數據庫。
這是目前公開的最大科學領域段落索引,全開源可下載,任何人都能本地部署或者擴展。
里面實打實地存了4500萬篇論文的全文和摘要,再通過RAG技術,讓每個知識點都背靠一篇真實存在的論文。
當你拋出一個科研難題,它會先在那個擁有2.37億個向量嵌入的超大數據庫里瘋狂檢索,把相關的論文片段全翻出來。
給出初稿之后,帶著生成的“這里缺少討論”“這里引文不準”“需要補搜最新進展”等反饋再檢索、再改稿,通過搜索、生成、自我審查、再搜索、再修正這套閉環,反復確認輸出的內容是不是真有論文支撐。
這樣一來顯著降低了幻覺,提高了輸出內容的覆蓋度和引文精度,整個管道還會被用來生成高質量合成數據,反哺訓練。
![]()
有多強?
但是!如果只是搜得準,那它充其量是個高級搜索引擎,OpenScholar不止如此。
它在知識合成的深度上,已經開始正面硬剛人類專家了。
研發團隊整了個叫Scholar QABench的測試集,涵蓋了計算機科學、物理、生物醫藥等最吃邏輯的領域,由3000個問題和250個長篇專家答案構成。
在自動測評上,OpenScholar-8B這個體量不算大的模型,在正確性上GPT-4o高出5%,比專業的PaperQA2也高出7%,引文準確度和人類專家持平。
![]()
團隊還搞了個“人機大戰”雙盲實驗,把AI寫的答案和實打實的博士、研究員寫的答案放一起,然后讓另一群頂級科學家來盲評打分。
16位專家兩兩對比了108份學術答案。結果顯示,OpenScholar-8B的回答有51%比人類研究者親手寫的更好,升級組合版的OpenScholar-GPT4o勝率更是沖到70%,而普通GPT-4o只有32%。
評審專家們普遍反饋,OpenScholar的優勢集中在信息覆蓋更全面、結構更清晰、邏輯連貫性更強,實用價值也更高。
作者團隊
這篇研究的一作Akari Asai是艾倫人工智能研究所研究科學家,2026年秋起將任卡內基梅隆大學助理教授。
在此之前她獲得了東京大學電氣工程與計算機科學專業的學士學位,后在華盛頓大學完成博士學業,研究聚焦于自然語言處理和機器學習,尤其側重于大型語言模型。
![]()
Jacqueline He目前在華盛頓大學讀自然語言處理專業博士,本科畢業于普林斯頓大學,曾是普林斯頓自然語言處理小組成員,主要導師是陳丹琦。
讀研之前,她還擔任過Meta的軟件工程師。
Rulin Shao本科畢業于西安交通大學,取得了數學的學士學位,后在卡內基梅隆大學完成了機器學習碩士學位,現為華盛頓大學博士生,同時也是Meta的訪問研究員。
![]()
團隊的其他作者均來自伊利諾伊大學厄巴納 - 香檳分校、卡內基梅隆大學、Meta、北卡羅來納大學教堂山分校、斯坦福大學等高校和機構。
論文地址:https://arxiv.org/abs/2411.14199
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.