網易首頁 > 網易號 > 正文申請入駐

Nature和Science同時報道了一篇論文，試圖根治AI幻覺

2026-02-05 19:44:47　來源: 新智元

北京舉報

分享至

新智元報道

編輯：艾倫

【新智元導讀】《Nature》重磅：80 億參數小模型 OpenScholar 終結「參數崇拜」！它摒棄死記硬背，憑「檢索+自查」根治幻覺，在科學綜述任務上表現超越行業頂尖巨頭。

昨天，一篇剛剛登上《Nature》正刊的論文，開源了名為 OpenScholar 的模型，也同時被 Science 報道了。

它只有 8B 參數，但正是這個小模型，在科學文獻綜述任務上，擊敗了旗艦模型。

這是一場范式轉移的信號：在嚴謹的科學探索中，全知全能的「黑盒」記憶已成過去，精準調用的「外掛」知識庫才是未來。

告別幻覺

彼時，科研人員對通用大模型愛恨交織。

恨意主要源于那個致命缺陷——幻覺。

當時的數據令人觸目驚心：當被要求回答生物醫學等領域的專業問題時，AI 偽造引用的比例一度高達 90%。

它能自信地編造出不存在的論文標題、作者甚至頁碼。對于需要字斟句酌的科學研究，這種不可靠性是毀滅性的。

OpenScholar 的出現，正是為了修正這一偏差。

由華盛頓大學和艾倫人工智能研究所（Ai2）主導開發的這套系統，本質上不再試圖讓模型「記住」所有知識，而是教會模型如何像人類學者一樣去「查資料」。

OpenScholar 并不依賴參數中的模糊記憶，它外接了一個包含 4500 萬篇開放獲取論文的巨型數據庫。

當你提出一個問題時，它不會直接生成答案，而是執行一套嚴密的流程：

檢索：先在 4500 萬篇文獻中快速撈取最相關的片段。
重排序：利用交叉編碼器對片段進行精細篩選，去偽存真。
生成與反饋：這是最關鍵的一步。模型生成答案草稿后，會進行自我審查——「這句話有證據支持嗎？」如果發現證據不足，它會發起第二輪、第三輪檢索，直到每一條論述都有確鑿的文獻背書。

結果是降維打擊式的。在涵蓋計算機科學、物理學等領域的 ScholarQABench 基準測試中，OpenScholar-8B 的正確率不僅超越了當時的旗艦模型，更將推理成本降低了兩個數量級（約 0.003 美元/次）。

它證明了在特定領域，一個帶了「圖書館」的本科生，比一個赤手空拳卻愛產生幻覺的博士生更可靠。

DR Tulu

從「回答問題」到「深度研究」

如果說 OpenScholar 解決的是「準確性」問題，那么素材中提及的后續迭代版本——DR Tulu（Deep Research Tulu），則是在向「深度」進軍。

科研往往不是簡單的一問一答，而是漫長的探索與綜合。

2025年11月發布的 DR Tulu，針對的是長篇幅、多維度的「深度研究」任務。

它的核心突破在于引入了「演化評分規則的強化學習」（RLER, Reinforcement Learning with Evolving Rubrics）。

在以往的訓練中，AI 很難判斷一篇長達數千字的文獻綜述寫得好不好。

DR Tulu 并不依賴固定的評分標準，而是讓模型在搜索和研究的過程中，動態生成針對當前問題的評分細則。

它既學習「什么是好的研究策略」（如挖掘冷門數據源），也學習「什么是壞的行為」（如為了湊字數而堆砌引用）。

這種訓練讓 DR Tulu 具備了更強的規劃能力。

面對復雜的科學命題，它能像成熟的研究員一樣，先制定大綱，再分頭檢索，最后綜合多源信息撰寫長篇報告。

在最新的測試中，DR Tulu-8B 的表現已經足以比肩甚至超越當時的旗艦專有模型，且代碼和權重完全開源。

幕后推手：Akari Asai

這一系列顛覆性工作的核心人物，是即將于2026年秋季入職卡內基梅隆大學（CMU）的 Akari Asai（淺井明里）。

這位從東京大學本科畢業、在華盛頓大學獲得博士學位的年輕學者，是近年來「檢索增強生成」（RAG）領域最活躍的聲音之一。

早在 Meta AI 實習期間，她就致力于解決大模型的知識瓶頸問題。

Akari Asai 的研究哲學非常清晰：不要試圖把世界裝進模型里，要讓模型學會擁抱世界。

她主導的 OpenScholar 和 DR Tulu 項目，不僅是技術上的精進，更帶有一種強烈的「民主化」色彩。

通過開源高性能的小模型和檢索架構，她正在打破只有科技巨頭才能壟斷頂級科研 AI 工具的局面，讓全球資源匱乏地區的科學家也能擁有一位不知疲倦的「超級科研助理」。

結語

科學的本質不是記憶，而是發現。

當我們將 AI 從死記硬背的參數競賽中解放出來，賦予其查閱、驗證和反思的能力時，我們創造的不再是一個僅僅會聊天的機器，而是一把能幫人類在浩瀚知識海洋中披荊斬棘的利刃。

未來的科研，或許不再取決于你讀過多少論文，而在于你如何駕馭那位讀過所有論文的 AI 助手。

參考資料：

https://www.nature.com/articles/s41586-025-10072-4

https://www.science.org/content/article/open-source-ai-program-can-answer-science-questions-better-humans

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.