網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Nature和Science同時(shí)報(bào)道了一篇論文，試圖根治AI幻覺(jué)

2026-02-05 19:44:47　來(lái)源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：艾倫

【新智元導(dǎo)讀】《Nature》重磅：80 億參數(shù)小模型 OpenScholar 終結(jié)「參數(shù)崇拜」！它摒棄死記硬背，憑「檢索+自查」根治幻覺(jué)，在科學(xué)綜述任務(wù)上表現(xiàn)超越行業(yè)頂尖巨頭。

昨天，一篇?jiǎng)倓偟巧稀禢ature》正刊的論文，開(kāi)源了名為 OpenScholar 的模型，也同時(shí)被 Science 報(bào)道了。

它只有 8B 參數(shù)，但正是這個(gè)小模型，在科學(xué)文獻(xiàn)綜述任務(wù)上，擊敗了旗艦?zāi)Ｐ汀?/p>

這是一場(chǎng)范式轉(zhuǎn)移的信號(hào)：在嚴(yán)謹(jǐn)?shù)目茖W(xué)探索中，全知全能的「黑盒」記憶已成過(guò)去，精準(zhǔn)調(diào)用的「外掛」知識(shí)庫(kù)才是未來(lái)。

告別幻覺(jué)

彼時(shí)，科研人員對(duì)通用大模型愛(ài)恨交織。

恨意主要源于那個(gè)致命缺陷——幻覺(jué)。

當(dāng)時(shí)的數(shù)據(jù)令人觸目驚心：當(dāng)被要求回答生物醫(yī)學(xué)等領(lǐng)域的專(zhuān)業(yè)問(wèn)題時(shí)，AI 偽造引用的比例一度高達(dá) 90%。

它能自信地編造出不存在的論文標(biāo)題、作者甚至頁(yè)碼。對(duì)于需要字斟句酌的科學(xué)研究，這種不可靠性是毀滅性的。

OpenScholar 的出現(xiàn)，正是為了修正這一偏差。

由華盛頓大學(xué)和艾倫人工智能研究所（Ai2）主導(dǎo)開(kāi)發(fā)的這套系統(tǒng)，本質(zhì)上不再試圖讓模型「記住」所有知識(shí)，而是教會(huì)模型如何像人類(lèi)學(xué)者一樣去「查資料」。

OpenScholar 并不依賴(lài)參數(shù)中的模糊記憶，它外接了一個(gè)包含 4500 萬(wàn)篇開(kāi)放獲取論文的巨型數(shù)據(jù)庫(kù)。

當(dāng)你提出一個(gè)問(wèn)題時(shí)，它不會(huì)直接生成答案，而是執(zhí)行一套嚴(yán)密的流程：

檢索：先在 4500 萬(wàn)篇文獻(xiàn)中快速撈取最相關(guān)的片段。
重排序：利用交叉編碼器對(duì)片段進(jìn)行精細(xì)篩選，去偽存真。
生成與反饋：這是最關(guān)鍵的一步。模型生成答案草稿后，會(huì)進(jìn)行自我審查——「這句話(huà)有證據(jù)支持嗎？」如果發(fā)現(xiàn)證據(jù)不足，它會(huì)發(fā)起第二輪、第三輪檢索，直到每一條論述都有確鑿的文獻(xiàn)背書(shū)。

結(jié)果是降維打擊式的。在涵蓋計(jì)算機(jī)科學(xué)、物理學(xué)等領(lǐng)域的 ScholarQABench 基準(zhǔn)測(cè)試中，OpenScholar-8B 的正確率不僅超越了當(dāng)時(shí)的旗艦?zāi)Ｐ停鼘⑼评沓杀窘档土藘蓚€(gè)數(shù)量級(jí)（約 0.003 美元/次）。

它證明了在特定領(lǐng)域，一個(gè)帶了「圖書(shū)館」的本科生，比一個(gè)赤手空拳卻愛(ài)產(chǎn)生幻覺(jué)的博士生更可靠。

DR Tulu

從「回答問(wèn)題」到「深度研究」

如果說(shuō) OpenScholar 解決的是「準(zhǔn)確性」問(wèn)題，那么素材中提及的后續(xù)迭代版本——DR Tulu（Deep Research Tulu），則是在向「深度」進(jìn)軍。

科研往往不是簡(jiǎn)單的一問(wèn)一答，而是漫長(zhǎng)的探索與綜合。

2025年11月發(fā)布的 DR Tulu，針對(duì)的是長(zhǎng)篇幅、多維度的「深度研究」任務(wù)。

它的核心突破在于引入了「演化評(píng)分規(guī)則的強(qiáng)化學(xué)習(xí)」（RLER, Reinforcement Learning with Evolving Rubrics）。

在以往的訓(xùn)練中，AI 很難判斷一篇長(zhǎng)達(dá)數(shù)千字的文獻(xiàn)綜述寫(xiě)得好不好。

DR Tulu 并不依賴(lài)固定的評(píng)分標(biāo)準(zhǔn)，而是讓模型在搜索和研究的過(guò)程中，動(dòng)態(tài)生成針對(duì)當(dāng)前問(wèn)題的評(píng)分細(xì)則。

它既學(xué)習(xí)「什么是好的研究策略」（如挖掘冷門(mén)數(shù)據(jù)源），也學(xué)習(xí)「什么是壞的行為」（如為了湊字?jǐn)?shù)而堆砌引用）。

這種訓(xùn)練讓 DR Tulu 具備了更強(qiáng)的規(guī)劃能力。

面對(duì)復(fù)雜的科學(xué)命題，它能像成熟的研究員一樣，先制定大綱，再分頭檢索，最后綜合多源信息撰寫(xiě)長(zhǎng)篇報(bào)告。

在最新的測(cè)試中，DR Tulu-8B 的表現(xiàn)已經(jīng)足以比肩甚至超越當(dāng)時(shí)的旗艦專(zhuān)有模型，且代碼和權(quán)重完全開(kāi)源。

幕后推手：Akari Asai

這一系列顛覆性工作的核心人物，是即將于2026年秋季入職卡內(nèi)基梅隆大學(xué)（CMU）的 Akari Asai（淺井明里）。

這位從東京大學(xué)本科畢業(yè)、在華盛頓大學(xué)獲得博士學(xué)位的年輕學(xué)者，是近年來(lái)「檢索增強(qiáng)生成」（RAG）領(lǐng)域最活躍的聲音之一。

早在 Meta AI 實(shí)習(xí)期間，她就致力于解決大模型的知識(shí)瓶頸問(wèn)題。

Akari Asai 的研究哲學(xué)非常清晰：不要試圖把世界裝進(jìn)模型里，要讓模型學(xué)會(huì)擁抱世界。

她主導(dǎo)的 OpenScholar 和 DR Tulu 項(xiàng)目，不僅是技術(shù)上的精進(jìn)，更帶有一種強(qiáng)烈的「民主化」色彩。

通過(guò)開(kāi)源高性能的小模型和檢索架構(gòu)，她正在打破只有科技巨頭才能壟斷頂級(jí)科研 AI 工具的局面，讓全球資源匱乏地區(qū)的科學(xué)家也能擁有一位不知疲倦的「超級(jí)科研助理」。

結(jié)語(yǔ)

科學(xué)的本質(zhì)不是記憶，而是發(fā)現(xiàn)。

當(dāng)我們將 AI 從死記硬背的參數(shù)競(jìng)賽中解放出來(lái)，賦予其查閱、驗(yàn)證和反思的能力時(shí)，我們創(chuàng)造的不再是一個(gè)僅僅會(huì)聊天的機(jī)器，而是一把能幫人類(lèi)在浩瀚知識(shí)海洋中披荊斬棘的利刃。

未來(lái)的科研，或許不再取決于你讀過(guò)多少論文，而在于你如何駕馭那位讀過(guò)所有論文的 AI 助手。

參考資料：

https://www.nature.com/articles/s41586-025-10072-4

https://www.science.org/content/article/open-source-ai-program-can-answer-science-questions-better-humans

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.