<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      Nature:首個(gè)能寫綜述論文的開源AI模型來了,大幅減少科研“幻覺”,堪比人類專家

      0
      分享至


      撰文丨王聰

      編輯丨王多魚

      排版丨水成文

      科學(xué)進(jìn)步取決于科研人員綜合日益增多的文獻(xiàn)資料的能力,面對(duì)科學(xué)文獻(xiàn)的爆炸式增長,科研人員如何才能快速篩選、總結(jié)海量文獻(xiàn)?大語言模型(LLM)是否能夠在這方面為科研人員提供幫助?

      在日常生活中,很多人會(huì)用到 ChatGPT、DeepSeek 等大語言模型來聊天、寫郵件或生成答案,但當(dāng)你問它一個(gè)專業(yè)、前沿的科學(xué)問題,它可能會(huì)給出看似合理但實(shí)際虛構(gòu)的答案,甚至編造根本不存在的論文引用。這種“幻覺”問題在科研領(lǐng)域尤為致命,因?yàn)闇?zhǔn)確性是科學(xué)的生命線。

      而現(xiàn)在,一項(xiàng)發(fā)表于Nature期刊的研究給出了解決方案——OpenScholar,這是一個(gè)專為科研打造的 AI 助手,不僅能準(zhǔn)確回答復(fù)雜的科學(xué)問題,生成綜述論文,還解決了 AI 喜歡胡編亂造的“幻覺”難題。


      該研究來自華盛頓大學(xué)、艾倫人工智能研究所,于 2026 年 2 月 4 日在線發(fā)表于Nature期刊,論文題為:Synthesizing scientific literature with retrieval-augmented language models。

      OpenScholar是一個(gè)檢索增強(qiáng)的語言模型(Retrieval-Augmented Language Model),它能夠從4500 萬篇開放獲取(Open Access)論文中智能檢索相關(guān)段落,生成帶引用的長篇綜述論文(涵蓋計(jì)算機(jī)科學(xué)、物理學(xué)、神經(jīng)科學(xué)和生物醫(yī)學(xué)領(lǐng)域),其引用準(zhǔn)確率與人類專家相當(dāng),并在多項(xiàng)測試中超越了 GPT-4o 等主流大模型。更令人驚喜的是,研究團(tuán)隊(duì)全面開源了 OpenScholar,為科研社區(qū)提供了一個(gè)透明、可復(fù)現(xiàn)的工具。

      OpenScholar 是什么?科研文獻(xiàn)的“智能管家”

      如果你是一名研究人員,需要寫一篇關(guān)于“人工智能在醫(yī)療診斷中的應(yīng)用”的綜述論文。通常情況下,你需要花費(fèi)數(shù)周甚至更長時(shí)間閱讀上百篇相關(guān)研究論文,篩選關(guān)鍵信息,構(gòu)思框架,最終完成綜述論文的撰寫、修改。

      OpenScholar就像一個(gè)高效的智能助手,只需輸入問題,它就能在幾分鐘內(nèi)合成一份結(jié)構(gòu)清晰、引用準(zhǔn)確的綜述論文。

      OpenScholar的核心創(chuàng)新在于其全開放、可檢索增強(qiáng)的架構(gòu)。它不依賴“黑箱” API,而是構(gòu)建了一個(gè)包含 4500 萬篇開放獲取論文的專用數(shù)據(jù)存儲(chǔ)(OpenScholar DataStore,OSDS),并配備了訓(xùn)練過的檢索器和生成模型。該系統(tǒng)通過以下步驟工作:

      1、檢索階段:從多個(gè)來源(例如學(xué)術(shù)數(shù)據(jù)庫和網(wǎng)絡(luò)搜索)智能抓取相關(guān)論文段落。

      2、生成階段:語言模型基于檢索到的內(nèi)容起草答案,并標(biāo)記引用。

      3、自反饋循環(huán):模型會(huì)自我審查初稿,提出改進(jìn)意見(例如“需要補(bǔ)充更多實(shí)驗(yàn)數(shù)據(jù)”),并迭代優(yōu)化答案,確保事實(shí)性和覆蓋范圍。


      OpenScholar 推理(上)和訓(xùn)練流程(下)

      這張圖清晰展示了OpenScholar的工作流程:從輸入查詢到最終輸出,每一步都注重證據(jù)支撐。這種設(shè)計(jì)直接針對(duì)了當(dāng)前 AI 在科學(xué)領(lǐng)域應(yīng)用的痛點(diǎn)——例如,該研究顯示,當(dāng)要求GPT-4o引用計(jì)算機(jī)科學(xué)或生物醫(yī)學(xué)等領(lǐng)域的近期文獻(xiàn)時(shí),其在 78%-90% 的情況下編造了引用,而 OpenScholar 的引用準(zhǔn)確性堪比人類專家。

      如何評(píng)估 AI 的“科研能力”?ScholarQABench 基準(zhǔn)登場

      要判斷一個(gè) AI 系統(tǒng)是否可靠,需要嚴(yán)格的測試標(biāo)準(zhǔn)。為此,研究團(tuán)隊(duì)開發(fā)了ScholarQABench,這是首個(gè)大規(guī)模、多領(lǐng)域的科學(xué)文獻(xiàn)合成基準(zhǔn)。它包含近 3000 個(gè)由專家編寫的問題,覆蓋計(jì)算機(jī)科學(xué)、物理、神經(jīng)科學(xué)和生物醫(yī)學(xué)等領(lǐng)域,要求模型生成長篇、多論文支持的答案。

      與以往只關(guān)注選擇題或短答案的基準(zhǔn)不同,ScholarQABench 引入了多維評(píng)估協(xié)議,包括自動(dòng)指標(biāo)(例如引用準(zhǔn)確性)和人類專家基于量表的評(píng)分(覆蓋范圍、連貫性、寫作質(zhì)量等)。例如,在“計(jì)算機(jī)科學(xué)”部分中,專家會(huì)列出答案必須包含的關(guān)鍵要點(diǎn),AI 的回答需要滿足這些“評(píng)分標(biāo)準(zhǔn)”才能得分。


      上圖是一個(gè)評(píng)估示例:問題、評(píng)分標(biāo)準(zhǔn)和 AI 輸出的對(duì)比。這種設(shè)計(jì)確保了評(píng)估的客觀性,避免了 AI “刷分”的可能。

      實(shí)驗(yàn)結(jié)果:小模型大能量,OpenScholar 全面領(lǐng)先

      OpenScholar在 ScholarQABench 上的測試結(jié)果令人印象深刻。盡管 OpenScholar 的核心模型參數(shù)量僅為 80 億(遠(yuǎn)小于 GPT-4o 的規(guī)模),但它在多項(xiàng)任務(wù)中表現(xiàn)優(yōu)異:

      • 正確率提升:在需要多論文合成的任務(wù)中,OpenScholar-8B 比 GPT-4o 高出 6.1%,比 PaperQA2 高出5.5%。

      • 引用準(zhǔn)確性:OpenScholar 的引用 F1 分?jǐn)?shù)達(dá)到 47.9%,而 GPT-4o 幾乎為 0。

      • 成本效益:使用高效的檢索管道,OpenScholar-8B 的成本比基于 GPT-4o 的商業(yè)系統(tǒng)更低。


      更引人注目的是人類評(píng)估結(jié)果:16 位人類專家在盲測中比較了 AI 回答和人類專家撰寫的答案。結(jié)果顯示,人類專家在 50.8% 和 70.0% 的情況下選擇了 OpenScholar-8B 和 OpenScholar-GPT-4o 的回答,而 GPT-4o 的這一比例僅為 31.9%,人類專家認(rèn)為,OpenScholar 的回答更全面、信息深度更大,而這正是撰寫綜述論文所需的關(guān)鍵能力


      AI,正在改變科研范式

      OpenScholar的推出標(biāo)志著 AI 在科學(xué)領(lǐng)域的應(yīng)用邁出重要一步。它不僅是工具的創(chuàng)新,更體現(xiàn)了開放科學(xué)的精神——通過可復(fù)現(xiàn)的系統(tǒng),降低科研門檻。對(duì)于忙碌的科學(xué)家和學(xué)生來說,這類 AI 助手有望將文獻(xiàn)回顧從“苦役”變?yōu)楦咝剿鳌?/p>


      OpenScholar、ScholarQABench 概述及評(píng)估結(jié)果

      未來,隨著多模態(tài)學(xué)習(xí)和用戶反饋的整合,OpenScholar可能會(huì)變得更智能,從而成為科研人員的真正“協(xié)作者”,讓科研工作更聚焦于創(chuàng)新而非信息篩選。

      論文鏈接

      https://www.nature.com/articles/s41586-025-10072-4


      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      鄭大一附院?暴雷!無醫(yī)德無醫(yī)風(fēng)膽大妄為,說是蛇鼠一窩都不為過

      鄭大一附院?暴雷!無醫(yī)德無醫(yī)風(fēng)膽大妄為,說是蛇鼠一窩都不為過

      達(dá)文西看世界
      2026-02-05 19:50:46
      別想歪!這幅人體油畫靠“光”就能讓你呼吸放緩?答案藏在薄紗里

      別想歪!這幅人體油畫靠“光”就能讓你呼吸放緩?答案藏在薄紗里

      陳洪標(biāo)寫字說畫
      2026-01-27 22:31:02
      這仨生肖春節(jié)財(cái)運(yùn)爆棚!不是運(yùn)氣好,是心態(tài)對(duì)了!

      這仨生肖春節(jié)財(cái)運(yùn)爆棚!不是運(yùn)氣好,是心態(tài)對(duì)了!

      毅談生肖
      2026-02-06 12:48:18
      人不會(huì)無緣無故患帶狀皰疹!調(diào)查發(fā)現(xiàn):得帶狀皰疹,離不開這4點(diǎn)

      人不會(huì)無緣無故患帶狀皰疹!調(diào)查發(fā)現(xiàn):得帶狀皰疹,離不開這4點(diǎn)

      蜉蝣說
      2026-02-04 14:40:05
      艾滋病新增130萬!很多人中招很冤枉!在外“5不碰”一定要記死

      艾滋病新增130萬!很多人中招很冤枉!在外“5不碰”一定要記死

      今朝牛馬
      2025-12-31 19:31:04
      某魚驚現(xiàn)“天價(jià)筆”:800元一支的中性筆,藏著多少骯臟暗語?

      某魚驚現(xiàn)“天價(jià)筆”:800元一支的中性筆,藏著多少骯臟暗語?

      戧詞奪理
      2026-01-24 16:05:41
      強(qiáng)勢打臉C羅!沙特聯(lián)賽官方:他無權(quán)干涉其他球隊(duì) 應(yīng)專注自身表現(xiàn)

      強(qiáng)勢打臉C羅!沙特聯(lián)賽官方:他無權(quán)干涉其他球隊(duì) 應(yīng)專注自身表現(xiàn)

      風(fēng)過鄉(xiāng)
      2026-02-06 05:47:50
      現(xiàn)貨白銀收跌20.06%,報(bào)70.902美元/盎司

      現(xiàn)貨白銀收跌20.06%,報(bào)70.902美元/盎司

      每日經(jīng)濟(jì)新聞
      2026-02-06 06:26:13
      “流氓有文化更可怕”,退休老干部頻繁聯(lián)系女幼師,聊天記錄曝光

      “流氓有文化更可怕”,退休老干部頻繁聯(lián)系女幼師,聊天記錄曝光

      妍妍教育日記
      2026-01-27 19:58:28
      同居變?nèi)壕樱∧凶优c女友同居后被女友5個(gè)閨蜜纏上,拿捏得死死的

      同居變?nèi)壕樱∧凶优c女友同居后被女友5個(gè)閨蜜纏上,拿捏得死死的

      今朝牛馬
      2026-01-16 17:30:01
      牛鬼神蛇現(xiàn)原形!聶衛(wèi)平去世僅一天,私生活被扒,王剛郎平被牽連

      牛鬼神蛇現(xiàn)原形!聶衛(wèi)平去世僅一天,私生活被扒,王剛郎平被牽連

      春露秋霜
      2026-01-16 06:27:20
      安理會(huì)以“最強(qiáng)烈措辭”譴責(zé)

      安理會(huì)以“最強(qiáng)烈措辭”譴責(zé)

      陸棄
      2026-02-05 10:12:22
      愛潑斯坦前女友在牢房活動(dòng)監(jiān)控曝光:四周都是白墻,身著橙色囚服躺床上看書

      愛潑斯坦前女友在牢房活動(dòng)監(jiān)控曝光:四周都是白墻,身著橙色囚服躺床上看書

      瀟湘晨報(bào)
      2026-02-06 11:26:12
      復(fù)出延期!崔永熙將缺席CBA杯賽 第二階段再復(fù)出馳援廣東

      復(fù)出延期!崔永熙將缺席CBA杯賽 第二階段再復(fù)出馳援廣東

      醉臥浮生
      2026-02-06 12:08:31
      烏克蘭大規(guī)模空襲圣彼得堡等地,擊中俄運(yùn)兵列車、煉油廠多個(gè)目標(biāo)

      烏克蘭大規(guī)模空襲圣彼得堡等地,擊中俄運(yùn)兵列車、煉油廠多個(gè)目標(biāo)

      火星宏觀
      2026-02-06 11:45:31
      德國總理:歐洲要知恥,除了中文和英語,世界上應(yīng)該有第三種聲音

      德國總理:歐洲要知恥,除了中文和英語,世界上應(yīng)該有第三種聲音

      議紀(jì)史
      2026-02-05 14:40:03
      叛國者黃宇細(xì)節(jié)曝光:十年間出賣15萬余份資料,原單位29人受處分

      叛國者黃宇細(xì)節(jié)曝光:十年間出賣15萬余份資料,原單位29人受處分

      談史論天地
      2026-02-06 13:30:03
      大爆冷!2換1特雷楊+9換4濃眉哥連續(xù)補(bǔ)強(qiáng)后 倒數(shù)第二力擒東部第一

      大爆冷!2換1特雷楊+9換4濃眉哥連續(xù)補(bǔ)強(qiáng)后 倒數(shù)第二力擒東部第一

      鍋?zhàn)踊@球
      2026-02-06 12:29:37
      專家提醒:不要買!不要吃!里面含有硼砂,危害健康,別害了自己

      專家提醒:不要買!不要吃!里面含有硼砂,危害健康,別害了自己

      蜉蝣說
      2025-10-31 10:56:39
      中方火力全開,巴拿馬踢到鐵板,特朗普來電交底,不想跟中國翻臉

      中方火力全開,巴拿馬踢到鐵板,特朗普來電交底,不想跟中國翻臉

      東極妙嚴(yán)
      2026-02-05 15:28:10
      2026-02-06 14:32:49
      生物世界 incentive-icons
      生物世界
      最前沿、最有趣的生命科學(xué)研究
      8850文章數(shù) 144991關(guān)注度
      往期回顧 全部

      科技要聞

      微信封禁元寶紅包后,又把阿里千問封了

      頭條要聞

      女子付4980元買500雙鞋僅收90余雙 涉事商家銷號(hào)失聯(lián)

      頭條要聞

      女子付4980元買500雙鞋僅收90余雙 涉事商家銷號(hào)失聯(lián)

      體育要聞

      西甲射手榜第2,身價(jià)不到姆巴佩1/40

      娛樂要聞

      微博之夜紅毯好精彩,堪比婚禮現(xiàn)場

      財(cái)經(jīng)要聞

      很意外,美債危機(jī)要化解了

      汽車要聞

      標(biāo)配華為乾崑解決方案 華境S完成六座滿載冬測

      態(tài)度原創(chuàng)

      家居
      手機(jī)
      親子
      房產(chǎn)
      公開課

      家居要聞

      現(xiàn)代輕奢 溫馨治愈系

      手機(jī)要聞

      JK女神千咲登場!紅魔11 Pro+鳴潮限定版發(fā)布:6999元

      親子要聞

      2026年寶寶奶粉解析:皇家美素佳兒憑什么穩(wěn)居家長優(yōu)選清單?

      房產(chǎn)要聞

      新春三亞置業(yè),看過這個(gè)熱盤再說!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版