<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Nature:首個能寫綜述論文的開源AI模型來了,大幅減少科研“幻覺”,堪比人類專家

      0
      分享至


      撰文丨王聰

      編輯丨王多魚

      排版丨水成文

      科學進步取決于科研人員綜合日益增多的文獻資料的能力,面對科學文獻的爆炸式增長,科研人員如何才能快速篩選、總結海量文獻?大語言模型(LLM)是否能夠在這方面為科研人員提供幫助?

      在日常生活中,很多人會用到 ChatGPT、DeepSeek 等大語言模型來聊天、寫郵件或生成答案,但當你問它一個專業、前沿的科學問題,它可能會給出看似合理但實際虛構的答案,甚至編造根本不存在的論文引用。這種“幻覺”問題在科研領域尤為致命,因為準確性是科學的生命線。

      而現在,一項發表于Nature期刊的研究給出了解決方案——OpenScholar,這是一個專為科研打造的 AI 助手,不僅能準確回答復雜的科學問題,生成綜述論文,還解決了 AI 喜歡胡編亂造的“幻覺”難題。


      該研究來自華盛頓大學、艾倫人工智能研究所,于 2026 年 2 月 4 日在線發表于Nature期刊,論文題為:Synthesizing scientific literature with retrieval-augmented language models。

      OpenScholar是一個檢索增強的語言模型(Retrieval-Augmented Language Model),它能夠從4500 萬篇開放獲?。∣pen Access)論文中智能檢索相關段落,生成帶引用的長篇綜述論文(涵蓋計算機科學、物理學、神經科學和生物醫學領域),其引用準確率與人類專家相當,并在多項測試中超越了 GPT-4o 等主流大模型。更令人驚喜的是,研究團隊全面開源了 OpenScholar,為科研社區提供了一個透明、可復現的工具。

      OpenScholar 是什么?科研文獻的“智能管家”

      如果你是一名研究人員,需要寫一篇關于“人工智能在醫療診斷中的應用”的綜述論文。通常情況下,你需要花費數周甚至更長時間閱讀上百篇相關研究論文,篩選關鍵信息,構思框架,最終完成綜述論文的撰寫、修改。

      OpenScholar就像一個高效的智能助手,只需輸入問題,它就能在幾分鐘內合成一份結構清晰、引用準確的綜述論文。

      OpenScholar的核心創新在于其全開放、可檢索增強的架構。它不依賴“黑箱” API,而是構建了一個包含 4500 萬篇開放獲取論文的專用數據存儲(OpenScholar DataStore,OSDS),并配備了訓練過的檢索器和生成模型。該系統通過以下步驟工作:

      1、檢索階段:從多個來源(例如學術數據庫和網絡搜索)智能抓取相關論文段落。

      2、生成階段:語言模型基于檢索到的內容起草答案,并標記引用。

      3、自反饋循環:模型會自我審查初稿,提出改進意見(例如“需要補充更多實驗數據”),并迭代優化答案,確保事實性和覆蓋范圍。


      OpenScholar 推理(上)和訓練流程(下)

      這張圖清晰展示了OpenScholar的工作流程:從輸入查詢到最終輸出,每一步都注重證據支撐。這種設計直接針對了當前 AI 在科學領域應用的痛點——例如,該研究顯示,當要求GPT-4o引用計算機科學或生物醫學等領域的近期文獻時,其在 78%-90% 的情況下編造了引用,而 OpenScholar 的引用準確性堪比人類專家。

      如何評估 AI 的“科研能力”?ScholarQABench 基準登場

      要判斷一個 AI 系統是否可靠,需要嚴格的測試標準。為此,研究團隊開發了ScholarQABench,這是首個大規模、多領域的科學文獻合成基準。它包含近 3000 個由專家編寫的問題,覆蓋計算機科學、物理、神經科學和生物醫學等領域,要求模型生成長篇、多論文支持的答案。

      與以往只關注選擇題或短答案的基準不同,ScholarQABench 引入了多維評估協議,包括自動指標(例如引用準確性)和人類專家基于量表的評分(覆蓋范圍、連貫性、寫作質量等)。例如,在“計算機科學”部分中,專家會列出答案必須包含的關鍵要點,AI 的回答需要滿足這些“評分標準”才能得分。


      上圖是一個評估示例:問題、評分標準和 AI 輸出的對比。這種設計確保了評估的客觀性,避免了 AI “刷分”的可能。

      實驗結果:小模型大能量,OpenScholar 全面領先

      OpenScholar在 ScholarQABench 上的測試結果令人印象深刻。盡管 OpenScholar 的核心模型參數量僅為 80 億(遠小于 GPT-4o 的規模),但它在多項任務中表現優異:

      • 正確率提升:在需要多論文合成的任務中,OpenScholar-8B 比 GPT-4o 高出 6.1%,比 PaperQA2 高出5.5%。

      • 引用準確性:OpenScholar 的引用 F1 分數達到 47.9%,而 GPT-4o 幾乎為 0。

      • 成本效益:使用高效的檢索管道,OpenScholar-8B 的成本比基于 GPT-4o 的商業系統更低。


      更引人注目的是人類評估結果:16 位人類專家在盲測中比較了 AI 回答和人類專家撰寫的答案。結果顯示,人類專家在 50.8% 和 70.0% 的情況下選擇了 OpenScholar-8B 和 OpenScholar-GPT-4o 的回答,而 GPT-4o 的這一比例僅為 31.9%,人類專家認為,OpenScholar 的回答更全面、信息深度更大,而這正是撰寫綜述論文所需的關鍵能力


      AI,正在改變科研范式

      OpenScholar的推出標志著 AI 在科學領域的應用邁出重要一步。它不僅是工具的創新,更體現了開放科學的精神——通過可復現的系統,降低科研門檻。對于忙碌的科學家和學生來說,這類 AI 助手有望將文獻回顧從“苦役”變為高效探索。


      OpenScholar、ScholarQABench 概述及評估結果

      未來,隨著多模態學習和用戶反饋的整合,OpenScholar可能會變得更智能,從而成為科研人員的真正“協作者”,讓科研工作更聚焦于創新而非信息篩選。

      論文鏈接

      https://www.nature.com/articles/s41586-025-10072-4


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      懷胎7月孕婦與婆婆慘遭殺害,只因一條評論!行兇者:感覺受侮辱……多方發聲

      懷胎7月孕婦與婆婆慘遭殺害,只因一條評論!行兇者:感覺受侮辱……多方發聲

      上觀新聞
      2026-02-07 20:10:08
      小楊哥拿下TikTok第一網紅,年銷目標40億美元

      小楊哥拿下TikTok第一網紅,年銷目標40億美元

      出海老斯基
      2026-02-06 17:19:17
      2名印度飛餅師傅被認定“外籍專家”,每人領1000元慰問費!多方發聲

      2名印度飛餅師傅被認定“外籍專家”,每人領1000元慰問費!多方發聲

      上觀新聞
      2026-02-07 22:29:07
      3-0!哲凱賴什梅開二度,阿森納9分領跑,靜候利物浦死磕曼城

      3-0!哲凱賴什梅開二度,阿森納9分領跑,靜候利物浦死磕曼城

      我的護球最獨特
      2026-02-08 01:00:21
      50歲和尚想不開跳河輕生:寺廟回應他違反了戒律,被驅逐出寺院

      50歲和尚想不開跳河輕生:寺廟回應他違反了戒律,被驅逐出寺院

      漢史趣聞
      2026-02-07 17:03:56
      郁亮,萬科走向覆滅最大的推手

      郁亮,萬科走向覆滅最大的推手

      新浪財經
      2026-02-07 20:48:38
      固始老師新娘道歉!承認5大罪行,男方娶她花上百萬,同學曝猛料

      固始老師新娘道歉!承認5大罪行,男方娶她花上百萬,同學曝猛料

      離離言幾許
      2026-02-07 10:57:19
      1月比亞迪再簽發57億元商票!“迪鏈”轉商票提速,對供應商有何影響?

      1月比亞迪再簽發57億元商票!“迪鏈”轉商票提速,對供應商有何影響?

      產業數字金融
      2026-02-06 22:30:41
      明珍珍被執行死刑,最后照片曝光,死前已無法自理

      明珍珍被執行死刑,最后照片曝光,死前已無法自理

      復轉這些年
      2026-02-05 23:51:59
      39歲女老師出軌19歲學生:高顏值照流出,骯臟細節披露,當地回應

      39歲女老師出軌19歲學生:高顏值照流出,骯臟細節披露,當地回應

      博士觀察
      2026-02-07 18:16:24
      55.98 萬元!理想「終極版」L9 官宣,硬剛極氪 9X,能重回高端牌桌?

      55.98 萬元!理想「終極版」L9 官宣,硬剛極氪 9X,能重回高端牌桌?

      電動星球News
      2026-02-06 11:07:28
      英超第3翻車,2場丟掉5分,埃梅里怒了,爭冠希望接近破滅

      英超第3翻車,2場丟掉5分,埃梅里怒了,爭冠希望接近破滅

      足球狗說
      2026-02-08 01:04:50
      金晨交通肇事逃逸被罰1500元,警方判定其不構成犯罪

      金晨交通肇事逃逸被罰1500元,警方判定其不構成犯罪

      新京報
      2026-02-07 16:57:14
      委內瑞拉全面驅逐俄企,歐盟出臺新的對俄制裁,桑杜拒絕諾獎提名

      委內瑞拉全面驅逐俄企,歐盟出臺新的對俄制裁,桑杜拒絕諾獎提名

      史政先鋒
      2026-02-07 13:25:08
      人民日報“點名”董明珠,釋放三個強烈信號,雷軍的話真沒說錯

      人民日報“點名”董明珠,釋放三個強烈信號,雷軍的話真沒說錯

      書寫傳奇
      2026-02-07 11:45:11
      晚上8點,冬奧會首金誕生!谷愛凌逆風翻盤殺進決賽,蘇翊鳴沖冠

      晚上8點,冬奧會首金誕生!谷愛凌逆風翻盤殺進決賽,蘇翊鳴沖冠

      侃球熊弟
      2026-02-07 20:13:25
      白鹿張凌赫分手實錘?女方翻白眼不理睬,男方眼神卑微疑負了對方

      白鹿張凌赫分手實錘?女方翻白眼不理睬,男方眼神卑微疑負了對方

      手工制作阿殲
      2026-02-07 20:42:14
      特朗普想搞“五國集團”:由美國、中國、俄羅斯、印度和日本組成,取代七國集團

      特朗普想搞“五國集團”:由美國、中國、俄羅斯、印度和日本組成,取代七國集團

      揚子晚報
      2026-02-07 15:20:27
      誰碰中巴項目滅誰?瓜達爾港遇襲,48小時擊斃177人,中方4字回應

      誰碰中巴項目滅誰?瓜達爾港遇襲,48小時擊斃177人,中方4字回應

      夕陽渡史人
      2026-02-07 11:06:45
      他做到了,羅塞尼爾成為英超第2位執教前4場全勝的英格蘭教練

      他做到了,羅塞尼爾成為英超第2位執教前4場全勝的英格蘭教練

      懂球帝
      2026-02-08 01:15:20
      2026-02-08 01:23:00
      生物世界 incentive-icons
      生物世界
      最前沿、最有趣的生命科學研究
      8856文章數 144993關注度
      往期回顧 全部

      科技要聞

      小米千匹馬力新車亮相!問界M6雙動力齊報

      頭條要聞

      印度飛餅師傅被認定"外籍專家"領千元慰問費 多方發聲

      頭條要聞

      印度飛餅師傅被認定"外籍專家"領千元慰問費 多方發聲

      體育要聞

      主隊球迷唯一愛將,說自己不該在NBA打球

      娛樂要聞

      金晨處罰結果曝光!肇事逃逸被罰款

      財經要聞

      金價高波動時代來了

      汽車要聞

      工信部公告落地 全新騰勢Z9GT煥新升級

      態度原創

      游戲
      藝術
      旅游
      健康
      軍事航空

      速看!《宣誓》PS版大小66G 2月17號凌晨2點解鎖

      藝術要聞

      這些女性在俄羅斯攝影師鏡頭下,魅力四射!

      旅游要聞

      “甜”度拉滿!金灣區70項活動點亮農文商旅融合年味

      轉頭就暈的耳石癥,能開車上班嗎?

      軍事要聞

      重大轉變 特朗普簽令調整軍售排序

      無障礙瀏覽 進入關懷版