![]()
AI 正越來越廣泛的應用在各類科研工作里,它對數據的處理能力在加強循證醫學方面具有巨大潛力,但由于訓練和評估不足而受到限制。
考慮到這種情況,美國 KeiJi AI 牽頭了一項研究,提出了 LEADS,這是一種 AI 基礎模型,該模型在 633,759 個樣本上進行了訓練,并于測試中達到了 0.81 的召回率與 0.85 的數據提取準確率。
相關研究內容以「A foundation model for human-AI collaboration in medical literature mining」為題,于 2025 年 9 月 24 日發布在《Nature Communications》。
![]()
論文鏈接:https://www.nature.com/articles/s41467-025-62058-5
高代價的工作還是交給AI
文獻挖掘,在當下各類期刊、綜述類文章頻出的當下,顯得越發重要,尤其是系統評價的激增。但是考慮到每年發布的文章數量與系統文件評價所需要的時間與成本,無疑讓一切都顯得障礙重重。
而諸如 ChatGPT 這樣的大語言模型(LLMs),它們作為通用 AI 能夠適應各種任務,有些還推出了以理解分析為主要導向的學習功能。這些基礎模型通常通過兩種主要方法適應醫學任務:提示,如情境學習(ICL)、思維鏈(CoT)和檢索增強生成(RAG);以及針對特定任務的微調,如命名實體識別和證據摘要。
但是,研究團隊發現,用 GPT-4o 這樣的通用模型來挖掘醫學文獻,常常出現召回率不足、提取信息不準的問題。換句話說,它懂語言,但不夠懂「醫學文獻套路」。所以,大家決定打造一個專門的基礎模型,LEADS 就此誕生。
![]()
圖 1:LEADS 和 LEADSInstruct 概述。
LEADS 基于通用大模型(Mistral-7B),再用大規模醫學綜述數據集 LEADSInstruct 進行指令微調。該數據集來源于21,335 篇系統綜述、453,625 篇相關文獻、27,015 個臨床試驗記錄,覆蓋了633,759 條指令樣本。
這種全面的訓練策略使 LEADS 能夠實現多任務能力,處理靈活的輸入請求,并在不進行額外微調的情況下泛化到各種文獻主題。在團隊的關于廣泛綜述主題和數千項系統評價的實驗中,LEADS 在所有目標任務上均優于 GPT-4o 等尖端通用 LLM。
訓練的方式還是很直接的,就像《我愛發明》的經典環節一樣:人工組對 AI 組。
測試與人機對比
LEADS 解決了系統評價方法中的三個基本任務:文獻檢索、引文篩選和數據提取。在出版物和臨床試驗搜索任務中的性能評估里,LEADS 在兩個任務中實現了 24.68 和 32.11 的召回率,分別超過了最佳基線 3.76 和 7.43。
在實際應用中,可以采用集成方法,并使用匯總結果以最大化覆蓋范圍,團隊將此稱為 LEADS + 集成。這種方法顯著提高了性能,與單次遍歷的 LEADS 相比,召回率提高了三到四倍,對于出版物搜索的平均召回率超過 70,對于試驗搜索任務超過 65。
![]()
圖 2:LEADS 執行文獻篩選任務。
除此之外,團隊還就文獻檢索、自動化評估與提取數據簡化等方向對模型展開了評估,均表現出了優異的性能。在隨后進行的專家+AI 與純專家組的對比中,這一點會更直觀地反映出來。
![]()
圖 3:研究篩選和數據提取的試點用戶研究。
在模擬實驗中,專家單干的召回率是 0.78,加上 LEADS 提升到 0.81;平均用時從 580 秒降到 449 秒,節省了約 20.8% 的時間。數據提取的準確率由 0.80 提升到 0.85;時間從 113.9 秒降到 83.3 秒,節省了 26.9%。
團隊表示:LEADS 排除的幾乎所有研究也都被人工審稿人排除,且 LEADS 的 Recall@100 超過 90%,這意味著在實踐中,專家可以放心地主要關注前 100 個結果,而不會錯過相關研究。
刷文獻的好方法
LEADS 的出現,意味著醫學研究不再只能靠研究者「手動刨文獻」。它不是要取代專家,而是幫他們減輕負擔,讓結果更快、更準。憑借其設計,LEADS 可以無縫集成到現有的 TrialMind 網絡平臺作為后端組件,使醫學專業人士能夠無任何技術障礙地使用它。
但究其本質仍然只是一個挖掘信息的道具,LEADS 還是依賴于從醫學文獻中獲取的培訓數據以及指令數據生成管道的質量。不過,既然它已經表現出來優于通用 LLMs 的卓越性能,那不妨就此嘗試一下人機協作。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.