撰文丨王聰
編輯丨王多魚
排版丨水成文
近日,來自中山大學中山眼科中心的一篇新論文登上了Cell Press官網頭條。
![]()
該研究以: The effectiveness of large language models in medical AI research for physicians: A randomized controlled trial 為題,于 2025 年 11 月 26 日發表于 Cell 子刊Cell Reports Medicine上 。 中山大學中山眼科中心林浩添教授、陳文賁副研究員為論文共同通訊作者,尚元君博士、林遠帆博士和李睿揚助理研究員為論文共同第一作者。
這項隨機對照試驗評估了大語言模型(LLM)在醫學人工智能研究中對醫生的有效性,結果顯示,大語言模型能夠幫助醫生克服技術障礙,協助醫生開展醫療人工智能研究,但也存在著幻覺和依賴性風險。
![]()
近年來,促進生物學、化學、物理學、材料科學、計算機科學和工程學等不同科學領域合作的跨學科研究,推動了眾多科學領域的突破,并開辟了新的增長途徑。例如,在數字醫學領域,臨床實踐、計算機科學及其他學科的知識和技術的融合,極大地推動了醫療保健服務的提升、患者參與度的提高、臨床結果的改善以及醫療保健系統的優化。
然而,盡管諸如人工智能(AI)之類的技術在生物醫學領域展現出巨大的應用潛力,但其廣泛應用卻因技術障礙而受到極大限制。醫生能夠提供寶貴的臨床見解和第一手經驗,但由于缺乏必要的多學科專業知識或技能,以及難以獲得工程技術人員的支持,他們在涉及 AI 技術的問題導向型研究中的參與可能會受到極大阻礙。對于那些身處偏遠醫院或大學的小型研究團隊或臨床團隊,以及那些難以獲取研究資源、跨學科合作和技術支持的年輕醫生來說,這一挑戰尤為明顯。
在這項最新研究中,研究團隊開展了一項優效性、開放標簽的隨機對照試驗,招募了64名初級眼科醫生,在最小化工程輔助的情況下進行為期兩周的“自動化白內障識別”項目。其中干預組(32人)使用大語言模型(LLM)ChatGPT-3.5,對照組(32人)則不使用。
結果顯示,干預組的項目總完成率高于對照組(87.5% vs. 25.0%),無輔助完成率同樣更高(68.7% vs. 3.1%)。干預組展現出更優的項目規劃能力和更短的完成時間。經過兩周洗脫期后,41.2% 的成功干預組參與者在沒有大語言模型(LLM)支持的情況下完成了新項目。
調查顯示,42.6% 的參與者擔心會不加理解地復述 AI 給出的信息,40.4% 的參與者擔憂 AI 會助長惰性思維,這表明 AI 對于醫生而言可能存在潛在依賴性風險。
因此,大語言模型雖能幫助醫生克服技術障礙,但其長期風險仍需進一步研究。
該研究的核心發現:
大語言模型(LLM)協助醫生開展醫療 AI 項目,完成率從 25% 提升至 87%;
在洗脫期后,41% 的成功干預醫生能夠獨立完成新項目;
大語言模型使醫療 AI 研究民主化,但存在幻覺和依賴風險;
提出了與大語言模型有效互動的初步提示指南。
![]()
總的來說,這項研究證明,大語言模型(LLM)能夠有效地幫助醫生克服與醫療 AI 項目的設計、執行和報告相關的專業知識和技術障礙。然而,該研究也觀察到使用大語言模型存在某些風險,例如 AI 的幻覺以及可能產生的依賴傾向。因此,還需要進一步的研究來評估長期使用大語言模型所形成的依賴風險。
論文鏈接:
https://www.cell.com/cell-reports-medicine/fulltext/S2666-3791(25)00542-7
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.