![]()
作者 | 論文團隊
編輯 | ScienceAI
在臨床工作中,醫生每天都要面對復雜的推理過程:從病人主訴、化驗數據、影像學檢查,到診斷、治療方案和隨訪決策。
但這些過程不僅繁瑣,還充滿不確定性。能否讓人工智能來幫忙?
近年來,大型語言模型(LLMs)在醫療健康領域展現出前所未有的潛力。它們能讀懂病歷、生成診斷意見,甚至和患者對話。但要真正成為臨床的「智慧助手」,LLMs 需要的不僅是語言能力,更是醫學推理能力。
最近,一項由香港理工大學的研究者主導完成的綜述 ——《Aligning Clinical Needs and AI Capabilities: A Survey on LLMs for Medical Reasoning》,首次系統梳理了醫學推理的全景圖:需求、方法、數據、挑戰與未來方向。
![]()
論文鏈接:https://www.techrxiv.org/users/966100/articles/1334596-aligning-clinical-needs-and-ai-capabilities-a-survey-on-llms-for-medical-reasoning
Github鏈接(整理的現有的工作,更新中,歡迎補充):https://github.com/pqpq17/Awesome-LLM-Reasoning-on-Medicine
五級醫學推理能力框架
![]()
該綜述基于 Miller’s Pyramid(米勒金字塔),提出了五級醫學推理能力分層體系:
- Level 1:醫學知識識別與標準化(Knows)
- Level 2:信息分類與初步分診(Knows How)
- Level 3:因果推理與綜合診斷(Shows How)
- Level 4:臨床決策支持與個性化推薦(Shows How / Does)
- Level 5:動態交互與復雜場景管理(Does)
這個框架清晰描繪了 LLM 從「會認知識」到「能當助手」的進階路徑,對現有benchmark/dataset的做出了清晰的劃分。
此外,基于這個五級分類體系以及Reasoning類型的討論,該綜述明確指出一個雙視角(即computational & clinical)的對齊框架。
首個標準化五級基準數據集
![]()
該綜述構建了一個包含 5,000 條標注樣本的基準數據集,覆蓋五個層次的能力要求,并首次系統評測了 18 個代表性模型。
結果顯示:
- 專科模型 → 在診斷類任務上更突出
- 通用大模型 → 在決策支持、對話和總結上表現更佳
這為未來的模型選擇和任務分工提供了實證依據。
前沿方法全景回顧
![]()
該綜述全面回顧了醫學 LLM 中的主流推理范式:
- 鏈式推理(CoT):逐步解釋,思路清晰
- 長鏈推理(Long-CoT):更深入的逐步分析,包含自我修正
- 檢索增強推理(RAG):結合醫學文獻和知識庫
- 多模態推理:同時理解病歷、影像和文本
- 智能體推理(Agentic Reasoning):主動規劃、調用外部工具、動態決策
同時,也直面四大挑戰:
- 高質量醫學數據不足
- 「幻覺」問題仍然存在
- 缺乏證據溯源與臨床可解釋性
- 模型結果不確定性難以控制
社會意義
這項工作不僅僅是綜述,更是一種「對齊」的嘗試:
- 對齊臨床需求:明確醫生真正需要的推理能力
- 對齊 AI 能力:梳理當前模型能做什么、還欠缺什么
- 對齊未來方向:為科研、產業和醫療實踐提供參考
研究團隊希望這項工作能推動醫學大模型真正落地臨床,從「實驗室里的聰明模型」變成「病房里的可靠助手」。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.