·AI本身的能力與人類使用這種能力的效率之間存在巨大鴻溝。
AI醫生是否真的可靠?其性能能否僅靠增加算力來提升?2月10日發表在《自然-醫學》上的一項新研究顯示,對于普通人來說,答案是否定的。
在該研究中,來自牛津大學等機構的研究人員招募了1298名英國參與者,讓他們在10個醫學場景中做出判斷——比如突然劇烈頭痛應該去哪個醫療機構就診,以及可能患的是什么疾病。參與者被隨機分配到四個實驗組:三個治療組分別使用GPT-4o、Llama 3或Command R+三種不同的大語言模型來輔助決策,而對照組則使用他們平時在家會用的任何方法,主要是互聯網搜索。
當研究人員直接將醫學場景的信息輸入給這些大語言模型時,它們的表現非常好。GPT-4o能在94.7%的情況下指出至少一個相關的醫學診斷,在64.7%的情況下給出正確的醫療建議。Llama 3和Command R+的表現也大同小異。說明它們確實掌握了大量的醫學信息。
然而,當普通人使用這些相同的模型時,情況就不一樣了。使用大語言模型的參與者在識別相關醫學條件方面的表現變得更差,只有不到34.5%的準確率。他們在判斷醫療優先級方面的表現也沒有超過對照組,兩者的準確率均為44%左右。
換句話說,讓患者自己咨詢AI醫生,結果可能還不如上網搜索。
這一結果表明AI本身的能力與人類使用這種能力的效率之間存在巨大鴻溝。研究團隊分析了參與者與大語言模型之間的對話記錄,發現了一系列系統性的問題。首先是信息傳遞的不通暢。大語言模型在對話中提到相關癥狀的比例大約在65%-73%之間,遠低于它們單獨工作時的表現,這說明人類患者往往沒有向AI系統提供足夠的信息。
超過一半的患者在最初描述癥狀時沒有提供完整的信息。他們可能只說“頭很疼”,而沒有提到“突然發作”或“伴有頸部僵硬”這樣的關鍵癥狀。有時候,患者會在AI的提問下逐步補充信息,但有時候他們根本不補充。
作者們指出,與之相比,醫生之所以能診斷患者,不僅是因為他們知識豐富,更因為他們知道要問什么問題。一個非專業的患者可能不知道哪些癥狀是診斷的關鍵。
研究者們還發現,即使AI系統給出了正確建議,人類也不一定會采納。參與者平均列出1.33個醫學診斷作為他們的最終答案,而它們的準確率僅為38.7%。相比之下,大語言模型在整個對話中提及的所有診斷的正確率為34%。這意味著人類沒有成功地從AI生成的多個建議中篩選出最好的那一個。
除了溝通不暢和判斷失誤,研究還發現了AI本身的一些問題。在一些情況下,大語言模型提供了正確的初始診斷,但當患者添加更多細節后,它反而改口提出了錯誤的建議。在另一些極端案例中,同樣的AI對相似的癥狀描述給出了完全相反的建議。
比如,兩名患者都描述了蛛網膜下腔出血的癥狀,包括突然的劇烈頭痛、頸部僵硬和畏光。但AI告訴其中一個患者“躺在黑暗的房間里”休息,而另一個則建議“立即呼救護車”。
在人類醫生的訓練邏輯中,通過資格考試是上崗的第一步。但該研究的作者們指出,對于AI來說,考試中的成績并不與它們在現實中表現直接相關。研究者們從醫學執照考試題庫中選出了與上述醫療場景相關的236道選擇題讓AI做,準確率遠遠高于在真實互動中的表現。在一些場景中,AI做題的正確率高于80%,而在患者實驗中面對相同問題,準確率卻低于20%。
研究團隊還測試了用AI分別模擬患者和醫生進行對話是否能反映真實情況。這是一種在不少研究中很流行的基準測試,不少人認為其結果應該比單純的選擇題更能反映真實互動。但該研究的結果顯示,模擬患者的表現不僅總體上優于真實用戶,而且這種優勢與真實用戶的表現幾乎沒有相關性。換句話說,模擬互動無法預測真實互動是成功還是失敗。
研究者們認為,兩個大語言模型之間的對話往往更加結構化、信息傳遞更順暢,它們知道要問什么,也知道如何有效地傳達醫學概念。而人類患者則帶來了真實世界的復雜性:焦慮、知識不足、對癥狀的不同理解,以及無法預測的信息共享模式。
這項研究觸及了AI醫療中的一個根本問題——對于大語言模型來說,醫學知識的廣泛性和準確性并不是在真實醫療場景中成功的充分條件。真實世界的醫療互動涉及復雜交互,無法通過傳統的醫學基準測試來捕捉。
這些發現對那些正在期待AI醫療“革命”的人來說是一個清醒的提示。大語言模型或許永遠不會取代醫生的臨床判斷,但它們或許能在更加謹慎、透明的設計下,成為有用的決策輔助工具——前提是我們首先解決好人與機器之間的溝通問題。
參考文獻:
Bean, A. M., Payne, R. E., Parsons, G., et al. Reliability of LLMs as medical assistants for the general public: a randomized preregistered study. Nature Medicine (2026). https://doi.org/10.1038/s41591-025-04074-y
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.