<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      考試滿分,實戰卻“翻車”!《自然·醫學》刊文:AI醫療助手為何難以應用?

      0
      分享至

      大數據文摘受權轉載自學術頭條

      作者:王躍然

      身體不適時,你首先會怎么做?

      越來越多的人開始習慣向以 ChatGPT 為代表的 AI 助手尋求初步的健康分析與建議。這一趨勢背后存在切實依據:當前大語言模型(LLM)在醫學知識測評中「得分越來越高」,甚至能夠在專業醫師執照考試中達到或超越合格水平。

      然而,一項來自牛津大學研究團隊及其合作者的最新研究,卻在《自然·醫學》(

      Nature Medicine
      )上給出了警示性的答案。


      論文鏈接:https://www.nature.com/articles/s41591-025-04074-y

      研究發現,盡管 LLM 在標準化醫學測試中表現優異,但在實際與公眾交互的應用場景里,其輔助效果卻大幅衰減,不僅未能顯著提升普通人的醫療決策質量,甚至不如傳統搜索引擎的效用。這一發現對當前 AI 醫療應用的有效性評估與系統設計提出了根本性的質疑。

      醫療大模型在理論與應用的落差

      為檢驗 LLM 在真實場景中的輔助能力,研究團隊設計了一項嚴謹的對照實驗。他們招募了 1298 名英國公眾作為參與者,要求每個人針對由醫生精心編寫的 10 個不同醫療場景,完成兩項核心任務:判斷病情嚴重程度,并選擇下一步應采取的行動。


      圖|三位醫生起草了十個醫療情景,通過反復修訂直至就最佳處置方案達成五分制共識(從自我護理到救護車)。

      參與者被隨機分為四組:三個實驗組分別使用 GPT-4o、Llama 3 或 Command R+ 作為對話助手,通過聊天界面咨詢以幫助決策;一個對照組被要求使用他們通常在家庭環境中會采用的任何方法,如使用搜索引擎、查閱網站或依靠個人經驗。


      圖|研究團隊招募了 1298 名參與者,并隨機分配至四種實驗條件之一。每位參與者被隨機分配到十個醫療場景中的一個。治療組需與 LLM 對話以協助評估場景。對照組可自由使用任何方法,多數參與者采用網絡搜索或自身知識。

      實驗結果揭示了令人驚訝的差距:

      當研究團隊將完整的場景描述直接輸入 LLM,并要求其做出診斷和處置建議時,模型展現了強大的知識儲備。平均能正確識別出相關病癥的比例可達到 94.9%,對最佳處置方案的建議正確率也達到 56.3%,遠高于隨機猜測水平。

      然而,當同樣的模型交到普通參與者手中,用于輔助其決策時,效果卻急轉直下。使用 LLM 的參與者,能夠識別出至少一個相關病癥的比例驟降至不足 34.5%,選擇正確處置方案的比例也低于 44.2%。更關鍵的是,他們的表現與使用搜索引擎的對照組相比,在統計上并無顯著優勢,甚至在識別關鍵病癥方面表現更差。


      圖|LLM 單獨使用與用戶協作的性能對比。a)當直接要求 LLM 單獨完成各項任務時的表現,上圖:LLM 識別相關條件的響應比例,下圖:LLM 正確識別最佳處置方案的響應比例;b)參與者在四種實驗條件下的表現,上圖:參與者識別相關條件的響應比例,下圖:參與者正確識別最佳處置方案的響應比例。

      人機交互為何失效?

      研究通過對交互記錄的深度分析,揭示了阻礙 AI 成為可靠醫療助手的核心癥結。

      在真實的醫療場景中,醫生會通過專業問診主動引導,提取關鍵信息。但在人機對話中,這一過程出現了雙重失靈:缺乏醫學常識的普通人,往往不知道哪些癥狀是診斷的關鍵;而目前的 LLM 大多缺乏主動、系統性的問診能力,當用戶提供的信息不完整時,AI 往往基于有限的信息給出推測,便可能導致誤判。

      AI 的回答方式也給用戶制造了巨大的認知障礙。研究數據顯示,LLM 在對話中平均會給出 2.21 種可能的疾病建議。對于沒有醫學背景的普通人來說,面對 AI 拋出的一系列專業名詞,他們很難分辨其中的輕重緩急。同時,AI 常常將正確回答與誤導性信息混雜在一起,用戶在篩選信息時往往力不從心,極易誤判病情。

      更重要的是,目前的AI 安全測試存在嚴重局限。像 MedQA 這類基于醫學考題的測試,雖然能檢驗知識存儲,但其成績與模型在真實人機交互中的表現幾乎無關。采用另一個 AI 來模擬患者進行測試,雖然結果看起來更優,但其行為模式無法反映真實人類用戶的巨大變異性與復雜性。模擬測試的結果與真人實驗結果相關性極弱,無法作為可靠的安全預篩。


      圖|模型基準測試。

      研究啟示與未來展望

      這項研究不僅揭示了當前 LLM 在醫療應用中的短板,更為未來的 AI 醫療發展指明了方向。

      研究有力地證明,LLM 在醫學考試中獲得高分,絕不意味著它們能在現實世界中成為合格的助手。單純依賴現有的基準測試來評估 AI 的安全性是遠遠不夠的,真實且多樣化的用戶測試在部署前必不可少。

      要解決當前的“人機協作”困境,不能僅靠擴充模型的知識庫,未來的開發重點必須轉向提升 AI 的主動交互能力,像醫生一樣學會問診,主動收集關鍵信息,并以更易理解的方式呈現建議,降低非專業用戶的使用門檻。

      對于公眾而言,必須清醒地認識到 LLM 目前的局限性。雖然它們能提供看似合理的建議,但在識別病情嚴重程度、判斷何時需要緊急救治方面,AI 依然存在風險,過度依賴 AI 可能會延誤治療。

      展望未來,監管機構可借鑒此項研究的方法,建立以真實用戶交互效果為核心的新型評估框架。對于旨在提供醫療建議的 AI 系統,應要求其提供基于廣泛、多樣人群的實證有效性證據。LLMs 的理想角色應是提升健康素養的輔助工具,而非做出最終診斷的決策主體。任何情況下,對于急重癥狀,最安全的行動方案始終是直接聯系專業醫療人員或急救服務。

      GPU 訓練特惠!

      H100/H200 GPU算力按秒計費,平均節省開支30%以上!

      掃碼了解詳情?

      點「贊」的人都變好看了哦!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      伊朗國防部隊: 進入全面備戰狀態

      伊朗國防部隊: 進入全面備戰狀態

      每日經濟新聞
      2026-02-19 16:07:49
      意大利知名地標“愛情拱門”突然崩塌,永久消失,當地市長:曾有成千上萬的情侶來打卡,旅游業遭“毀滅性打擊”

      意大利知名地標“愛情拱門”突然崩塌,永久消失,當地市長:曾有成千上萬的情侶來打卡,旅游業遭“毀滅性打擊”

      大風新聞
      2026-02-17 19:26:03
      南京一商場晚上突發火災,看電影的觀眾緊急逃生,應急部門:火已撲滅,無人傷亡

      南京一商場晚上突發火災,看電影的觀眾緊急逃生,應急部門:火已撲滅,無人傷亡

      極目新聞
      2026-02-19 12:49:48
      浙江一地通知:即日起全域禁止銷售

      浙江一地通知:即日起全域禁止銷售

      都市快報橙柿互動
      2026-02-19 17:58:37
      后續,江蘇一家人吃飯父親酒后掀桌,兒子透露更多,以后不回家了

      后續,江蘇一家人吃飯父親酒后掀桌,兒子透露更多,以后不回家了

      離離言幾許
      2026-02-18 23:24:35
      第3金還要耐心等待!天公不作美,中國隊冬奧熱門沖金項再次延期

      第3金還要耐心等待!天公不作美,中國隊冬奧熱門沖金項再次延期

      全景體育V
      2026-02-19 10:10:31
      南方大米產量第一,為啥超市里大部分還是東北米?南方米去哪了?

      南方大米產量第一,為啥超市里大部分還是東北米?南方米去哪了?

      天下十三洲獵奇
      2026-02-18 23:53:55
      突發!美國出手封殺多家中國機構

      突發!美國出手封殺多家中國機構

      芯火相承
      2026-02-19 10:02:18
      42歲王濛再破天花板!退役12年,再次讓李琰和整個冰壇“沉默”了

      42歲王濛再破天花板!退役12年,再次讓李琰和整個冰壇“沉默”了

      翰飛觀事
      2026-02-16 11:29:39
      林丹在西班牙過年,別墅內景曝光,全家人與朋友除夕吃海鮮大餐

      林丹在西班牙過年,別墅內景曝光,全家人與朋友除夕吃海鮮大餐

      手工制作阿殲
      2026-02-19 11:58:33
      再立新功!俄價值超1.2億美元的S-300VM與道爾防空系統遭摧毀

      再立新功!俄價值超1.2億美元的S-300VM與道爾防空系統遭摧毀

      軍迷戰情室
      2026-02-18 23:58:09
      2018年,張扣扣向王家復仇,唯獨不殺王自新妻子:她有不死的理由

      2018年,張扣扣向王家復仇,唯獨不殺王自新妻子:她有不死的理由

      米果說識
      2026-02-19 09:32:34
      凌晨發送恐嚇信息?桔子酒店涉事門店:已報警,非員工發送

      凌晨發送恐嚇信息?桔子酒店涉事門店:已報警,非員工發送

      大風新聞
      2026-02-19 09:46:23
      12死!湖北煙花店爆炸:店主身份被扒,大量內幕披露,知情者發聲

      12死!湖北煙花店爆炸:店主身份被扒,大量內幕披露,知情者發聲

      博士觀察
      2026-02-19 00:06:41
      2月17日俄烏最新: 2.5 年來的最大戰果

      2月17日俄烏最新: 2.5 年來的最大戰果

      西樓飲月
      2026-02-17 20:49:47
      湖北12死煙花爆燃:死者身份公布,大量內部照流出,責任人被控制

      湖北12死煙花爆燃:死者身份公布,大量內部照流出,責任人被控制

      博士觀察
      2026-02-19 11:41:09
      尹錫悅庭審細節曝光:被判無期只瞥了一眼法官,離庭時與律師相視一笑!法官闡述為何不判死刑

      尹錫悅庭審細節曝光:被判無期只瞥了一眼法官,離庭時與律師相視一笑!法官闡述為何不判死刑

      紅星新聞
      2026-02-19 17:28:30
      太尷尬了!大年初一,上海網友哭訴稱大門被鄰居貼兩張“大字報”

      太尷尬了!大年初一,上海網友哭訴稱大門被鄰居貼兩張“大字報”

      火山詩話
      2026-02-19 15:05:12
      襄陽宜城煙花店才50多平米,要了12條人命!最害人的,或是防盜網

      襄陽宜城煙花店才50多平米,要了12條人命!最害人的,或是防盜網

      火山詩話
      2026-02-19 13:50:13
      坐3.6億飛機,戴1000萬名表,拿5000萬炒股的秦奮究竟什么背景

      坐3.6億飛機,戴1000萬名表,拿5000萬炒股的秦奮究竟什么背景

      涵豆說娛
      2026-01-19 17:21:55
      2026-02-19 18:43:00
      大數據文摘 incentive-icons
      大數據文摘
      專注大數據,每日有分享!
      6825文章數 94529關注度
      往期回顧 全部

      科技要聞

      怒燒45億,騰訊字節阿里決戰春節

      頭條要聞

      媒體:高市2.0 日本政局發生了意料之中的變動

      頭條要聞

      媒體:高市2.0 日本政局發生了意料之中的變動

      體育要聞

      中國隊第二金!徐夢桃贏女子空中技巧兩連冠 邵琪銅牌

      娛樂要聞

      明星過年百態!黃曉明等現身三亞

      財經要聞

      面條火腿香菇醬!上市公司這些年請你吃

      汽車要聞

      量產甲醇插混 吉利銀河星耀6甲醇插混版申報圖

      態度原創

      親子
      本地
      房產
      手機
      軍事航空

      親子要聞

      過年期間這幾樣東西,一口都不要給孩子吃!

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      房產要聞

      頂豪搶房潮席卷全國! 中旅馥棠公館項目395㎡大平層加推入市!

      手機要聞

      全球限14臺:Caviar推“愛之翼”限量iPhone 17 Pro/Max

      軍事要聞

      金正恩出席火箭炮贈送儀式 強調確保朝鮮安全環境

      無障礙瀏覽 進入關懷版