<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      AI醫(yī)生考試高分,實戰(zhàn)不及格?Nature Medicine論文顯示,AI大模型不能幫助公眾作出更好的醫(yī)療決策

      0
      分享至


      撰文丨王聰

      編輯丨王多魚

      排版丨水成文

      當(dāng)你感覺的身體不適時,是否考慮過向 AI 咨詢醫(yī)療建議?

      全世界的全球醫(yī)療保健提供者正在探索使用大語言模型(LLM)為公眾提供醫(yī)療建議。如今,LLM 在醫(yī)學(xué)執(zhí)業(yè)考試中幾乎能取得滿分,然而,考試所考察的是對標(biāo)準(zhǔn)化知識的記憶和理解。LLM 在這方面是“超級優(yōu)等生”,能快速檢索海量信息。但在現(xiàn)實場景中,醫(yī)療決策更像是一門藝術(shù),需要整合模糊、不完整甚至矛盾的病人信息(癥狀、病史、情緒、社會經(jīng)濟(jì)因素等),并進(jìn)行權(quán)衡。因此,LLM 強(qiáng)大的考試能力,是否能夠轉(zhuǎn)換為在現(xiàn)實醫(yī)療場景中的表現(xiàn),仍有待觀察。

      此外,華山醫(yī)院張文宏醫(yī)生近日在高山書院論壇上明確表示,反對將 AI 系統(tǒng)性地引入醫(yī)院病歷和日常診療流程,其擔(dān)心 AI 可能會削弱年輕醫(yī)生的臨床思維訓(xùn)練與專業(yè)判斷能力。

      2026 年 2 月 9 日,牛津大學(xué)的研究人員在國際頂尖醫(yī)學(xué)期刊Nature Medicine上發(fā)表了題為:Reliability of LLMs as medical assistants for the general public: a randomized preregistered study 的研究論文。

      該研究進(jìn)行了一項大規(guī)模隨機(jī)對照試驗,以測試大語言模型(LLM)作為公眾醫(yī)療助手的實際效果,結(jié)果出人意料——在各種醫(yī)學(xué)考試中表現(xiàn)優(yōu)異、甚至堪比人類專家的大語言模型,在真實醫(yī)療場景中,或許并不能有效幫助公眾診斷疾病并做出正確的健康決策。這提示了基于大語言模型的 AI 醫(yī)生還需要在未來設(shè)計中更好地支持真實用戶,才能安全用于向公眾提供醫(yī)學(xué)建議。


      理想豐滿——LLM醫(yī)學(xué)知識豐富

      近來,人工智能(AI)研究取得的突破有可能通過擴(kuò)大醫(yī)療知識的獲取途徑、讓醫(yī)療服務(wù)更貼近患者來實現(xiàn)醫(yī)療保健的普及化。OpenAI 開發(fā)的ChatGPT及谷歌開發(fā)的Med-PaLM 2大語言模型(LLM),在各類醫(yī)學(xué)考試中表現(xiàn)優(yōu)異,甚至達(dá)到人類醫(yī)學(xué)專家的水平。這些成就讓人們對于 AI 在醫(yī)療領(lǐng)域的應(yīng)用充滿期待,特別是在醫(yī)療資源不發(fā)達(dá)的地區(qū),AI 醫(yī)生被視為解決醫(yī)療資源分布不均的有效手段。

      實際上,調(diào)查結(jié)果也顯示,越來越多的人開始向 AI 聊天機(jī)器人咨詢健康相關(guān)問題。然而,在醫(yī)學(xué)考試中獲得高分,是否意味著這些 AI 就能在真實醫(yī)療場景中發(fā)揮作用?

      現(xiàn)實骨感——LLM診斷和決策能力有限

      在這項最新研究中,研究團(tuán)隊進(jìn)行了一項開創(chuàng)性試驗,以測試大語言模型(LLM)能夠幫助公眾準(zhǔn)確辨別醫(yī)療病癥(例如普通感冒、貧血或膽結(jié)石)并選擇一種行動方案(例如呼叫救護(hù)車或聯(lián)系全科醫(yī)生)。

      研究團(tuán)隊招募了 1298 名受試者,他們每人被指派了 10 種不同的醫(yī)療情景,并讓他們隨機(jī)使用三個 LLM(GPT-4o、Llama 3 或 Command R+)中的一個,或使用他們的常用資源(例如互聯(lián)網(wǎng)搜索引擎)作為對照組。


      試驗結(jié)果令人驚訝,在不用人類受試者進(jìn)行測試時,這些 LLM 能夠準(zhǔn)確完成上述情景,識別疾病的準(zhǔn)確率高達(dá) 94.9%,選擇行動方案的正確率為 56.3%。然而,當(dāng)這些人類受試者使用相同的 LLM 時,相關(guān)病癥的識別正確率低于34.5%,選擇行動方案的正確率低于44.2%,這些結(jié)果甚至沒有超過對照組。


      也就是說,人類患者在真實醫(yī)療場景中,使用 LLM 用于疾病診斷和醫(yī)療決策時,并沒有比使用傳統(tǒng)的搜索引擎更好。這意味著,LLM 本身的醫(yī)療知識水平并未轉(zhuǎn)化為使用者的實際決策能力。

      癥結(jié)所在——人類-LLM交互難題

      為什么會出現(xiàn)這種理想與現(xiàn)實之間的巨大鴻溝呢?

      研究團(tuán)隊進(jìn)一步人工檢查了其中 30 種情況下的人類-LLM 交互,結(jié)果顯示,癥結(jié)不在于 LLM 的醫(yī)學(xué)知識儲備,而在于人類-LLM 交互難題。

      在真實醫(yī)療場景中,人類患者往往無法準(zhǔn)確描述自己的癥狀,也不知道應(yīng)該提供哪些關(guān)鍵信息,這導(dǎo)致人類患者向 LLM 提供的信息不完整或不準(zhǔn)確,而 LLM 可能過于依賴專業(yè)術(shù)語,沒能將醫(yī)學(xué)知識“翻譯”為公眾所能理解的語言,此外,LLM 有時也可能會生成誤導(dǎo)性或錯誤的信息。

      以下圖為例,人類用戶向描述了自己與外賣相關(guān)的嚴(yán)重胃痛和嘔吐癥狀,LLM 初步列舉了消化不良和胃食管反流這兩種可能性并建議咨詢醫(yī)生。人類用戶進(jìn)一步詢問就醫(yī)的緊急程度時,LLM 轉(zhuǎn)而回答了區(qū)分緊急醫(yī)療與常規(guī)體檢的一般原則。這暴露了人類用戶在提供信息不完整時,LLM 可能無法替代專業(yè)醫(yī)生的判斷。


      因此,LLM 在醫(yī)學(xué)考試中的表現(xiàn)令人印象深刻,但在與人類的真實對話中準(zhǔn)確率明顯下降,其掌握的醫(yī)學(xué)知識的專業(yè)性和公眾理解的通俗性之間存在著巨大鴻溝,標(biāo)準(zhǔn)化的醫(yī)學(xué)考試和模擬患者互動,并不能體現(xiàn) LLM 在真實場景中的表現(xiàn)。

      基于這些發(fā)現(xiàn),研究團(tuán)隊建議,LLM 在醫(yī)療領(lǐng)域大規(guī)模部署之前,應(yīng)進(jìn)行系統(tǒng)的人類用戶測試,以評估其與人類的交互能力。

      這項研究也提示我們,AI 醫(yī)療的發(fā)展路徑可能應(yīng)該是“先專業(yè)后普及”,也就是先作為專業(yè)醫(yī)生的輔助工具,待發(fā)展成熟后逐步直接服務(wù)于公眾。

      論文鏈接

      https://www.nature.com/articles/s41591-025-04074-y

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      1998年王菲在機(jī)場抱著女兒掩面哭泣,罕見流露出脆弱柔軟的一面

      1998年王菲在機(jī)場抱著女兒掩面哭泣,罕見流露出脆弱柔軟的一面

      上官晚安
      2026-02-09 03:02:25
      黃友政/溫瑞博男雙爭冠,蒯曼將戰(zhàn)佐藤瞳 | 多哈球星賽17日賽程

      黃友政/溫瑞博男雙爭冠,蒯曼將戰(zhàn)佐藤瞳 | 多哈球星賽17日賽程

      乒乓世界
      2026-01-17 10:16:36
      這就是為什么不要欺負(fù)底層員工的原因!網(wǎng)友:1600萬結(jié)款直接報廢

      這就是為什么不要欺負(fù)底層員工的原因!網(wǎng)友:1600萬結(jié)款直接報廢

      另子維愛讀史
      2026-02-01 20:32:25
      張學(xué)良評長征,一語驚醒眾人:換了誰領(lǐng)導(dǎo)長征可能都走不出1000里

      張學(xué)良評長征,一語驚醒眾人:換了誰領(lǐng)導(dǎo)長征可能都走不出1000里

      史之銘
      2026-02-11 19:05:26
      說句大家不愿承認(rèn)的實話,臺海若開戰(zhàn),第一個被拖下水的就是我們

      說句大家不愿承認(rèn)的實話,臺海若開戰(zhàn),第一個被拖下水的就是我們

      百態(tài)人間
      2026-02-11 15:44:33
      哈登效應(yīng)!小卡燃盡快船4戰(zhàn)2次不破百 騎士東部冠軍概率飆升第一

      哈登效應(yīng)!小卡燃盡快船4戰(zhàn)2次不破百 騎士東部冠軍概率飆升第一

      鍋子籃球
      2026-02-11 14:18:34
      莫拉經(jīng)紀(jì)人:為什么巴西球員能價值8000萬,墨西哥只能800萬

      莫拉經(jīng)紀(jì)人:為什么巴西球員能價值8000萬,墨西哥只能800萬

      懂球帝
      2026-02-11 14:36:37
      唏噓!38歲中國教練率東道主擊敗祖國奪金 喜極而泣+跳上擋板慶祝

      唏噓!38歲中國教練率東道主擊敗祖國奪金 喜極而泣+跳上擋板慶祝

      我愛英超
      2026-02-10 22:21:35
      狠!瘋漲5倍后高位崩盤!4天連吃2跌停!股民看得一臉懵逼!

      狠!瘋漲5倍后高位崩盤!4天連吃2跌停!股民看得一臉懵逼!

      股市皆大事
      2026-02-11 13:48:34
      WTT球星賽:4平后連得5分!向鵬首局轟11-6,1-0領(lǐng)先中立選手!

      WTT球星賽:4平后連得5分!向鵬首局轟11-6,1-0領(lǐng)先中立選手!

      劉姚堯的文字城堡
      2026-01-16 17:26:51
      印度精英層達(dá)成共識:要想成為世界大國,必須先除掉身旁一個障礙

      印度精英層達(dá)成共識:要想成為世界大國,必須先除掉身旁一個障礙

      愛吃醋的貓咪
      2026-02-10 20:12:42
      1987年總參某領(lǐng)導(dǎo)失言中國不需要航母,蕭勁光:把劉華清找來問問

      1987年總參某領(lǐng)導(dǎo)失言中國不需要航母,蕭勁光:把劉華清找來問問

      歷史甄有趣
      2026-02-07 11:50:11
      宋仲基一家被偶遇!英籍妻子氣質(zhì)出眾,1歲兒子愜意坐萬元嬰兒車

      宋仲基一家被偶遇!英籍妻子氣質(zhì)出眾,1歲兒子愜意坐萬元嬰兒車

      八卦王者
      2026-02-11 10:31:05
      斷星鏈又封Telegram!俄兵恐慌喊話普京:奪走保命工具,種瓜得瓜

      斷星鏈又封Telegram!俄兵恐慌喊話普京:奪走保命工具,種瓜得瓜

      老馬拉車莫少裝
      2026-02-11 17:15:53
      72歲老戲骨濮存昕官宣外孫女出道,尖嘴猴腮,長相遭吐槽:太丑了

      72歲老戲骨濮存昕官宣外孫女出道,尖嘴猴腮,長相遭吐槽:太丑了

      深析古今
      2025-12-08 12:29:36
      1人帶近300發(fā)步槍彈!解放軍單兵彈藥基數(shù)翻倍,從俄烏戰(zhàn)場學(xué)的?

      1人帶近300發(fā)步槍彈!解放軍單兵彈藥基數(shù)翻倍,從俄烏戰(zhàn)場學(xué)的?

      別吵吵
      2026-02-11 10:26:33
      英國戰(zhàn)后分析:打不過志愿軍的原因,太多士兵被中國人打成精神病

      英國戰(zhàn)后分析:打不過志愿軍的原因,太多士兵被中國人打成精神病

      明月清風(fēng)閣
      2026-02-11 15:20:05
      戒酒驚人發(fā)現(xiàn),研究指出:戒酒2年以上,死亡率或接近從未喝酒者

      戒酒驚人發(fā)現(xiàn),研究指出:戒酒2年以上,死亡率或接近從未喝酒者

      醫(yī)學(xué)科普匯
      2026-02-11 14:21:24
      中美通完話,不到12小時,美召集54國聚會,商議如何抗衡中國

      中美通完話,不到12小時,美召集54國聚會,商議如何抗衡中國

      歷史有些冷
      2026-02-10 09:00:17
      人到中年,就不要出軌了

      人到中年,就不要出軌了

      微微熱評
      2026-02-11 00:21:49
      2026-02-11 20:55:00
      生物世界 incentive-icons
      生物世界
      最前沿、最有趣的生命科學(xué)研究
      8869文章數(shù) 144993關(guān)注度
      往期回顧 全部

      科技要聞

      V4來了?DeepSeek 灰度測試新版本

      頭條要聞

      中方回應(yīng)"若中加達(dá)成貿(mào)易協(xié)議中方會終止加冰球運動"

      頭條要聞

      中方回應(yīng)"若中加達(dá)成貿(mào)易協(xié)議中方會終止加冰球運動"

      體育要聞

      搞垮一個冬奧選手,只需要一首歌?

      娛樂要聞

      大孤山風(fēng)波愈演愈烈 超50位明星扎堆

      財經(jīng)要聞

      習(xí)酒節(jié)前價格雪崩控量穩(wěn)價變空談

      汽車要聞

      比亞迪最美B級SUV? 宋Ultra這腰線美翻了

      態(tài)度原創(chuàng)

      時尚
      手機(jī)
      健康
      本地
      數(shù)碼

      冬季穿出高級感,全靠這3個招數(shù)簡單好懂,中年女人趕緊照搬

      手機(jī)要聞

      紅米K100系列沖高:芯片、屏幕、影像、充電全線升級,或背刺小米

      轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

      本地新聞

      下一站是嘉禾望崗,請各位乘客做好哭泣準(zhǔn)備

      數(shù)碼要聞

      i7勝i9的低噪聲猛機(jī)!雷神獵刃 超競版測評

      無障礙瀏覽 進(jìn)入關(guān)懷版