<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      考試滿分,實(shí)戰(zhàn)卻“翻車”!《自然·醫(yī)學(xué)》刊文:AI醫(yī)療助手為何難以應(yīng)用?

      0
      分享至

      大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自學(xué)術(shù)頭條

      作者:王躍然

      身體不適時(shí),你首先會怎么做?

      越來越多的人開始習(xí)慣向以 ChatGPT 為代表的 AI 助手尋求初步的健康分析與建議。這一趨勢背后存在切實(shí)依據(jù):當(dāng)前大語言模型(LLM)在醫(yī)學(xué)知識測評中「得分越來越高」,甚至能夠在專業(yè)醫(yī)師執(zhí)照考試中達(dá)到或超越合格水平。

      然而,一項(xiàng)來自牛津大學(xué)研究團(tuán)隊(duì)及其合作者的最新研究,卻在《自然·醫(yī)學(xué)》(

      Nature Medicine
      )上給出了警示性的答案。


      論文鏈接:https://www.nature.com/articles/s41591-025-04074-y

      研究發(fā)現(xiàn),盡管 LLM 在標(biāo)準(zhǔn)化醫(yī)學(xué)測試中表現(xiàn)優(yōu)異,但在實(shí)際與公眾交互的應(yīng)用場景里,其輔助效果卻大幅衰減,不僅未能顯著提升普通人的醫(yī)療決策質(zhì)量,甚至不如傳統(tǒng)搜索引擎的效用。這一發(fā)現(xiàn)對當(dāng)前 AI 醫(yī)療應(yīng)用的有效性評估與系統(tǒng)設(shè)計(jì)提出了根本性的質(zhì)疑。

      醫(yī)療大模型在理論與應(yīng)用的落差

      為檢驗(yàn) LLM 在真實(shí)場景中的輔助能力,研究團(tuán)隊(duì)設(shè)計(jì)了一項(xiàng)嚴(yán)謹(jǐn)?shù)膶φ諏?shí)驗(yàn)。他們招募了 1298 名英國公眾作為參與者,要求每個(gè)人針對由醫(yī)生精心編寫的 10 個(gè)不同醫(yī)療場景,完成兩項(xiàng)核心任務(wù):判斷病情嚴(yán)重程度,并選擇下一步應(yīng)采取的行動(dòng)。


      圖|三位醫(yī)生起草了十個(gè)醫(yī)療情景,通過反復(fù)修訂直至就最佳處置方案達(dá)成五分制共識(從自我護(hù)理到救護(hù)車)。

      參與者被隨機(jī)分為四組:三個(gè)實(shí)驗(yàn)組分別使用 GPT-4o、Llama 3 或 Command R+ 作為對話助手,通過聊天界面咨詢以幫助決策;一個(gè)對照組被要求使用他們通常在家庭環(huán)境中會采用的任何方法,如使用搜索引擎、查閱網(wǎng)站或依靠個(gè)人經(jīng)驗(yàn)。


      圖|研究團(tuán)隊(duì)招募了 1298 名參與者,并隨機(jī)分配至四種實(shí)驗(yàn)條件之一。每位參與者被隨機(jī)分配到十個(gè)醫(yī)療場景中的一個(gè)。治療組需與 LLM 對話以協(xié)助評估場景。對照組可自由使用任何方法,多數(shù)參與者采用網(wǎng)絡(luò)搜索或自身知識。

      實(shí)驗(yàn)結(jié)果揭示了令人驚訝的差距:

      當(dāng)研究團(tuán)隊(duì)將完整的場景描述直接輸入 LLM,并要求其做出診斷和處置建議時(shí),模型展現(xiàn)了強(qiáng)大的知識儲備。平均能正確識別出相關(guān)病癥的比例可達(dá)到 94.9%,對最佳處置方案的建議正確率也達(dá)到 56.3%,遠(yuǎn)高于隨機(jī)猜測水平。

      然而,當(dāng)同樣的模型交到普通參與者手中,用于輔助其決策時(shí),效果卻急轉(zhuǎn)直下。使用 LLM 的參與者,能夠識別出至少一個(gè)相關(guān)病癥的比例驟降至不足 34.5%,選擇正確處置方案的比例也低于 44.2%。更關(guān)鍵的是,他們的表現(xiàn)與使用搜索引擎的對照組相比,在統(tǒng)計(jì)上并無顯著優(yōu)勢,甚至在識別關(guān)鍵病癥方面表現(xiàn)更差。


      圖|LLM 單獨(dú)使用與用戶協(xié)作的性能對比。a)當(dāng)直接要求 LLM 單獨(dú)完成各項(xiàng)任務(wù)時(shí)的表現(xiàn),上圖:LLM 識別相關(guān)條件的響應(yīng)比例,下圖:LLM 正確識別最佳處置方案的響應(yīng)比例;b)參與者在四種實(shí)驗(yàn)條件下的表現(xiàn),上圖:參與者識別相關(guān)條件的響應(yīng)比例,下圖:參與者正確識別最佳處置方案的響應(yīng)比例。

      人機(jī)交互為何失效?

      研究通過對交互記錄的深度分析,揭示了阻礙 AI 成為可靠醫(yī)療助手的核心癥結(jié)。

      在真實(shí)的醫(yī)療場景中,醫(yī)生會通過專業(yè)問診主動(dòng)引導(dǎo),提取關(guān)鍵信息。但在人機(jī)對話中,這一過程出現(xiàn)了雙重失靈:缺乏醫(yī)學(xué)常識的普通人,往往不知道哪些癥狀是診斷的關(guān)鍵;而目前的 LLM 大多缺乏主動(dòng)、系統(tǒng)性的問診能力,當(dāng)用戶提供的信息不完整時(shí),AI 往往基于有限的信息給出推測,便可能導(dǎo)致誤判。

      AI 的回答方式也給用戶制造了巨大的認(rèn)知障礙。研究數(shù)據(jù)顯示,LLM 在對話中平均會給出 2.21 種可能的疾病建議。對于沒有醫(yī)學(xué)背景的普通人來說,面對 AI 拋出的一系列專業(yè)名詞,他們很難分辨其中的輕重緩急。同時(shí),AI 常常將正確回答與誤導(dǎo)性信息混雜在一起,用戶在篩選信息時(shí)往往力不從心,極易誤判病情。

      更重要的是,目前的AI 安全測試存在嚴(yán)重局限。像 MedQA 這類基于醫(yī)學(xué)考題的測試,雖然能檢驗(yàn)知識存儲,但其成績與模型在真實(shí)人機(jī)交互中的表現(xiàn)幾乎無關(guān)。采用另一個(gè) AI 來模擬患者進(jìn)行測試,雖然結(jié)果看起來更優(yōu),但其行為模式無法反映真實(shí)人類用戶的巨大變異性與復(fù)雜性。模擬測試的結(jié)果與真人實(shí)驗(yàn)結(jié)果相關(guān)性極弱,無法作為可靠的安全預(yù)篩。


      圖|模型基準(zhǔn)測試。

      研究啟示與未來展望

      這項(xiàng)研究不僅揭示了當(dāng)前 LLM 在醫(yī)療應(yīng)用中的短板,更為未來的 AI 醫(yī)療發(fā)展指明了方向。

      研究有力地證明,LLM 在醫(yī)學(xué)考試中獲得高分,絕不意味著它們能在現(xiàn)實(shí)世界中成為合格的助手。單純依賴現(xiàn)有的基準(zhǔn)測試來評估 AI 的安全性是遠(yuǎn)遠(yuǎn)不夠的,真實(shí)且多樣化的用戶測試在部署前必不可少。

      要解決當(dāng)前的“人機(jī)協(xié)作”困境,不能僅靠擴(kuò)充模型的知識庫,未來的開發(fā)重點(diǎn)必須轉(zhuǎn)向提升 AI 的主動(dòng)交互能力,像醫(yī)生一樣學(xué)會問診,主動(dòng)收集關(guān)鍵信息,并以更易理解的方式呈現(xiàn)建議,降低非專業(yè)用戶的使用門檻。

      對于公眾而言,必須清醒地認(rèn)識到 LLM 目前的局限性。雖然它們能提供看似合理的建議,但在識別病情嚴(yán)重程度、判斷何時(shí)需要緊急救治方面,AI 依然存在風(fēng)險(xiǎn),過度依賴 AI 可能會延誤治療。

      展望未來,監(jiān)管機(jī)構(gòu)可借鑒此項(xiàng)研究的方法,建立以真實(shí)用戶交互效果為核心的新型評估框架。對于旨在提供醫(yī)療建議的 AI 系統(tǒng),應(yīng)要求其提供基于廣泛、多樣人群的實(shí)證有效性證據(jù)。LLMs 的理想角色應(yīng)是提升健康素養(yǎng)的輔助工具,而非做出最終診斷的決策主體。任何情況下,對于急重癥狀,最安全的行動(dòng)方案始終是直接聯(lián)系專業(yè)醫(yī)療人員或急救服務(wù)。

      GPU 訓(xùn)練特惠!

      H100/H200 GPU算力按秒計(jì)費(fèi),平均節(jié)省開支30%以上!

      掃碼了解詳情?

      點(diǎn)「贊」的人都變好看了哦!

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      研究稱悉尼妹頻遭女性抹黑 是因?yàn)樾靥罅耍?>
    </a>
        <h3>
      <a href=3DM游戲
      2026-02-18 07:54:05
      國米完敗同時(shí)勞塔羅疑似重傷 接過隊(duì)長袖標(biāo)之人慘遭千夫所指

      國米完敗同時(shí)勞塔羅疑似重傷 接過隊(duì)長袖標(biāo)之人慘遭千夫所指

      國際足球冷雪
      2026-02-19 08:32:05
      91年在醫(yī)院照顧舅舅,順便幫了鄰床一把,沒想到卻改變了我一生

      91年在醫(yī)院照顧舅舅,順便幫了鄰床一把,沒想到卻改變了我一生

      衍月
      2025-11-17 16:54:11
      小鎮(zhèn)“臨時(shí)女兒”10元接單,代探留守父母丨新春走基層

      小鎮(zhèn)“臨時(shí)女兒”10元接單,代探留守父母丨新春走基層

      大象新聞
      2026-02-19 09:20:09
      CCTV5直播!2026新加坡大滿貫國乒參賽名單、賽程以及央視直播表

      CCTV5直播!2026新加坡大滿貫國乒參賽名單、賽程以及央視直播表

      好乒乓
      2026-02-19 12:10:10
      帕爾默好友:總有一天我會把他帶回曼聯(lián),回到他本該在的地方

      帕爾默好友:總有一天我會把他帶回曼聯(lián),回到他本該在的地方

      懂球帝
      2026-02-19 13:56:12
      汪小菲帶兒子逛夜市!透露老婆快要生了汪大爺也來,箖箖心系筱梅

      汪小菲帶兒子逛夜市!透露老婆快要生了汪大爺也來,箖箖心系筱梅

      小娛樂悠悠
      2026-02-19 10:56:47
      錢再多有什么用?52歲劉強(qiáng)東上千億身家,兒子卻是他一生的遺憾

      錢再多有什么用?52歲劉強(qiáng)東上千億身家,兒子卻是他一生的遺憾

      墨印齋
      2026-01-31 16:37:48
      首鋼新援,麥基:航班延誤太離譜了,等不及發(fā)明瞬間移動(dòng)了

      首鋼新援,麥基:航班延誤太離譜了,等不及發(fā)明瞬間移動(dòng)了

      懂球帝
      2026-02-19 10:58:15
      蘇翊鳴奪冠頒獎(jiǎng)!自信比“1”吶喊,唱國歌落淚,咬金牌展露自豪

      蘇翊鳴奪冠頒獎(jiǎng)!自信比“1”吶喊,唱國歌落淚,咬金牌展露自豪

      籃球資訊達(dá)人
      2026-02-18 20:34:33
      A股:股民要系好安全帶了,從節(jié)后2月24日起,股市或?qū)⒃俅沃匮輾v史!

      A股:股民要系好安全帶了,從節(jié)后2月24日起,股市或?qū)⒃俅沃匮輾v史!

      股市皆大事
      2026-02-19 14:02:41
      陳連兵少將,履新湖南!山東等多地金融監(jiān)管局,迎來“85后”副局長!

      陳連兵少將,履新湖南!山東等多地金融監(jiān)管局,迎來“85后”副局長!

      時(shí)尚的弄潮
      2026-02-19 12:20:37
      換手機(jī)不必買太貴,可以“閉眼入”3款手機(jī),512GB流暢用到2031年

      換手機(jī)不必買太貴,可以“閉眼入”3款手機(jī),512GB流暢用到2031年

      小柱解說游戲
      2026-02-19 14:08:36
      他是上海知名主持人,曾和王志文是好兄弟,如今活成“不老神話”

      他是上海知名主持人,曾和王志文是好兄弟,如今活成“不老神話”

      風(fēng)月得自難尋
      2026-02-19 07:02:56
      態(tài)度轉(zhuǎn)變?湖人管理層公開喊話:希望詹姆斯繼續(xù)留在湖人!

      態(tài)度轉(zhuǎn)變?湖人管理層公開喊話:希望詹姆斯繼續(xù)留在湖人!

      愛體育
      2026-02-18 22:49:26
      66歲才醒悟:兄弟姐妹互不登門,不是走不動(dòng),而是栽在這4件事上

      66歲才醒悟:兄弟姐妹互不登門,不是走不動(dòng),而是栽在這4件事上

      風(fēng)起見你
      2026-02-18 23:07:31
      許世友拒當(dāng)副旅長,劉伯承犯難,徐向前:你沒告訴他旅長是誰?

      許世友拒當(dāng)副旅長,劉伯承犯難,徐向前:你沒告訴他旅長是誰?

      孫縭北漂拍客
      2026-02-17 15:47:40
      沸騰!今夜,直線暴漲!

      沸騰!今夜,直線暴漲!

      中國基金報(bào)
      2026-02-19 00:11:58
      68歲趙本山蹲炕頭吃酸菜燉鵝,那雙掉漆筷子比好多人朋友圈還真實(shí)

      68歲趙本山蹲炕頭吃酸菜燉鵝,那雙掉漆筷子比好多人朋友圈還真實(shí)

      喜歡歷史的阿繁
      2026-02-17 23:12:52
      越南談中越戰(zhàn)爭:中國不是給越南一個(gè)教訓(xùn),而是摧毀,他們做到了

      越南談中越戰(zhàn)爭:中國不是給越南一個(gè)教訓(xùn),而是摧毀,他們做到了

      芊芊子吟
      2026-02-18 13:50:03
      2026-02-19 14:56:49
      大數(shù)據(jù)文摘 incentive-icons
      大數(shù)據(jù)文摘
      專注大數(shù)據(jù),每日有分享!
      6825文章數(shù) 94529關(guān)注度
      往期回顧 全部

      科技要聞

      怒燒45億,騰訊字節(jié)阿里決戰(zhàn)春節(jié)

      頭條要聞

      網(wǎng)友稱取消酒店訂單后凌晨收到店家恐嚇信息 多方回應(yīng)

      頭條要聞

      網(wǎng)友稱取消酒店訂單后凌晨收到店家恐嚇信息 多方回應(yīng)

      體育要聞

      首金!蘇翊鳴唱國歌落淚 自信比1吶喊

      娛樂要聞

      明星過年百態(tài)!黃曉明等現(xiàn)身三亞

      財(cái)經(jīng)要聞

      面條火腿香菇醬!上市公司這些年請你吃

      汽車要聞

      量產(chǎn)甲醇插混 吉利銀河星耀6甲醇插混版申報(bào)圖

      態(tài)度原創(chuàng)

      時(shí)尚
      本地
      旅游
      手機(jī)
      軍事航空

      冬季穿衣不用太復(fù)雜!內(nèi)搭選高領(lǐng)、外套選簡約款,大方又耐看

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      旅游要聞

      歡歌笑語話團(tuán)圓 新春出游其樂融融年的味道格外濃郁

      手機(jī)要聞

      紅魔11 Pro手機(jī)運(yùn)行《賽博朋克2077》幀率為20-50FPS

      軍事要聞

      金正恩出席火箭炮贈(zèng)送儀式 強(qiáng)調(diào)確保朝鮮安全環(huán)境

      無障礙瀏覽 進(jìn)入關(guān)懷版