<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      考試滿分,實(shí)戰(zhàn)卻“翻車”!《自然·醫(yī)學(xué)》刊文:AI醫(yī)療助手為何難以應(yīng)用?

      0
      分享至

      大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自學(xué)術(shù)頭條

      作者:王躍然

      身體不適時,你首先會怎么做?

      越來越多的人開始習(xí)慣向以 ChatGPT 為代表的 AI 助手尋求初步的健康分析與建議。這一趨勢背后存在切實(shí)依據(jù):當(dāng)前大語言模型(LLM)在醫(yī)學(xué)知識測評中「得分越來越高」,甚至能夠在專業(yè)醫(yī)師執(zhí)照考試中達(dá)到或超越合格水平。

      然而,一項來自牛津大學(xué)研究團(tuán)隊及其合作者的最新研究,卻在《自然·醫(yī)學(xué)》(

      Nature Medicine
      )上給出了警示性的答案。


      論文鏈接:https://www.nature.com/articles/s41591-025-04074-y

      研究發(fā)現(xiàn),盡管 LLM 在標(biāo)準(zhǔn)化醫(yī)學(xué)測試中表現(xiàn)優(yōu)異,但在實(shí)際與公眾交互的應(yīng)用場景里,其輔助效果卻大幅衰減,不僅未能顯著提升普通人的醫(yī)療決策質(zhì)量,甚至不如傳統(tǒng)搜索引擎的效用。這一發(fā)現(xiàn)對當(dāng)前 AI 醫(yī)療應(yīng)用的有效性評估與系統(tǒng)設(shè)計提出了根本性的質(zhì)疑。

      醫(yī)療大模型在理論與應(yīng)用的落差

      為檢驗 LLM 在真實(shí)場景中的輔助能力,研究團(tuán)隊設(shè)計了一項嚴(yán)謹(jǐn)?shù)膶φ諏?shí)驗。他們招募了 1298 名英國公眾作為參與者,要求每個人針對由醫(yī)生精心編寫的 10 個不同醫(yī)療場景,完成兩項核心任務(wù):判斷病情嚴(yán)重程度,并選擇下一步應(yīng)采取的行動。


      圖|三位醫(yī)生起草了十個醫(yī)療情景,通過反復(fù)修訂直至就最佳處置方案達(dá)成五分制共識(從自我護(hù)理到救護(hù)車)。

      參與者被隨機(jī)分為四組:三個實(shí)驗組分別使用 GPT-4o、Llama 3 或 Command R+ 作為對話助手,通過聊天界面咨詢以幫助決策;一個對照組被要求使用他們通常在家庭環(huán)境中會采用的任何方法,如使用搜索引擎、查閱網(wǎng)站或依靠個人經(jīng)驗。


      圖|研究團(tuán)隊招募了 1298 名參與者,并隨機(jī)分配至四種實(shí)驗條件之一。每位參與者被隨機(jī)分配到十個醫(yī)療場景中的一個。治療組需與 LLM 對話以協(xié)助評估場景。對照組可自由使用任何方法,多數(shù)參與者采用網(wǎng)絡(luò)搜索或自身知識。

      實(shí)驗結(jié)果揭示了令人驚訝的差距:

      當(dāng)研究團(tuán)隊將完整的場景描述直接輸入 LLM,并要求其做出診斷和處置建議時,模型展現(xiàn)了強(qiáng)大的知識儲備。平均能正確識別出相關(guān)病癥的比例可達(dá)到 94.9%,對最佳處置方案的建議正確率也達(dá)到 56.3%,遠(yuǎn)高于隨機(jī)猜測水平。

      然而,當(dāng)同樣的模型交到普通參與者手中,用于輔助其決策時,效果卻急轉(zhuǎn)直下。使用 LLM 的參與者,能夠識別出至少一個相關(guān)病癥的比例驟降至不足 34.5%,選擇正確處置方案的比例也低于 44.2%。更關(guān)鍵的是,他們的表現(xiàn)與使用搜索引擎的對照組相比,在統(tǒng)計上并無顯著優(yōu)勢,甚至在識別關(guān)鍵病癥方面表現(xiàn)更差。


      圖|LLM 單獨(dú)使用與用戶協(xié)作的性能對比。a)當(dāng)直接要求 LLM 單獨(dú)完成各項任務(wù)時的表現(xiàn),上圖:LLM 識別相關(guān)條件的響應(yīng)比例,下圖:LLM 正確識別最佳處置方案的響應(yīng)比例;b)參與者在四種實(shí)驗條件下的表現(xiàn),上圖:參與者識別相關(guān)條件的響應(yīng)比例,下圖:參與者正確識別最佳處置方案的響應(yīng)比例。

      人機(jī)交互為何失效?

      研究通過對交互記錄的深度分析,揭示了阻礙 AI 成為可靠醫(yī)療助手的核心癥結(jié)。

      在真實(shí)的醫(yī)療場景中,醫(yī)生會通過專業(yè)問診主動引導(dǎo),提取關(guān)鍵信息。但在人機(jī)對話中,這一過程出現(xiàn)了雙重失靈:缺乏醫(yī)學(xué)常識的普通人,往往不知道哪些癥狀是診斷的關(guān)鍵;而目前的 LLM 大多缺乏主動、系統(tǒng)性的問診能力,當(dāng)用戶提供的信息不完整時,AI 往往基于有限的信息給出推測,便可能導(dǎo)致誤判。

      AI 的回答方式也給用戶制造了巨大的認(rèn)知障礙。研究數(shù)據(jù)顯示,LLM 在對話中平均會給出 2.21 種可能的疾病建議。對于沒有醫(yī)學(xué)背景的普通人來說,面對 AI 拋出的一系列專業(yè)名詞,他們很難分辨其中的輕重緩急。同時,AI 常常將正確回答與誤導(dǎo)性信息混雜在一起,用戶在篩選信息時往往力不從心,極易誤判病情。

      更重要的是,目前的AI 安全測試存在嚴(yán)重局限。像 MedQA 這類基于醫(yī)學(xué)考題的測試,雖然能檢驗知識存儲,但其成績與模型在真實(shí)人機(jī)交互中的表現(xiàn)幾乎無關(guān)。采用另一個 AI 來模擬患者進(jìn)行測試,雖然結(jié)果看起來更優(yōu),但其行為模式無法反映真實(shí)人類用戶的巨大變異性與復(fù)雜性。模擬測試的結(jié)果與真人實(shí)驗結(jié)果相關(guān)性極弱,無法作為可靠的安全預(yù)篩。


      圖|模型基準(zhǔn)測試。

      研究啟示與未來展望

      這項研究不僅揭示了當(dāng)前 LLM 在醫(yī)療應(yīng)用中的短板,更為未來的 AI 醫(yī)療發(fā)展指明了方向。

      研究有力地證明,LLM 在醫(yī)學(xué)考試中獲得高分,絕不意味著它們能在現(xiàn)實(shí)世界中成為合格的助手。單純依賴現(xiàn)有的基準(zhǔn)測試來評估 AI 的安全性是遠(yuǎn)遠(yuǎn)不夠的,真實(shí)且多樣化的用戶測試在部署前必不可少。

      要解決當(dāng)前的“人機(jī)協(xié)作”困境,不能僅靠擴(kuò)充模型的知識庫,未來的開發(fā)重點(diǎn)必須轉(zhuǎn)向提升 AI 的主動交互能力,像醫(yī)生一樣學(xué)會問診,主動收集關(guān)鍵信息,并以更易理解的方式呈現(xiàn)建議,降低非專業(yè)用戶的使用門檻。

      對于公眾而言,必須清醒地認(rèn)識到 LLM 目前的局限性。雖然它們能提供看似合理的建議,但在識別病情嚴(yán)重程度、判斷何時需要緊急救治方面,AI 依然存在風(fēng)險,過度依賴 AI 可能會延誤治療。

      展望未來,監(jiān)管機(jī)構(gòu)可借鑒此項研究的方法,建立以真實(shí)用戶交互效果為核心的新型評估框架。對于旨在提供醫(yī)療建議的 AI 系統(tǒng),應(yīng)要求其提供基于廣泛、多樣人群的實(shí)證有效性證據(jù)。LLMs 的理想角色應(yīng)是提升健康素養(yǎng)的輔助工具,而非做出最終診斷的決策主體。任何情況下,對于急重癥狀,最安全的行動方案始終是直接聯(lián)系專業(yè)醫(yī)療人員或急救服務(wù)。

      GPU 訓(xùn)練特惠!

      H100/H200 GPU算力按秒計費(fèi),平均節(jié)省開支30%以上!

      掃碼了解詳情?

      點(diǎn)「贊」的人都變好看了哦!

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      中國幫沙特建的高鐵,干了九年賠了41億,為何如今卻說賺翻了?

      中國幫沙特建的高鐵,干了九年賠了41億,為何如今卻說賺翻了?

      悅君兮君不知
      2026-04-25 13:31:44
      替補(bǔ)砍43分!多森姆:季后賽有這樣的表現(xiàn),這是我兒時的夢想

      替補(bǔ)砍43分!多森姆:季后賽有這樣的表現(xiàn),這是我兒時的夢想

      懂球帝
      2026-04-26 12:45:18
      絕了!中國1500公里凝聚態(tài)電池,直接讓全球汽車圈震動

      絕了!中國1500公里凝聚態(tài)電池,直接讓全球汽車圈震動

      芭比衣櫥
      2026-04-25 12:18:09
      隨著上海海港4-0,北京國安2-4,成都蓉城4-0,中超最新積分榜出爐

      隨著上海海港4-0,北京國安2-4,成都蓉城4-0,中超最新積分榜出爐

      側(cè)身凌空斬
      2026-04-25 21:59:26
      浙江:一個遍布山區(qū)的省份,為啥這么有錢?山區(qū)反倒成了優(yōu)勢

      浙江:一個遍布山區(qū)的省份,為啥這么有錢?山區(qū)反倒成了優(yōu)勢

      賤議你讀史
      2026-04-26 08:50:03
      “見過最廉價的兜底”,一份山姆燒雞,讓低認(rèn)知母子淪為全網(wǎng)笑柄

      “見過最廉價的兜底”,一份山姆燒雞,讓低認(rèn)知母子淪為全網(wǎng)笑柄

      妍妍教育日記
      2026-04-15 09:30:09
      蘇聯(lián)最瘋狂的實(shí)驗,利用日本女戰(zhàn)俘來繁衍人口,差點(diǎn)改變歷史進(jìn)程

      蘇聯(lián)最瘋狂的實(shí)驗,利用日本女戰(zhàn)俘來繁衍人口,差點(diǎn)改變歷史進(jìn)程

      睡前講故事
      2025-04-23 16:25:26
      明確了:放寬至38周歲!

      明確了:放寬至38周歲!

      新牛城
      2026-04-23 17:18:51
      “大齡剩女”正在集體消失!不是嫁人了,是被現(xiàn)實(shí)一巴掌扇到隱形

      “大齡剩女”正在集體消失!不是嫁人了,是被現(xiàn)實(shí)一巴掌扇到隱形

      王二哥老搞笑
      2026-04-23 18:52:04
      孫楊綜藝表現(xiàn)惹眾怒,大V發(fā)文吐槽揭他往事,私生子傳聞被深扒

      孫楊綜藝表現(xiàn)惹眾怒,大V發(fā)文吐槽揭他往事,私生子傳聞被深扒

      古希臘掌管松餅的神
      2026-04-25 11:24:56
      顏駿凌在本輪結(jié)束后官宣重要決定!球迷都直言沒想到,紛紛祝福他

      顏駿凌在本輪結(jié)束后官宣重要決定!球迷都直言沒想到,紛紛祝福他

      張麗說足球
      2026-04-26 12:51:11
      沖擊D類頂薪大合同!新疆王牌前鋒合同正式到期,曾賽季場均18+3

      沖擊D類頂薪大合同!新疆王牌前鋒合同正式到期,曾賽季場均18+3

      老葉評球
      2026-04-26 13:24:54
      世錦賽戰(zhàn)報:連爆大冷第一位大滿貫得主出局,首場四強(qiáng)之爭出爐了

      世錦賽戰(zhàn)報:連爆大冷第一位大滿貫得主出局,首場四強(qiáng)之爭出爐了

      求球不落諦
      2026-04-26 07:11:27
      上港4比0大勝三鎮(zhèn)!蔣光太賽后卻唯獨(dú)點(diǎn)名表揚(yáng)他,引發(fā)熱議

      上港4比0大勝三鎮(zhèn)!蔣光太賽后卻唯獨(dú)點(diǎn)名表揚(yáng)他,引發(fā)熱議

      振剛說足球
      2026-04-26 13:25:27
      張雪身后的摩幫江湖

      張雪身后的摩幫江湖

      上觀新聞
      2026-04-26 08:30:22
      中國公開“耍流氓”,美國氣的火冒三丈,報應(yīng)來的太快了

      中國公開“耍流氓”,美國氣的火冒三丈,報應(yīng)來的太快了

      小熊看國際
      2026-04-26 11:45:48
      “10分鐘的商務(wù)座,你拍了9分鐘的照”,窮養(yǎng)女炫富,反被群嘲

      “10分鐘的商務(wù)座,你拍了9分鐘的照”,窮養(yǎng)女炫富,反被群嘲

      妍妍教育日記
      2026-04-15 08:25:03
      陳震被拍到參加北京車展,有博主爆料稱其6月會回歸

      陳震被拍到參加北京車展,有博主爆料稱其6月會回歸

      映射生活的身影
      2026-04-25 16:50:03
      “香港演員幾乎全軍覆沒! 無戲可拍”引發(fā)網(wǎng)友熱議

      “香港演員幾乎全軍覆沒! 無戲可拍”引發(fā)網(wǎng)友熱議

      許三歲
      2026-03-26 11:35:13
      征婚要求“未打疫苗”,這位86年優(yōu)質(zhì)男是真清醒

      征婚要求“未打疫苗”,這位86年優(yōu)質(zhì)男是真清醒

      難得君
      2026-04-25 10:57:35
      2026-04-26 14:03:00
      大數(shù)據(jù)文摘 incentive-icons
      大數(shù)據(jù)文摘
      專注大數(shù)據(jù),每日有分享!
      6853文章數(shù) 94542關(guān)注度
      往期回顧 全部

      科技要聞

      漲價浪潮下,DeepSeek推動AI“價格戰(zhàn)”

      頭條要聞

      白宮槍手系教師兼游戲開發(fā)者 曾向哈里斯總統(tǒng)競選捐款

      頭條要聞

      白宮槍手系教師兼游戲開發(fā)者 曾向哈里斯總統(tǒng)競選捐款

      體育要聞

      那一刻開始,兩支球隊的命運(yùn)悄然改變了

      娛樂要聞

      《八千里路云和月》大結(jié)局意難平

      財經(jīng)要聞

      DeepSeek V4背后,梁文鋒的轉(zhuǎn)身

      汽車要聞

      預(yù)售19.38萬元起 哈弗猛龍PLUS七座版亮相

      態(tài)度原創(chuàng)

      藝術(shù)
      家居
      本地
      時尚
      公開課

      藝術(shù)要聞

      鄭麗文訪問清華附中引發(fā)熱議,蔣中正信札字跡真實(shí)性遭質(zhì)疑

      家居要聞

      自然肌理 溫潤美學(xué)

      本地新聞

      云游中國|逛世界風(fēng)箏都 留學(xué)生探秘中國傳統(tǒng)文化

      IU的臉,真的有自己的時間線

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 色吊丝永久性观看网站| 九九热视频在线观看| 人妻av中文系列| 4480yy亚洲午夜私人影院剧情| 国产亚洲精品VA片在线播放,国产中年熟女大集合 | 欧美va免费高清在线观看| 久久亚洲色www成人网址| 国产精品国产三级欧美二区| 一卡二卡三| 中文字幕亚洲中文字幕无码码| 女人被做到高潮视频| 午夜国产精品福利一二| 中国无码mv| 绍兴市| 一本色道久久综合中文字幕| 中文字幕一区二区久久人妻| 国产情侣激情在线对白| 中国护士18xxxxhd| 欧美超大胆裸体xx视频| 欲色天天网综合久久| 成人国产欧美大片一区| 松下纱荣子被c到高潮下不了床 | 无码专区视频精品老司机 | 啦啦啦高清在线观看视频www| 中文字幕亚洲乱码熟女一区二区| 国产免费无码av在线观看| 亚洲色婷婷六月亚洲婷婷6月| 石首市| 亚洲综合另类小说色区一| 玖玖精品视频| 国产精品麻豆成人av电影艾秋| 熟久久| 一本色道久久99精品综合| 国产成人精品无人区一区| 亚洲欧美在线精品一区二区| yy111111在线尤物| 国产综合视频一区二区三区| 亚洲欧美成人精品香蕉网| 中国毛片网| 少妇xxxxx性开放| 甜蜜视频中文字幕不卡无码|