<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      醫(yī)學(xué)大模型最強(qiáng)王者?協(xié)和Cell Rep Med:AI+辯論刷新診斷記錄

      0
      分享至

      基本信息:

      Title:Model confrontation and collaboration: A debate intelligence framework for enhancing medical reasoning in large language models

      發(fā)表時(shí)間:2026.1.5

      Journal:Cell Reports medicine

      影響因子:10.6



      研究動(dòng)機(jī)與背景

      醫(yī)學(xué)推理是臨床決策的核心,涵蓋了溝通、診斷和治療計(jì)劃等關(guān)鍵環(huán)節(jié) 。雖然大型語言模型(LLMs)在醫(yī)學(xué)基準(zhǔn)測(cè)試中已取得顯著進(jìn)展,但現(xiàn)有的單一模型架構(gòu)缺乏外部驗(yàn)證、多視角批評(píng)和自我修正機(jī)制,這在復(fù)雜、高風(fēng)險(xiǎn)的醫(yī)學(xué)場(chǎng)景中限制了其可靠性 。受到心理學(xué)中“同行互動(dòng)促進(jìn)自我糾正”現(xiàn)象的啟發(fā),以及臨床上多學(xué)科團(tuán)隊(duì)(MDT)討論能夠降低診斷錯(cuò)誤的現(xiàn)實(shí)經(jīng)驗(yàn),作者試圖解決單一 LLM 存在的“算法奇點(diǎn)”和認(rèn)知僵化問題 。通過構(gòu)建一個(gè)模型對(duì)決與協(xié)作(MCC)框架,旨在將來自不同供應(yīng)商的先進(jìn)模型集成到動(dòng)態(tài)辯論圓桌中,利用異構(gòu)模型的視角多樣性來提升醫(yī)學(xué)推理的魯棒性和透明度 。

      實(shí)驗(yàn)設(shè)計(jì)與方法邏輯

      因此作者想通過不同供應(yīng)商提供的異構(gòu)大型語言模型(LLMs)之間的結(jié)構(gòu)化交互(批判與自我反思),可以產(chǎn)生超越靜態(tài)集成方法的自校正能力 。作者預(yù)期這種多輪對(duì)抗與協(xié)作機(jī)制能夠打破單一模型的“前綴優(yōu)勢(shì)陷阱”(Prefix Dominance Trap)或認(rèn)知僵化,從而在復(fù)雜的醫(yī)療決策支持中實(shí)現(xiàn)更高的診斷準(zhǔn)確性并降低臨床醫(yī)生的認(rèn)知負(fù)荷

      為了克服現(xiàn)有系統(tǒng)缺乏動(dòng)態(tài)交互和知識(shí)來源單一的局限,作者設(shè)計(jì)了包含三個(gè)核心組件的 MCC 工作流:初始響應(yīng)生成、對(duì)抗性激活和共識(shí)優(yōu)化 。在該邏輯下,系統(tǒng)首先讓集成的異構(gòu)模型(如 GPT-o1、Qwen-QwQ 和 DeepSeek-R1)獨(dú)立生成初步答案 。一旦模型間的響應(yīng)出現(xiàn)分歧,即觸發(fā)對(duì)抗性激活,開啟最多三輪的結(jié)構(gòu)化辯論,模型在此過程中相互評(píng)價(jià)并修訂理由 。最終,系統(tǒng)通過共識(shí)達(dá)成或在未達(dá)成共識(shí)時(shí)進(jìn)行多數(shù)投票來優(yōu)化輸出結(jié)果 。這種設(shè)計(jì)不僅利用了不同模型架構(gòu)的互補(bǔ)性,還通過多輪迭代逼近真實(shí)醫(yī)學(xué)知識(shí),旨在全面驗(yàn)證其在多項(xiàng)選擇題(MedQA 等)、長(zhǎng)問答及模擬臨床客觀結(jié)構(gòu)化臨床考試(OSCE)診斷對(duì)話中的實(shí)際表現(xiàn) 。



      Figure 1. The MCC framework 這張圖展示了模型對(duì)決與協(xié)作(MCC)框架的整體設(shè)計(jì)。它將工作流分為初始響應(yīng)生成、分歧觸發(fā)的對(duì)抗性激活以及多輪辯論驅(qū)動(dòng)的共識(shí)優(yōu)化三個(gè)階段 。該圖還展示了框架如何應(yīng)用于多項(xiàng)選擇、長(zhǎng)格式問答以及包含病史采集和疾病診斷的模擬臨床對(duì)話任務(wù),體現(xiàn)了 MCC 作為一個(gè)通用型醫(yī)學(xué)推理框架的廣泛適用性 。

      核心發(fā)現(xiàn)

      MCC 刷新多項(xiàng)醫(yī)學(xué)推理基準(zhǔn)測(cè)試 SOTA

      在 MedQA 基準(zhǔn)測(cè)試中,MCC 達(dá)到了 92.6% ± 0.3% 的準(zhǔn)確率,超越了此前 Med-Gemini 保持的記錄及所有單一推理模型。



      MCC 與主流 LLMs 在經(jīng)典基準(zhǔn)測(cè)試上的準(zhǔn)確率對(duì)比 此表詳細(xì)列出了 MCC 框架與 Med-PaLM 2、GPT-o1、DeepSeek-R1 等頂尖模型在 MedQA、PubMedQA 和 MMLU 臨床子集上的性能數(shù)據(jù) 。數(shù)據(jù)證明 MCC 在所有六個(gè)臨床主題上均優(yōu)于單一模型和之前的 SOTA(最先進(jìn)水平),通過集成不同來源的異構(gòu)模型顯著提升了推理準(zhǔn)確性 。

      動(dòng)態(tài)辯論顯著驅(qū)動(dòng)錯(cuò)誤修正

      Figure 2B/C 詳細(xì)揭示了決策動(dòng)態(tài),顯示在 254 個(gè)初始分歧案例中,通過三輪辯論,MCC 最終解決了 94.9% 的未解決案件。Figure S1 進(jìn)一步證實(shí),GPT-o1 等模型通過辯論糾正了超過 80% 的初始錯(cuò)誤



      Figure 2. MCC performance and decision dynamics on the MedQA benchmark. MedQA 基準(zhǔn)測(cè)試中的性能與決策動(dòng)態(tài) 該圖深入分析了 MCC 在處理分歧案例時(shí)的內(nèi)部機(jī)制。它展示了在初始響應(yīng)存在爭(zhēng)議的情況下,經(jīng)過三輪辯論,絕大多數(shù)錯(cuò)誤或未達(dá)成共識(shí)的案例最終都轉(zhuǎn)向了正確的共識(shí) 。圖中通過一個(gè)關(guān)于懷孕患者雙相障礙用藥管理的具體案例,生動(dòng)呈現(xiàn)了模型如何在辯論中通過相互評(píng)價(jià)和證據(jù)引用修正彼此的錯(cuò)誤觀點(diǎn)

      長(zhǎng)問答任務(wù)展現(xiàn)卓越的人類一致性

      在醫(yī)生和外行的雙重評(píng)估中,MCC 在正確檢索、正確推理及減少偏差方面表現(xiàn)優(yōu)于 Med-PaLM 2 等醫(yī)學(xué)專用模型 。Figure 3A/B 的雷達(dá)圖和熱力圖直觀展示了 MCC 在 12 個(gè)臨床質(zhì)量維度上的缺陷率顯著降低 。



      Figure 3. Multi-dimension assessment of long-form medical question outputs. 長(zhǎng)格式醫(yī)學(xué)問題輸出的多維度評(píng)估 這張圖呈現(xiàn)了由醫(yī)生和外行進(jìn)行的定性評(píng)估結(jié)果。雷達(dá)圖和熱力圖顯示,MCC 生成的答案在推理正確性、閱讀理解和知識(shí)召回等維度上的缺陷率顯著低于單一模型,且更符合科學(xué)共識(shí) 。此外,外行評(píng)估部分證明了 MCC 提供的建議在實(shí)用性和解決用戶意圖方面具有更高的直截了當(dāng)性和準(zhǔn)確性

      診斷對(duì)話能力模擬臨床實(shí)戰(zhàn)

      在 OSCE 風(fēng)格的評(píng)估中,MCC 在歷史采集的信息捕獲率(PICR)上顯著領(lǐng)先單一模型(median 提升 +0.11 至 +0.29) 。Figure 4B 的具體案例演示了 MCC 如何通過協(xié)作提問,最終識(shí)別出被單一模型遺漏的胰腺癌誘發(fā)繼發(fā)性糖尿病的關(guān)鍵線索 。



      Figure 4. Performance of MCC on diagnostic dialogue tasks. MCC 在診斷對(duì)話任務(wù)中的表現(xiàn) 該圖評(píng)估了 MCC 在模擬臨床情景下的實(shí)戰(zhàn)能力,包括信息采集率(PICR)和診斷準(zhǔn)確性。結(jié)果顯示,MCC 在病史采集階段能更全面地獲取患者細(xì)節(jié),并在 top-1 診斷準(zhǔn)確率和鑒別診斷準(zhǔn)確率上均表現(xiàn)出色 。圖中展示的胰腺癌誘發(fā)繼發(fā)性糖尿病案例,凸顯了辯論機(jī)制如何幫助模型識(shí)別出單一模型容易忽視的關(guān)鍵臨床線索

      省流總結(jié)

      針對(duì)單一大型語言模型在醫(yī)學(xué)推理中缺乏自糾正和視角多樣性的局限,本文提出了名為 MCC 的對(duì)決協(xié)作辯論框架,通過集成 GPT、Qwen 和 DeepSeek 等異構(gòu)模型進(jìn)行多輪結(jié)構(gòu)化辯論。該框架在 MedQA(92.6% 準(zhǔn)確率)等多個(gè)基準(zhǔn)測(cè)試中刷新了 SOTA 紀(jì)錄,并在復(fù)雜的診斷對(duì)話和長(zhǎng)問答評(píng)估中展現(xiàn)出優(yōu)于醫(yī)學(xué)專用模型(如 Med-PaLM 2)的臨床嚴(yán)謹(jǐn)性。研究證明,這種模型間的“頭腦風(fēng)暴”能有效識(shí)別并糾正推理偏差,為開發(fā)高透明度、低認(rèn)知負(fù)荷的臨床決策支持系統(tǒng)提供了重要參考。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      劉衛(wèi)東被查前,干了兩件最不要臉的事。

      劉衛(wèi)東被查前,干了兩件最不要臉的事。

      南權(quán)先生
      2025-12-18 16:50:39
      中國(guó)共產(chǎn)黨中央軍事委員會(huì)副主席張升民簡(jiǎn)歷

      中國(guó)共產(chǎn)黨中央軍事委員會(huì)副主席張升民簡(jiǎn)歷

      上觀新聞
      2025-10-23 18:17:07
      央視揭秘“奪命紅薯”!商家故意投毒,已蔓延全國(guó)多地,趕緊扔掉

      央視揭秘“奪命紅薯”!商家故意投毒,已蔓延全國(guó)多地,趕緊扔掉

      閱微札記
      2026-01-24 12:00:30
      突發(fā),美國(guó)首都告急! 14州進(jìn)入緊急狀態(tài) 超2900架次航班被取消

      突發(fā),美國(guó)首都告急! 14州進(jìn)入緊急狀態(tài) 超2900架次航班被取消

      每日經(jīng)濟(jì)新聞
      2026-01-24 11:32:24
      王鈺棟低級(jí)失誤!媒體人集體怒批:基本功太差,再不出去就晚了

      王鈺棟低級(jí)失誤!媒體人集體怒批:基本功太差,再不出去就晚了

      奧拜爾
      2026-01-24 23:43:02
      央視曝光!真別再吃了!頭皮發(fā)麻!市監(jiān)局通報(bào)40批食品抽檢不合格

      央視曝光!真別再吃了!頭皮發(fā)麻!市監(jiān)局通報(bào)40批食品抽檢不合格

      蜉蝣說
      2026-01-24 12:45:07
      34國(guó)軍方高官被召集!美媒:美軍參聯(lián)會(huì)主席將舉行“罕見”會(huì)議

      34國(guó)軍方高官被召集!美媒:美軍參聯(lián)會(huì)主席將舉行“罕見”會(huì)議

      環(huán)球網(wǎng)資訊
      2026-01-24 17:46:50
      武漢、宜昌入選!全國(guó)擬開展有獎(jiǎng)發(fā)票試點(diǎn)城市名單公示

      武漢、宜昌入選!全國(guó)擬開展有獎(jiǎng)發(fā)票試點(diǎn)城市名單公示

      極目新聞
      2026-01-24 13:48:17
      軍委副主席,過去四十年來人數(shù)上的變化

      軍委副主席,過去四十年來人數(shù)上的變化

      深度財(cái)線
      2025-10-21 13:06:54
      女子被雪豹咬傷后續(xù):正臉曝光,知情人曝內(nèi)幕,女子狀態(tài)讓人擔(dān)憂

      女子被雪豹咬傷后續(xù):正臉曝光,知情人曝內(nèi)幕,女子狀態(tài)讓人擔(dān)憂

      以茶帶書
      2026-01-24 17:15:26
      出大事了!中國(guó)收到“戰(zhàn)書”,這次不是美國(guó),中方已經(jīng)做好準(zhǔn)備

      出大事了!中國(guó)收到“戰(zhàn)書”,這次不是美國(guó),中方已經(jīng)做好準(zhǔn)備

      愛吃醋的貓咪
      2026-01-23 20:27:00
      近4輪首勝+終結(jié)連敗!曼城2-0狼隊(duì) 馬爾穆什破門 塞梅尼奧4場(chǎng)3球

      近4輪首勝+終結(jié)連敗!曼城2-0狼隊(duì) 馬爾穆什破門 塞梅尼奧4場(chǎng)3球

      狍子歪解體壇
      2026-01-25 00:56:54
      難以置信!女子十二樂坊成員直播養(yǎng)不活自己,一晚上打賞不到3000

      難以置信!女子十二樂坊成員直播養(yǎng)不活自己,一晚上打賞不到3000

      火山詩(shī)話
      2026-01-24 11:37:19
      全網(wǎng)尋鞋!男子坐臥鋪時(shí)鞋被穿錯(cuò),一只斯凱奇變Prada:新鞋第一次穿就丟了,希望能找回

      全網(wǎng)尋鞋!男子坐臥鋪時(shí)鞋被穿錯(cuò),一只斯凱奇變Prada:新鞋第一次穿就丟了,希望能找回

      魯中晨報(bào)
      2026-01-24 17:23:25
      王鈺棟失誤致丟球!記者感慨:最好的球員之一,把球停出了幾米遠(yuǎn)

      王鈺棟失誤致丟球!記者感慨:最好的球員之一,把球停出了幾米遠(yuǎn)

      林子說事
      2026-01-24 23:54:01
      中方發(fā)出唁電,美國(guó)全國(guó)將降半旗,拜登籌劃國(guó)葬

      中方發(fā)出唁電,美國(guó)全國(guó)將降半旗,拜登籌劃國(guó)葬

      趣生活
      2026-01-24 09:34:17
      浙江文投總經(jīng)理蔣國(guó)興被查,曾主導(dǎo)浙報(bào)傳媒上市

      浙江文投總經(jīng)理蔣國(guó)興被查,曾主導(dǎo)浙報(bào)傳媒上市

      觀察者網(wǎng)
      2026-01-24 22:08:03
      眾生相!中國(guó)隊(duì)無緣冠軍 徐彬眼眶泛紅+王鈺棟失落 日本球員跳舞

      眾生相!中國(guó)隊(duì)無緣冠軍 徐彬眼眶泛紅+王鈺棟失落 日本球員跳舞

      侃球熊弟
      2026-01-25 00:22:31
      央視怒批,人民日?qǐng)?bào)點(diǎn)名封殺,這5位目無法紀(jì)的大網(wǎng)紅,徹底涼涼

      央視怒批,人民日?qǐng)?bào)點(diǎn)名封殺,這5位目無法紀(jì)的大網(wǎng)紅,徹底涼涼

      一娛三分地
      2025-12-04 17:00:33
      特朗普這是把國(guó)運(yùn)送給了中國(guó)!美國(guó)徹底放棄發(fā)展新能源產(chǎn)業(yè)

      特朗普這是把國(guó)運(yùn)送給了中國(guó)!美國(guó)徹底放棄發(fā)展新能源產(chǎn)業(yè)

      胖福的小木屋
      2026-01-24 00:06:29
      2026-01-25 02:24:49
      PsyBrain腦心前沿
      PsyBrain腦心前沿
      追蹤腦科學(xué)新動(dòng)態(tài),聚焦認(rèn)知與神經(jīng)新研究
      129文章數(shù) 10關(guān)注度
      往期回顧 全部

      科技要聞

      黃仁勛現(xiàn)身上海菜市場(chǎng)

      頭條要聞

      張又俠、劉振立被查 解放軍報(bào)發(fā)布社論

      頭條要聞

      張又俠、劉振立被查 解放軍報(bào)發(fā)布社論

      體育要聞

      當(dāng)家球星打替補(bǔ),他們?cè)诠室鈹[爛?

      娛樂要聞

      回歸還是頂流 鳳凰傳奇將現(xiàn)身馬年春晚

      財(cái)經(jīng)要聞

      “百年老字號(hào)”張小泉遭60億債務(wù)壓頂

      汽車要聞

      有增程和純電版可選 日產(chǎn)NX8或于3-4月間上市

      態(tài)度原創(chuàng)

      親子
      手機(jī)
      本地
      時(shí)尚
      公開課

      親子要聞

      幼兒園體能課秒變“絕活”秀場(chǎng)! 萌娃個(gè)個(gè)身手不凡,活力滿滿~ #睡個(gè)好覺

      手機(jī)要聞

      追覓首款手機(jī)狂攬億元訂單:自研芯片+模塊化影像,硬剛?cè)A為小米

      本地新聞

      云游中國(guó)|格爾木的四季朋友圈,張張值得你點(diǎn)贊

      冬天最佳“顯瘦”公式:上短+下長(zhǎng)

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 黄色免费在线网址| 精品人妻伦九区久久AAA片| 好吊色妇女免费视频免费| 亚洲乱色伦图片区小说| 1024免费视频| 亚洲精品久久久中文字幕痴女 | 人妻少妇不满足中文字幕| 亚洲va在线∨a天堂va欧美va| 国产三级精品三级在专区| 精品国产国产2021| 成人色一区二区三区| 国产成人高清精品免费软件| 久久精品a一国产成人免费网站| 久久99精品久久久久久hb无码| 欧美色图综合| 久久精品人成免费| 亚洲精品97久久中文| 国产精品伊人久久综合网| 中国久久久久| 亚洲成人综合网站| 男女做aj视频免费的网站| 亚洲国产欧美在线人成大黄瓜| 无码簧片| 精品少妇爆乳无码av无码专区| 亚洲在线一区二区| 网曝吃瓜黑料一区| 亚洲色一区二区三区四区| 国产精品va在线观看无码不卡| 中文字幕无码人妻aaa片| 在线视频精品中文无码| 国产一区二区三区在线观看免费| 好吊妞av| 久久久久久曰本av免费免费| 美女福利导航| 国产午夜福利片无码视频| 暖暖 免费 高清 日本 在线观看5 色老头亚洲成人免费影院 | 国产高清一区二区不卡| 欧美放荡的少妇| 无码h片在线观看网站| 人人妻人人添人人爽日韩欧美| 日韩av无码久久一区二区|