<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Cell子刊:龍爾平/萬沛星團隊發布大模型“圓桌會議”框架,大幅提升醫療AI推理能力

      0
      分享至


      編輯丨王多魚

      排版丨水成文

      醫療人工智能快速發展的當下,GPT-4、Med-PaLM2 等大型語言模型在醫學問答與考試中不斷刷新紀錄,展現出接近人類的認知能力。然而,單一模型固有的“黑箱”局限、缺乏多視角校驗的推理機制,已成為其在真實、高風險臨床場景中安全落地的關鍵瓶頸。如何讓 AI 像多學科專家會診一樣,實現交叉質證、協同決策,是醫療 AI 走向可信、可靠必須跨越的科學鴻溝。

      2026 年 1 月 5 日,中國醫學科學院基礎醫學研究所龍爾平團隊與北京大學基礎醫學院萬沛星團隊合作(中國醫學科學院基礎醫學研究所博士生孫欣提洪奇陽為論文共同第一作者),在Cell Reports Medicine期刊在線發表了題為:Model confrontation and collaboration: a debate intelligence framework for enhancing medical reasoning in large language models 的研究論文。

      該研究提出了“模型對抗與協作”(Model confrontation and collaboration,MCC)框架,推動醫療 AI 從“單點智能”邁向“協同推理”的范式躍遷,通過構建可辯論、可追溯、動態協作的模型圓桌,從根本上促進了醫療 AI 向可靠、可解釋、可協作的下一代形態演進。



      MCC 框架:模型對抗與協作

      在這項最新研究中,研究團隊提出了“模型對抗與協作”(Model Confrontation and Collaboration,MCC)框架,將不同的大型語言模型組合成一個動態的、具備“推理-行動-反思”的圓桌式智囊團。MCC 引入共享的“上下文工作區”(shared context):將問題、已生成的候選答案、關鍵證據點與各模型的立場變化以結構化方式寫入同一上下文記憶,并在每一輪辯論中保持對完整對話歷史的可見性,從而確保批判與修正始終基于同一事實與語境。

      其核心流程可概括為——

      第一步,獨立推理(Reason):GPT-o1、Qwen-QwQ、DeepSeek-R1 在同一問題上并行生成答案與關鍵論證點;隨后引入分歧門控(Gate):系統/主持 LLM 對候選答案進行一致性檢測,僅在出現分歧時激活辯論,從源頭控制額外計算開銷。

      第二步,對抗辯論(Debate as Action):進入多輪消息傳遞,每輪中模型執行“質疑-舉證-反駁-修正”四類動作,圍繞共享上下文中的證據缺口與推理斷點開展交叉驗證:定位論證中的跳步、證據不足或概念混淆,進一步補充指南、機制與鑒別診斷依據;隨后進行自我反思,審計自身推理鏈與關鍵假設,并以可解釋方式更新立場與結論。

      第三步,共識優化(Consensus Optimization):每輪結束后進行共識判定與早停;若三輪內仍不收斂,則以多數投票作為保底輸出策略。與傳統“靜態集成/硬投票”不同,MCC將多模型互補性顯式轉化為“基于上下文的迭代糾錯”協作過程,使異構模型在知識覆蓋與推理偏好上的差異得以用于錯誤定位與證據對齊,從而顯著提升難題場景下的收斂質量與輸出穩定性。


      MCC 在 MedQA 基準上的表現與決策動態

      多項醫學基準測試獲得 SOTA 表現

      MCC 在多項代表性醫學基準上展現出一致而穩定的性能:在 MedQA 上取得 92.6%(±0.3)的平均準確率,并在多次獨立運行中顯示出穩定性。PubMedQA 達到 84.8%;在 MMLU 醫學子集中覆蓋遺傳學、解剖學等多個科目,整體維持 90%+,并在其中五個科目獲得 SOTA 表現。

      更重要的是,MCC 不僅在“常規題”上提升準確率,也在“更難、更接近真實風險”的評測中保持穩健:在 MedXpertQA 上準確率約 40%,在該基準的對比評測中表現位居前列。在 MetaMedQA 中能夠識別不確定或無明確標準答案的情形并給出“未知/需補充信息”的保守處理,體現出更強的元認知邊界管理能力。此外,在 RABBITS 魯棒性測試中,面對藥物商品名與學名的混用與替換,MCC 性能幾乎不受影響,顯示其對臨床語言變體具有更強的泛化與穩定性。

      長文本問答:綜合回答水平更高

      在開放式長問答任務中,研究團隊使用 MultiMedQA 基準并邀請醫生與非專業評審開展雙視角盲評,以評估模型在真實醫療咨詢中的綜合表達與建議能力。結果顯示,MCC 在所有維度上均優于 GPT-o1、Qwen、DeepSeek-R1 以及 Med-PaLM2:醫生評審的 12 項指標中,MCC 在病情要點提取、推理正確性與偏差控制等關鍵維度提升 8–12 個百分點且錯誤內容率更低;在另一組 9 項綜合質量指標中,其缺陷率下降 3%–9%,一致性與知識覆蓋更為穩定。進一步在 HealthBench 上,MCC 在與臨床專家共識對齊的任務中取得 92.1 的綜合評分,并在更高難度的 HealthBench Hard 中保持領先,體現出在復雜場景下的穩健性與安全性優勢。


      開放式醫學問答輸出的多維度評估

      模擬診斷對話:對話版“診療小組”

      為評估 MCC 在交互式診療場景中的能力,研究團隊構建了類醫學院 OSCE 的模擬病例對話測試:模型作為醫生與模擬患者實時交互,在完成病史采集后給出診斷與鑒別診斷。結果顯示,MCC 在病史采集階段平均可捕獲 80% 以上的關鍵患者信息點;在 16 個病例中,有 14 例的信息覆蓋率超過 80%,而單一模型在同等標準下難以穩定達到該水平。與此同時,MCC 提出的問題與患者主訴的相關性更高(多數病例>80%),提示其問診路徑更聚焦關鍵線索、減少遺漏。在診斷結論階段,在 15 個可判定病例中,MCC 的首選診斷正確率達到 80%(12/15),并在鑒別診斷的完整性上呈現優勢。典型案例是一位 56 歲女性出現多飲多尿、乏力與體重下降,既往以 2 型糖尿病處理但血糖控制不佳。辯論過程中,模型間交叉質詢促使補問胰腺相關病史與上腹痛向背部放射等線索,進而將診斷從“糖尿病本身”推進至“胰腺腫瘤相關繼發性糖尿病”的更深層解釋,體現出“圓桌式會診”對關鍵線索召回與深入診斷推理的促進作用。


      MCC 在診斷對話任務中的表現

      展望與意義

      這項研究表明,多模型對抗與協作可作為醫療推理能力增強的一種通用范式:在不引入額外任務訓練與外部知識庫的條件下,借助結構化辯論將不同模型的知識覆蓋與推理偏好差異顯式用于交叉核驗、證據對齊與錯誤糾偏,從而提高復雜問題上的推理收斂質量與輸出穩定性。需要強調的是,MCC 并非替代醫生,而是提供多角度論據與可追溯的辯論日志,幫助臨床人員降低漏診誤判風險并提升決策透明度,同時亦具備教學示范意義。面向臨床應用,仍需進一步推進與電子病歷及檢查結果的端到端集成、對不確定/沖突信息的處理策略,以及隱私合規與計算成本控制,使其能夠以安全、高效的方式融入真實工作流。

      論文鏈接

      https://www.cell.com/cell-reports-medicine/fulltext/S2666-3791(25)00620-2

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      終于輪到日本“強烈抗議”:130年了,日本從未像今天這樣憋屈

      終于輪到日本“強烈抗議”:130年了,日本從未像今天這樣憋屈

      小陳講史
      2026-01-08 11:57:03
      下一個萬億賽道?衛星互聯網迎來黃金發展期,這些公司站上風口

      下一個萬億賽道?衛星互聯網迎來黃金發展期,這些公司站上風口

      證券市場周刊
      2026-01-08 14:38:20
      女子開車碾壓草場后續:揚言撞死牧民,真實身份被扒,公司被牽連

      女子開車碾壓草場后續:揚言撞死牧民,真實身份被扒,公司被牽連

      奇思妙想草葉君
      2026-01-07 23:56:24
      教練競聘完畢,最痛心的不是馬琳和王皓,而是男乒中流砥柱離開了

      教練競聘完畢,最痛心的不是馬琳和王皓,而是男乒中流砥柱離開了

      寒士之言本尊
      2026-01-08 12:58:47
      格陵蘭發達到什么水平?我去了才發現,差距真的太大

      格陵蘭發達到什么水平?我去了才發現,差距真的太大

      娛樂八卦木木子
      2026-01-07 15:14:07
      英偉達全面入局,自動駕駛將迎來“蝶變時刻”?

      英偉達全面入局,自動駕駛將迎來“蝶變時刻”?

      極智GeeTech
      2026-01-07 10:07:41
      亞運冠軍舉報訓練基地負責人“索要獎金”續:云南體育局稱“很快會有結論”

      亞運冠軍舉報訓練基地負責人“索要獎金”續:云南體育局稱“很快會有結論”

      澎湃新聞
      2026-01-08 16:04:29
      大跳水!暴跌95%,國產葡萄酒徹底崩了?

      大跳水!暴跌95%,國產葡萄酒徹底崩了?

      毒sir財經
      2026-01-08 19:13:41
      法官隱名 :一場悄無聲息的XXX

      法官隱名 :一場悄無聲息的XXX

      呦呦鹿鳴
      2026-01-07 22:12:24
      萬科郁亮辭職

      萬科郁亮辭職

      地產微資訊
      2026-01-08 18:54:41
      女子看胃病竟死于心臟手術?南通市第一人民醫院被指多項違規,釀一級甲等醫療事故

      女子看胃病竟死于心臟手術?南通市第一人民醫院被指多項違規,釀一級甲等醫療事故

      上游新聞
      2026-01-08 19:57:05
      昆山一外企電子大廠突發解散:300多名員工獲N+1補償金和購物卡

      昆山一外企電子大廠突發解散:300多名員工獲N+1補償金和購物卡

      六子吃涼粉
      2026-01-08 12:34:04
      資深編審、法史學者,北京工業大學副教授解錕逝世,年僅48歲

      資深編審、法史學者,北京工業大學副教授解錕逝世,年僅48歲

      澎湃新聞
      2026-01-08 17:04:26
      受夠了網紅濾鏡的6億人,為何涌入高德?

      受夠了網紅濾鏡的6億人,為何涌入高德?

      虎嗅APP
      2026-01-07 18:38:07
      麻省理工研究警告:未來華北平原不宜人類居住!理論依據是什么?

      麻省理工研究警告:未來華北平原不宜人類居住!理論依據是什么?

      小熊侃史
      2026-01-08 07:55:03
      U23國足0-0伊拉克!球員評分:1人滿分,3人不及格,王鈺棟非MVP

      U23國足0-0伊拉克!球員評分:1人滿分,3人不及格,王鈺棟非MVP

      侃球熊弟
      2026-01-08 23:52:13
      美國被爆對委內瑞拉動手背后,暗藏一個更大圖謀!

      美國被爆對委內瑞拉動手背后,暗藏一個更大圖謀!

      環球時報國際
      2026-01-08 20:56:04
      2026央視春晚彩排曝光,令人擔心的事還是發生了:不該來的都來了

      2026央視春晚彩排曝光,令人擔心的事還是發生了:不該來的都來了

      銀河史記
      2026-01-06 17:22:24
      特雷-楊為啥只賣白菜價?NBA專家:他身處團隊運動卻習慣單打獨斗

      特雷-楊為啥只賣白菜價?NBA專家:他身處團隊運動卻習慣單打獨斗

      羅說NBA
      2026-01-08 22:25:17
      張本智和真要沖擊世界第1?三局僅讓向鵬拿19分 肩膀痊愈后更強了

      張本智和真要沖擊世界第1?三局僅讓向鵬拿19分 肩膀痊愈后更強了

      顏小白的籃球夢
      2026-01-08 21:17:32
      2026-01-09 06:36:49
      生物世界 incentive-icons
      生物世界
      最前沿、最有趣的生命科學研究
      8688文章數 144961關注度
      往期回顧 全部

      科技要聞

      智譜拿下“全球大模型第一股”,憑什么

      頭條要聞

      采用俄羅斯的防空系統 委內瑞拉防空體系因何失效

      頭條要聞

      采用俄羅斯的防空系統 委內瑞拉防空體系因何失效

      體育要聞

      世乒賽銀牌得主,說自己夢里都是孫穎莎

      娛樂要聞

      抗戰劇《馬背搖籃》首播,獲觀眾好評

      財經要聞

      微軟CTO韋青:未來人類會花錢"戒手機"

      汽車要聞

      從量變到"智"變 吉利在CES打出了五張牌

      態度原創

      健康
      家居
      旅游
      手機
      公開課

      這些新療法,讓化療不再那么痛苦

      家居要聞

      理性主義 冷調自由居所

      旅游要聞

      告別 “門票依賴”!石林的轉型之路,給全國老牌景區上了一課

      手機要聞

      1699一加Turbo6首發測評丨 9000mAh 大電池165超高幀

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 在线观看精品自拍视频| 民乐县| 亚洲国语无码| 中文字幕在线日韩| 欧美成人精品一区二区综合| 亚洲成av人片在www鸭子| 欧美日本韩国亚洲| 德兴市| 欧美亚洲国产精品久久| 国产AV影院| yin荡护士揉捏乱p办公室视频| 人妻放荡乱h文| 尤物在线观看国产精品| 中文字幕丝袜精品久久| 洛扎县| 最近日本免费观看高清视频| 91碰碰| 天天躁日日躁狠狠躁喷水| 蜜臀98精品国产免费观看| 亚洲av本道一区二区三区四区| 欧美性69式xxxx护士| 国产精品成人嫩草影院| 黄页网址大全免费观看| 亚洲人成网网址在线看| 色综合中文综合网| 平舆县| 亚洲精品乱码久久久久久自慰 | 内射老阿姨1区2区3区4区| 欧美精品国产综合久久| 国产亚洲欧美一区二区三区在线播放| 男人用嘴添女人私密视频| 人人澡 人人澡 人人看欧美| 国产欧美成人一区二区a片| 狠狠综合av一区二区| 精品久久欧美熟妇www| 中文字幕av久久爽一区| 国产精品久久久久久无毒不卡 | a毛片基地免费大全| 国产精品久久久久久影视| 日韩欧美精品有码在线观看| 黄页网站视频|