<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Cell Rep Med丨龍爾平/萬沛星團隊發布大模型“圓桌會議”框架MCC,大幅提升醫療推理能力

      0
      分享至


      在醫學人工智能快速發展的當下,GPT-4、Med-PaLM2等大型語言模型在醫學問答與考試中不斷刷新紀錄,展現出接近人類的認知能力。然而,單一模型固有的“黑箱”局限、缺乏多視角校驗的推理機制,已成為其在真實、高風險臨床場景中安全落地的關鍵瓶頸。如何讓AI像多學科專家會診一樣,實現交叉質證、協同決策,是醫療AI走向可信、可靠必須跨越的科學鴻溝。

      近日,中國醫學科學院基礎醫學研究所龍爾平團隊與北京大學基礎醫學院萬沛星團隊在Cell Reports Medicine期刊在線發表了題為Model confrontation and collaboration: a debate intelligence framework for enhancing medical reasoning in large language models的研究論文,提出“模型對抗與協作”(MCC)框架,推動醫療AI從“單點智能”邁向“協同推理”的范式躍遷,通過構建可辯論、可追溯、動態協作的模型圓桌,從根本上促進了醫療AI向可靠、可解釋、可協作的下一代形態演進。


      MCC框架:模型對抗與協作

      團隊提出“模型對抗與協作” (Model Confrontation and Collaboration, MCC) 框架,將不同的大型語言模型組合成一個動態的、具備“推理—行動—反思”的圓桌式智囊團。MCC引入共享的“上下文工作區” (shared context) :將問題、已生成的候選答案、關鍵證據點與各模型的立場變化以結構化方式寫入同一上下文記憶,并在每一輪辯論中保持對完整對話歷史的可見性,從而確保批判與修正始終基于同一事實與語境。其核心流程可概括為:第一步,獨立推理(Reason):GPT-o1、Qwen-QwQ、DeepSeek-R1在同一問題上并行生成答案與關鍵論證點;隨后引入分歧門控(Gate):系統/主持LLM對候選答案進行一致性檢測,僅在出現分歧時激活辯論,從源頭控制額外計算開銷;第二步,對抗辯論(Debate as Action):進入多輪消息傳遞,每輪中模型執行“質疑—舉證—反駁—修正”四類動作,圍繞共享上下文中的證據缺口與推理斷點開展交叉驗證:定位論證中的跳步、證據不足或概念混淆,進一步補充指南、機制與鑒別診斷依據;隨后進行自我反思,審計自身推理鏈與關鍵假設,并以可解釋方式更新立場與結論。第三步,共識優化(Consensus Optimization):每輪結束后進行共識判定與早停;若三輪內仍不收斂,則以多數投票作為保底輸出策略。與傳統“靜態集成/硬投票”不同,MCC將多模型互補性顯式轉化為“基于上下文的迭代糾錯”協作過程,使異構模型在知識覆蓋與推理偏好上的差異得以用于錯誤定位與證據對齊,從而顯著提升難題場景下的收斂質量與輸出穩定性。


      MCC 在 MedQA 基準上的表現與決策動態

      多項醫學基準測試獲得SOTA表現

      MCC在多項代表性醫學基準上展現出一致而穩定的性能:在MedQA上取得92.6%(±0.3)的平均準確率,并在多次獨立運行中顯示出穩定性。PubMedQA達到84.8%;在MMLU醫學子集中覆蓋遺傳學、解剖學等多個科目,整體維持90%+,并在其中五個科目獲得SOTA表現。更重要的是,MCC不僅在“常規題”上提升準確率,也在“更難、更接近真實風險”的評測中保持穩健:在MedXpertQA上準確率約40%,在該基準的對比評測中表現位居前列。在MetaMedQA中能夠識別不確定或無明確標準答案的情形并給出“未知/需補充信息”的保守處理,體現出更強的元認知邊界管理能力。此外,在RABBITS魯棒性測試中,面對藥物商品名與學名的混用與替換,MCC性能幾乎不受影響,顯示其對臨床語言變體具有更強的泛化與穩定性。

      長文本問答:綜合回答水平更高

      在開放式長問答任務中,團隊使用MultiMedQA基準并邀請醫生與非專業評審開展雙視角盲評,以評估模型在真實醫療咨詢中的綜合表達與建議能力。結果顯示,MCC在所有維度上均優于GPT-o1、Qwen、DeepSeek-R1以及Med-PaLM2:醫生評審的12項指標中,MCC在病情要點提取、推理正確性與偏差控制等關鍵維度提升8–12個百分點且錯誤內容率更低;在另一組9項綜合質量指標中,其缺陷率下降3%–9%,一致性與知識覆蓋更為穩定。進一步在HealthBench上,MCC在與臨床專家共識對齊的任務中取得92.1的綜合評分,并在更高難度的HealthBench Hard中保持領先,體現出在復雜場景下的穩健性與安全性優勢。


      開放式醫學問答輸出的多維度評估

      模擬診斷對話:對話版“診療小組”

      為評估MCC在交互式診療場景中的能力,研究團隊構建了類醫學院OSCE的模擬病例對話測試:模型作為醫生與模擬患者實時交互,在完成病史采集后給出診斷與鑒別診斷。結果顯示,MCC在病史采集階段平均可捕獲80%以上的關鍵患者信息點;在16個病例中,有14例的信息覆蓋率超過80%,而單一模型在同等標準下難以穩定達到該水平。與此同時,MCC提出的問題與患者主訴的相關性更高(多數病例>80%),提示其問診路徑更聚焦關鍵線索、減少遺漏。在診斷結論階段,在15個可判定病例中,MCC的首選診斷正確率達到80%(12/15),并在鑒別診斷的完整性上呈現優勢。典型案例是一位56歲女性出現多飲多尿、乏力與體重下降,既往以2型糖尿病處理但血糖控制不佳。辯論過程中,模型間交叉質詢促使補問胰腺相關病史與上腹痛向背部放射等線索,進而將診斷從“糖尿病本身”推進至“胰腺腫瘤相關繼發性糖尿病”的更深層解釋,體現出“圓桌式會診”對關鍵線索召回與深入診斷推理的促進作用。


      MCC在診斷對話任務中的表現

      展望與意義

      本研究表明,多模型對抗與協作可作為醫療推理能力增強的一種通用范式:在不引入額外任務訓練與外部知識庫的條件下,借助結構化辯論將不同模型的知識覆蓋與推理偏好差異顯式用于交叉核驗、證據對齊與錯誤糾偏,從而提高復雜問題上的推理收斂質量與輸出穩定性。需要強調的是,MCC并非替代醫生,而是提供多角度論據與可追溯的辯論日志,幫助臨床人員降低漏診誤判風險并提升決策透明度,同時亦具備教學示范意義。面向臨床應用,仍需進一步推進與電子病歷及檢查結果的端到端集成、對不確定/沖突信息的處理策略,以及隱私合規與計算成本控制,使其能夠以安全、高效的方式融入真實工作流。

      中國醫學科學院基礎醫學研究所博士生孫欣提和洪奇陽為該論文共同第一作者,龍爾平研究員、萬沛星研究員(北京大學基礎醫學院)為共同通訊作者。

      原文鏈接:https://www.sciencedirect.com/science/article/pii/S2666379125006202

      制版人:十一

      BioArt

      Med

      Plants

      人才招聘

      學術合作組織

      (*排名不分先后)


      轉載須知

      【非原創文章】本文著作權歸文章作者所有,歡迎個人轉發分享,未經作者的允許禁止轉載,作者擁有所有法定權利,違者必究。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      澳網男單八強全出爐:前8號種子7人晉級+05后大滿貫八強第一人

      澳網男單八強全出爐:前8號種子7人晉級+05后大滿貫八強第一人

      全景體育V
      2026-01-26 20:43:02
      笑死,你電話號碼的前主人是什么人?看網友分享,一個比一個炸裂

      笑死,你電話號碼的前主人是什么人?看網友分享,一個比一個炸裂

      另子維愛讀史
      2026-01-25 21:09:07
      這一次,公開拒絕“四大天王”合體的張學友,沒給F4留一絲體面

      這一次,公開拒絕“四大天王”合體的張學友,沒給F4留一絲體面

      白面書誏
      2026-01-26 20:02:20
      突發利空!航天龍頭“天地板跌停”,17個股集體跌停,散戶哭了

      突發利空!航天龍頭“天地板跌停”,17個股集體跌停,散戶哭了

      鵬哥投研
      2026-01-26 08:41:48
      5名曼聯球員在卡里克麾下已取得進步跡象

      5名曼聯球員在卡里克麾下已取得進步跡象

      中場哨
      2026-01-26 17:57:35
      閆學晶眼下最發愁的是如何留住兒媳婦,她清楚自兒子配不上夢迪

      閆學晶眼下最發愁的是如何留住兒媳婦,她清楚自兒子配不上夢迪

      觀察鑒娛
      2026-01-19 09:28:59
      俞敏洪發布嚴正聲明

      俞敏洪發布嚴正聲明

      新京報政事兒
      2026-01-26 12:42:34
      5秒內至少近距離開了10槍!逐幀回顧美國明尼阿波利斯執法槍擊事件

      5秒內至少近距離開了10槍!逐幀回顧美國明尼阿波利斯執法槍擊事件

      澎湃新聞
      2026-01-26 11:17:06
      同樣是 5499 元,為什么寧愿買 iPhone Air,而不是 iPhone 17 標準版?

      同樣是 5499 元,為什么寧愿買 iPhone Air,而不是 iPhone 17 標準版?

      黑貓科技迷
      2026-01-26 22:02:02
      一語道破女留學生的牢A,親眼目睹陪讀媽媽的悲哀,到底真還是假

      一語道破女留學生的牢A,親眼目睹陪讀媽媽的悲哀,到底真還是假

      每日一見
      2026-01-23 15:07:50
      蘋果發布新款AirTag

      蘋果發布新款AirTag

      界面新聞
      2026-01-26 22:08:45
      普京:烏克蘭不割地,和平毫無可能;澤連斯基:沒有100萬烏軍,歐洲無法獨自面對 | 狼叔看世界

      普京:烏克蘭不割地,和平毫無可能;澤連斯基:沒有100萬烏軍,歐洲無法獨自面對 | 狼叔看世界

      狼叔看世界
      2026-01-24 15:41:25
      1月26日俄烏最新:普京的影子郵件

      1月26日俄烏最新:普京的影子郵件

      西樓飲月
      2026-01-26 21:26:31
      “火烈鳥”導彈4發全中!空襲力度加強,俄軍對地攻擊導彈疑不足

      “火烈鳥”導彈4發全中!空襲力度加強,俄軍對地攻擊導彈疑不足

      鷹眼Defence
      2026-01-26 17:27:05
      團長決意與敵人同歸于盡,十七歲號兵高聲呼喊:讓我指揮!日后竟成開國少將

      團長決意與敵人同歸于盡,十七歲號兵高聲呼喊:讓我指揮!日后竟成開國少將

      老杉說歷史
      2026-01-25 21:26:16
      按薄一波的資歷,假如參加55年授銜,能不能被授予“開國大將”?

      按薄一波的資歷,假如參加55年授銜,能不能被授予“開國大將”?

      鶴羽說個事
      2025-12-20 11:25:04
      “地震中消失的人去哪了?”網友的扎心評論,直接看哭了上萬網友

      “地震中消失的人去哪了?”網友的扎心評論,直接看哭了上萬網友

      另子維愛讀史
      2026-01-15 18:13:19
      16戰15勝,勇士找到贏球秘訣!3公式解放庫里2改變彌補巴特勒報銷

      16戰15勝,勇士找到贏球秘訣!3公式解放庫里2改變彌補巴特勒報銷

      鍋子籃球
      2026-01-26 21:36:13
      我是真的想不通章澤天這波操作!32歲的年紀老公劉強東有錢有實力

      我是真的想不通章澤天這波操作!32歲的年紀老公劉強東有錢有實力

      小光侃娛樂
      2026-01-26 20:05:03
      特朗普幡然醒悟:要想讓美國肆無忌憚,就必須繞開一個國家!

      特朗普幡然醒悟:要想讓美國肆無忌憚,就必須繞開一個國家!

      古史青云啊
      2026-01-26 22:37:11
      2026-01-26 23:52:49
      BioArtMED
      BioArtMED
      BioArt旗下科普媒體
      4289文章數 2466關注度
      往期回顧 全部

      科技要聞

      印奇再上牌桌,階躍融資50億

      頭條要聞

      女子被丈夫和閨蜜背叛一夜白頭:聽到兒子叫第三者媽媽

      頭條要聞

      女子被丈夫和閨蜜背叛一夜白頭:聽到兒子叫第三者媽媽

      體育要聞

      叛逆的大公子,要砸了貝克漢姆這塊招牌

      娛樂要聞

      張雨綺被抵制成功!遼視春晚已將她除名

      財經要聞

      從美式斬殺線看中國社會的制度韌性構建

      汽車要聞

      賓利第四臺Batur敞篷版發布 解鎖四項定制創新

      態度原創

      教育
      親子
      旅游
      房產
      公開課

      教育要聞

      靠刷題逆襲數學?你怕不是在做夢

      親子要聞

      【北青網兩會直播間】聚焦生命早期腦發育,馬立霜委員提四項建議 2026年1月25日,來自醫藥衛生界...

      旅游要聞

      豫園的燈亮了,上海的年來了,馬年豫園燈會今晚亮燈

      房產要聞

      突發!三亞官宣,調整安居房政策!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版