![]()
編輯丨王多魚
排版丨水成文
在醫療人工智能快速發展的當下,GPT-4、Med-PaLM2 等大型語言模型在醫學問答與考試中不斷刷新紀錄,展現出接近人類的認知能力。然而,單一模型固有的“黑箱”局限、缺乏多視角校驗的推理機制,已成為其在真實、高風險臨床場景中安全落地的關鍵瓶頸。如何讓 AI 像多學科專家會診一樣,實現交叉質證、協同決策,是醫療 AI 走向可信、可靠必須跨越的科學鴻溝。
2026 年 1 月 5 日,中國醫學科學院基礎醫學研究所龍爾平團隊與北京大學基礎醫學院萬沛星團隊合作(中國醫學科學院基礎醫學研究所博士生孫欣提、洪奇陽為論文共同第一作者),在Cell Reports Medicine期刊在線發表了題為:Model confrontation and collaboration: a debate intelligence framework for enhancing medical reasoning in large language models 的研究論文。
該研究提出了“模型對抗與協作”(Model confrontation and collaboration,MCC)框架,推動醫療 AI 從“單點智能”邁向“協同推理”的范式躍遷,通過構建可辯論、可追溯、動態協作的模型圓桌,從根本上促進了醫療 AI 向可靠、可解釋、可協作的下一代形態演進。
![]()
![]()
MCC 框架:模型對抗與協作
在這項最新研究中,研究團隊提出了“模型對抗與協作”(Model Confrontation and Collaboration,MCC)框架,將不同的大型語言模型組合成一個動態的、具備“推理-行動-反思”的圓桌式智囊團。MCC 引入共享的“上下文工作區”(shared context):將問題、已生成的候選答案、關鍵證據點與各模型的立場變化以結構化方式寫入同一上下文記憶,并在每一輪辯論中保持對完整對話歷史的可見性,從而確保批判與修正始終基于同一事實與語境。
其核心流程可概括為——
第一步,獨立推理(Reason):GPT-o1、Qwen-QwQ、DeepSeek-R1 在同一問題上并行生成答案與關鍵論證點;隨后引入分歧門控(Gate):系統/主持 LLM 對候選答案進行一致性檢測,僅在出現分歧時激活辯論,從源頭控制額外計算開銷。
第二步,對抗辯論(Debate as Action):進入多輪消息傳遞,每輪中模型執行“質疑-舉證-反駁-修正”四類動作,圍繞共享上下文中的證據缺口與推理斷點開展交叉驗證:定位論證中的跳步、證據不足或概念混淆,進一步補充指南、機制與鑒別診斷依據;隨后進行自我反思,審計自身推理鏈與關鍵假設,并以可解釋方式更新立場與結論。
第三步,共識優化(Consensus Optimization):每輪結束后進行共識判定與早停;若三輪內仍不收斂,則以多數投票作為保底輸出策略。與傳統“靜態集成/硬投票”不同,MCC將多模型互補性顯式轉化為“基于上下文的迭代糾錯”協作過程,使異構模型在知識覆蓋與推理偏好上的差異得以用于錯誤定位與證據對齊,從而顯著提升難題場景下的收斂質量與輸出穩定性。
![]()
MCC 在 MedQA 基準上的表現與決策動態
多項醫學基準測試獲得 SOTA 表現
MCC 在多項代表性醫學基準上展現出一致而穩定的性能:在 MedQA 上取得 92.6%(±0.3)的平均準確率,并在多次獨立運行中顯示出穩定性。PubMedQA 達到 84.8%;在 MMLU 醫學子集中覆蓋遺傳學、解剖學等多個科目,整體維持 90%+,并在其中五個科目獲得 SOTA 表現。
更重要的是,MCC 不僅在“常規題”上提升準確率,也在“更難、更接近真實風險”的評測中保持穩健:在 MedXpertQA 上準確率約 40%,在該基準的對比評測中表現位居前列。在 MetaMedQA 中能夠識別不確定或無明確標準答案的情形并給出“未知/需補充信息”的保守處理,體現出更強的元認知邊界管理能力。此外,在 RABBITS 魯棒性測試中,面對藥物商品名與學名的混用與替換,MCC 性能幾乎不受影響,顯示其對臨床語言變體具有更強的泛化與穩定性。
長文本問答:綜合回答水平更高
在開放式長問答任務中,研究團隊使用 MultiMedQA 基準并邀請醫生與非專業評審開展雙視角盲評,以評估模型在真實醫療咨詢中的綜合表達與建議能力。結果顯示,MCC 在所有維度上均優于 GPT-o1、Qwen、DeepSeek-R1 以及 Med-PaLM2:醫生評審的 12 項指標中,MCC 在病情要點提取、推理正確性與偏差控制等關鍵維度提升 8–12 個百分點且錯誤內容率更低;在另一組 9 項綜合質量指標中,其缺陷率下降 3%–9%,一致性與知識覆蓋更為穩定。進一步在 HealthBench 上,MCC 在與臨床專家共識對齊的任務中取得 92.1 的綜合評分,并在更高難度的 HealthBench Hard 中保持領先,體現出在復雜場景下的穩健性與安全性優勢。
![]()
開放式醫學問答輸出的多維度評估
模擬診斷對話:對話版“診療小組”
為評估 MCC 在交互式診療場景中的能力,研究團隊構建了類醫學院 OSCE 的模擬病例對話測試:模型作為醫生與模擬患者實時交互,在完成病史采集后給出診斷與鑒別診斷。結果顯示,MCC 在病史采集階段平均可捕獲 80% 以上的關鍵患者信息點;在 16 個病例中,有 14 例的信息覆蓋率超過 80%,而單一模型在同等標準下難以穩定達到該水平。與此同時,MCC 提出的問題與患者主訴的相關性更高(多數病例>80%),提示其問診路徑更聚焦關鍵線索、減少遺漏。在診斷結論階段,在 15 個可判定病例中,MCC 的首選診斷正確率達到 80%(12/15),并在鑒別診斷的完整性上呈現優勢。典型案例是一位 56 歲女性出現多飲多尿、乏力與體重下降,既往以 2 型糖尿病處理但血糖控制不佳。辯論過程中,模型間交叉質詢促使補問胰腺相關病史與上腹痛向背部放射等線索,進而將診斷從“糖尿病本身”推進至“胰腺腫瘤相關繼發性糖尿病”的更深層解釋,體現出“圓桌式會診”對關鍵線索召回與深入診斷推理的促進作用。
![]()
MCC 在診斷對話任務中的表現
展望與意義
這項研究表明,多模型對抗與協作可作為醫療推理能力增強的一種通用范式:在不引入額外任務訓練與外部知識庫的條件下,借助結構化辯論將不同模型的知識覆蓋與推理偏好差異顯式用于交叉核驗、證據對齊與錯誤糾偏,從而提高復雜問題上的推理收斂質量與輸出穩定性。需要強調的是,MCC 并非替代醫生,而是提供多角度論據與可追溯的辯論日志,幫助臨床人員降低漏診誤判風險并提升決策透明度,同時亦具備教學示范意義。面向臨床應用,仍需進一步推進與電子病歷及檢查結果的端到端集成、對不確定/沖突信息的處理策略,以及隱私合規與計算成本控制,使其能夠以安全、高效的方式融入真實工作流。
論文鏈接:
https://www.cell.com/cell-reports-medicine/fulltext/S2666-3791(25)00620-2
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.