<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Cell子刊:龍爾平/萬沛星團隊發布大模型“圓桌會議”框架,大幅提升醫療AI推理能力

      0
      分享至


      編輯丨王多魚

      排版丨水成文

      醫療人工智能快速發展的當下,GPT-4、Med-PaLM2 等大型語言模型在醫學問答與考試中不斷刷新紀錄,展現出接近人類的認知能力。然而,單一模型固有的“黑箱”局限、缺乏多視角校驗的推理機制,已成為其在真實、高風險臨床場景中安全落地的關鍵瓶頸。如何讓 AI 像多學科專家會診一樣,實現交叉質證、協同決策,是醫療 AI 走向可信、可靠必須跨越的科學鴻溝。

      2026 年 1 月 5 日,中國醫學科學院基礎醫學研究所龍爾平團隊與北京大學基礎醫學院萬沛星團隊合作(中國醫學科學院基礎醫學研究所博士生孫欣提洪奇陽為論文共同第一作者),在Cell Reports Medicine期刊在線發表了題為:Model confrontation and collaboration: a debate intelligence framework for enhancing medical reasoning in large language models 的研究論文。

      該研究提出了“模型對抗與協作”(Model confrontation and collaboration,MCC)框架,推動醫療 AI 從“單點智能”邁向“協同推理”的范式躍遷,通過構建可辯論、可追溯、動態協作的模型圓桌,從根本上促進了醫療 AI 向可靠、可解釋、可協作的下一代形態演進。



      MCC 框架:模型對抗與協作

      在這項最新研究中,研究團隊提出了“模型對抗與協作”(Model Confrontation and Collaboration,MCC)框架,將不同的大型語言模型組合成一個動態的、具備“推理-行動-反思”的圓桌式智囊團。MCC 引入共享的“上下文工作區”(shared context):將問題、已生成的候選答案、關鍵證據點與各模型的立場變化以結構化方式寫入同一上下文記憶,并在每一輪辯論中保持對完整對話歷史的可見性,從而確保批判與修正始終基于同一事實與語境。

      其核心流程可概括為——

      第一步,獨立推理(Reason):GPT-o1、Qwen-QwQ、DeepSeek-R1 在同一問題上并行生成答案與關鍵論證點;隨后引入分歧門控(Gate):系統/主持 LLM 對候選答案進行一致性檢測,僅在出現分歧時激活辯論,從源頭控制額外計算開銷。

      第二步,對抗辯論(Debate as Action):進入多輪消息傳遞,每輪中模型執行“質疑-舉證-反駁-修正”四類動作,圍繞共享上下文中的證據缺口與推理斷點開展交叉驗證:定位論證中的跳步、證據不足或概念混淆,進一步補充指南、機制與鑒別診斷依據;隨后進行自我反思,審計自身推理鏈與關鍵假設,并以可解釋方式更新立場與結論。

      第三步,共識優化(Consensus Optimization):每輪結束后進行共識判定與早停;若三輪內仍不收斂,則以多數投票作為保底輸出策略。與傳統“靜態集成/硬投票”不同,MCC將多模型互補性顯式轉化為“基于上下文的迭代糾錯”協作過程,使異構模型在知識覆蓋與推理偏好上的差異得以用于錯誤定位與證據對齊,從而顯著提升難題場景下的收斂質量與輸出穩定性。


      MCC 在 MedQA 基準上的表現與決策動態

      多項醫學基準測試獲得 SOTA 表現

      MCC 在多項代表性醫學基準上展現出一致而穩定的性能:在 MedQA 上取得 92.6%(±0.3)的平均準確率,并在多次獨立運行中顯示出穩定性。PubMedQA 達到 84.8%;在 MMLU 醫學子集中覆蓋遺傳學、解剖學等多個科目,整體維持 90%+,并在其中五個科目獲得 SOTA 表現。

      更重要的是,MCC 不僅在“常規題”上提升準確率,也在“更難、更接近真實風險”的評測中保持穩健:在 MedXpertQA 上準確率約 40%,在該基準的對比評測中表現位居前列。在 MetaMedQA 中能夠識別不確定或無明確標準答案的情形并給出“未知/需補充信息”的保守處理,體現出更強的元認知邊界管理能力。此外,在 RABBITS 魯棒性測試中,面對藥物商品名與學名的混用與替換,MCC 性能幾乎不受影響,顯示其對臨床語言變體具有更強的泛化與穩定性。

      長文本問答:綜合回答水平更高

      在開放式長問答任務中,研究團隊使用 MultiMedQA 基準并邀請醫生與非專業評審開展雙視角盲評,以評估模型在真實醫療咨詢中的綜合表達與建議能力。結果顯示,MCC 在所有維度上均優于 GPT-o1、Qwen、DeepSeek-R1 以及 Med-PaLM2:醫生評審的 12 項指標中,MCC 在病情要點提取、推理正確性與偏差控制等關鍵維度提升 8–12 個百分點且錯誤內容率更低;在另一組 9 項綜合質量指標中,其缺陷率下降 3%–9%,一致性與知識覆蓋更為穩定。進一步在 HealthBench 上,MCC 在與臨床專家共識對齊的任務中取得 92.1 的綜合評分,并在更高難度的 HealthBench Hard 中保持領先,體現出在復雜場景下的穩健性與安全性優勢。


      開放式醫學問答輸出的多維度評估

      模擬診斷對話:對話版“診療小組”

      為評估 MCC 在交互式診療場景中的能力,研究團隊構建了類醫學院 OSCE 的模擬病例對話測試:模型作為醫生與模擬患者實時交互,在完成病史采集后給出診斷與鑒別診斷。結果顯示,MCC 在病史采集階段平均可捕獲 80% 以上的關鍵患者信息點;在 16 個病例中,有 14 例的信息覆蓋率超過 80%,而單一模型在同等標準下難以穩定達到該水平。與此同時,MCC 提出的問題與患者主訴的相關性更高(多數病例>80%),提示其問診路徑更聚焦關鍵線索、減少遺漏。在診斷結論階段,在 15 個可判定病例中,MCC 的首選診斷正確率達到 80%(12/15),并在鑒別診斷的完整性上呈現優勢。典型案例是一位 56 歲女性出現多飲多尿、乏力與體重下降,既往以 2 型糖尿病處理但血糖控制不佳。辯論過程中,模型間交叉質詢促使補問胰腺相關病史與上腹痛向背部放射等線索,進而將診斷從“糖尿病本身”推進至“胰腺腫瘤相關繼發性糖尿病”的更深層解釋,體現出“圓桌式會診”對關鍵線索召回與深入診斷推理的促進作用。


      MCC 在診斷對話任務中的表現

      展望與意義

      這項研究表明,多模型對抗與協作可作為醫療推理能力增強的一種通用范式:在不引入額外任務訓練與外部知識庫的條件下,借助結構化辯論將不同模型的知識覆蓋與推理偏好差異顯式用于交叉核驗、證據對齊與錯誤糾偏,從而提高復雜問題上的推理收斂質量與輸出穩定性。需要強調的是,MCC 并非替代醫生,而是提供多角度論據與可追溯的辯論日志,幫助臨床人員降低漏診誤判風險并提升決策透明度,同時亦具備教學示范意義。面向臨床應用,仍需進一步推進與電子病歷及檢查結果的端到端集成、對不確定/沖突信息的處理策略,以及隱私合規與計算成本控制,使其能夠以安全、高效的方式融入真實工作流。

      論文鏈接

      https://www.cell.com/cell-reports-medicine/fulltext/S2666-3791(25)00620-2

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      第七集黑屏嚇懵觀眾!《小城大事》90秒沉默封神,真相讓全網破防

      第七集黑屏嚇懵觀眾!《小城大事》90秒沉默封神,真相讓全網破防

      鄉野小珥
      2026-01-22 01:39:46
      真正的強者思維,永遠是:無相

      真正的強者思維,永遠是:無相

      詩詞中國
      2026-01-18 18:23:32
      乙肝24周“治愈”?GSK乙肝新藥III期研究成功,2.5億人迎曙光!

      乙肝24周“治愈”?GSK乙肝新藥III期研究成功,2.5億人迎曙光!

      思思夜話
      2026-01-20 11:45:05
      印度姑娘遠嫁中國,7年后回印度,直言:印度的農村比中國落后

      印度姑娘遠嫁中國,7年后回印度,直言:印度的農村比中國落后

      軒逸阿II
      2026-01-21 04:08:18
      閃評 | 美財長警告歐洲“不要進行關稅報復” 歐洲還有哪些“牌”?

      閃評 | 美財長警告歐洲“不要進行關稅報復” 歐洲還有哪些“牌”?

      國際在線
      2026-01-21 20:09:57
      蔣介石死后,無兒無女的宋美齡,靠什么在美國過了28年奢華生活

      蔣介石死后,無兒無女的宋美齡,靠什么在美國過了28年奢華生活

      牛牛叨史
      2025-11-26 01:39:31
      唇釉外觀設計被指涉嫌“辱女”!Uhue:堅決反對惡意詆毀

      唇釉外觀設計被指涉嫌“辱女”!Uhue:堅決反對惡意詆毀

      南方都市報
      2026-01-20 14:48:06
      硬扛兩個月,日不行了,中方第四波制裁開始,高市想見中方領導人

      硬扛兩個月,日不行了,中方第四波制裁開始,高市想見中方領導人

      芳芳歷史燴
      2026-01-20 17:44:33
      男子強奸嫂嫂出獄后又刺死見義勇為村民,今日再審未當庭宣判,此前被判死緩上訴被駁回

      男子強奸嫂嫂出獄后又刺死見義勇為村民,今日再審未當庭宣判,此前被判死緩上訴被駁回

      紅星新聞
      2026-01-21 13:28:47
      卷走53億!又一大佬帶全家跑路,欠中國銀行20億,投資者血本無歸

      卷走53億!又一大佬帶全家跑路,欠中國銀行20億,投資者血本無歸

      以茶帶書
      2025-12-09 23:33:58
      兒子自殺六年后,母親在人體展看到具剝皮尸體,秒認出:那是我兒子

      兒子自殺六年后,母親在人體展看到具剝皮尸體,秒認出:那是我兒子

      新歐洲
      2025-11-28 21:21:41
      女人忘不了情人,嘴上不承認,但肢體語言很明顯

      女人忘不了情人,嘴上不承認,但肢體語言很明顯

      葉飛飛情感屋
      2026-01-21 17:41:55
      1499元的“神酒”跌下神壇?茅臺價格崩了,黃牛連夜跑路!

      1499元的“神酒”跌下神壇?茅臺價格崩了,黃牛連夜跑路!

      房產衫哥
      2026-01-20 14:03:14
      恭喜!19歲主攻被央視點名,大力跳發國內稀缺,有望入選國家隊

      恭喜!19歲主攻被央視點名,大力跳發國內稀缺,有望入選國家隊

      跑者排球視角
      2026-01-21 06:33:39
      體面全無!鄒市明自爆破產,不止賠光2億,其妻子參加婚禮耍酒瘋

      體面全無!鄒市明自爆破產,不止賠光2億,其妻子參加婚禮耍酒瘋

      李覴在北漂
      2026-01-21 00:31:17
      “點都德”老字號的迷局,為什么老廣州不買賬?四點原因說真相

      “點都德”老字號的迷局,為什么老廣州不買賬?四點原因說真相

      珊姐姐
      2026-01-21 10:02:01
      白小白直播中突然質問梁源:你寫過什么歌?梁源當場回懟:我寫過什么你搜一下就知道了

      白小白直播中突然質問梁源:你寫過什么歌?梁源當場回懟:我寫過什么你搜一下就知道了

      可樂談情感
      2026-01-21 02:46:25
      江啟臣算盤落空!鄭麗文正式定調,楊瓊瓔反將盧秀燕一軍

      江啟臣算盤落空!鄭麗文正式定調,楊瓊瓔反將盧秀燕一軍

      瀲滟晴方DAY
      2026-01-21 08:59:46
      這10個字我只認出7個,書法藝術的真正奧秘是什么?

      這10個字我只認出7個,書法藝術的真正奧秘是什么?

      書畫相約
      2026-01-21 09:13:37
      70萬億存款大限將至!銀行慌了,2026將上演史詩級資金大遷徙?

      70萬億存款大限將至!銀行慌了,2026將上演史詩級資金大遷徙?

      現代小青青慕慕
      2026-01-21 10:36:21
      2026-01-22 04:28:49
      生物世界 incentive-icons
      生物世界
      最前沿、最有趣的生命科學研究
      8761文章數 144980關注度
      往期回顧 全部

      科技要聞

      給機器人做仿真訓練 這家創企年營收破億

      頭條要聞

      特朗普稱“美國擁有無人知曉的武器” 克宮回應

      頭條要聞

      特朗普稱“美國擁有無人知曉的武器” 克宮回應

      體育要聞

      只會防守反擊?不好意思,我們要踢決賽了

      娛樂要聞

      首位捐款的明星 苗圃現身嫣然醫院捐款

      財經要聞

      丹麥打響第一槍 歐洲用資本保衛格陵蘭島

      汽車要聞

      2026款上汽大眾朗逸正式上市 售價12.09萬起

      態度原創

      本地
      時尚
      數碼
      公開課
      軍事航空

      本地新聞

      云游遼寧|漫步千年小城晨昏,“康”復好心情

      締造仙女夢的人,去了天堂繼續縫制星光?

      數碼要聞

      AI浪潮讓全球供應鏈陷入危機:1TB SSD僅300元時代結束

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      特朗普:對美國的真正威脅是聯合國和北約

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产真实乱人偷精品视频| 2020无码专区人妻系列日韩| 亚洲精品一二三四区| 亚洲第一色视频| 无套内内射视频网站| 伊人久久大香线蕉av一区| 国产乱人伦av在线无码| 少妇被粗大的猛烈进出69影院一| 无码人妻一区二区三区线 | 亚洲国产综合精品久久av| 91九色国产| 亚洲欧洲日韩综合色天使| 亚洲人成欧美中文字幕| 2020日韩无码| 男女性杂交内射女bbwxz| 高跟熟女中文字幕在线亚洲| 亚洲小说图区综合在线| 两女女百合互慰av赤裸无遮挡| 国产黄在线观看| 少妇爆乳无码专区| 国产精成人| 亚洲无码?成人| 深夜福利啪啪片| 九九re线精品视频在线观看视频 | 你懂的福利导航| 日本va欧美va欧美va精品| 色二区| 亚洲成人A√| 成人自拍网| 亚洲中文字幕无码二区在线| 无码国内精品人妻少妇| 军人粗大的内捧猛烈进出视频| 免费无码黄动漫在线观看| 日日操影院| 中文字幕人妻无码一区二区三区| 中文字幕日韩精品有码| 91孕妇精品一区二区三区| 亚洲最大成人| 亚洲国产精品综合福利专区| 国产精品无码一区二区三级| 91在线视频福利|