網易首頁 > 網易號 > 正文申請入駐

中國團隊首次Nature子刊發(fā)布醫(yī)療AI標準，未來醫(yī)生MedGPT全球奪冠

2026-01-21 12:11:39　來源: 量子位

北京舉報

分享至

衡宇發(fā)自凹非寺
量子位 | 公眾號 QbitAI

中國團隊首次在全球頂尖期刊發(fā)表“大模型+醫(yī)療”領域的相關標準研究！

作為Nature體系中專注于數字醫(yī)療的旗艦期刊，《npj Digital Medicine》（JCR影響因子15.1，中科院醫(yī)學大類1區(qū)Top期刊）此次收錄的CSEDB研究，首次提出了一套用于評估醫(yī)療大模型真實臨床能力的系統性框架。

它由中國AI醫(yī)療公司“未來醫(yī)生”協同32位來自北京協和醫(yī)院、中國醫(yī)學科學院腫瘤醫(yī)院、北京大學口腔醫(yī)院、中國醫(yī)學科學院阜外醫(yī)院、中國人民解放軍總醫(yī)院、復旦大學附屬華山醫(yī)院、上海市同濟醫(yī)院等頂尖醫(yī)療機構的23個核心專科的一線臨床專家共同制定。

CSEDB全稱為Clinical Safety-Effectiveness Dual-Track Benchmark（臨床安全性與有效性雙軌基準），它首次為評估醫(yī)療AI真實臨床能力建立了一個基于臨床專家共識、覆蓋全面風險維度，并將安全性與有效性分開考量的標準化基準。

通過公開實驗，CSEDB直接給出了不同模型在同一標尺下的臨床能力對照結果。

看到CSEDB登上Nature子刊后，GlobalMD創(chuàng)始人Tim Shi非常激動：

這正是我們一直在等待的市場信號！
由中國推動的標準+MedGPT的表現=真正的差異化。

從行業(yè)角度看，這項研究釋放出了一個清晰的信號：

醫(yī)療AI的競爭，正在從能力展示階段，正式進入責任定義階段。

CSEDB憑什么被權威期刊認可？

醫(yī)療既是高價值場景，也是高風險場景，最近這條賽道上熱鬧非凡，包括谷歌、OpenAI、Anthropic等在內，都在加速押注醫(yī)療AI。

回看醫(yī)療AI發(fā)展至今的軌跡，有一個矛盾始終難以化解——

現有評估體系往往圍繞學術數據集展開，更多關注準確率、召回率等統計指標，但鮮少回答在真實場景中部署使用會帶來什么結果。

而針對人類醫(yī)生設置的執(zhí)業(yè)醫(yī)師考試，難以覆蓋真實場景所需。

“真實臨床工作的復雜性遠超考試。”北京協和醫(yī)院胸外科主任醫(yī)師梁乃新教授告訴量子位，執(zhí)業(yè)醫(yī)師考試是一種通過性門檻，核心是考核基礎規(guī)范與“不犯錯”的能力。在面對個體化治療與多病共存的患者時，醫(yī)生的核心價值在于做出追求更好的綜合判斷。

所以，醫(yī)療AI往往在評測榜單上表現亮眼，但很難在真實診療環(huán)境中驗證安全性和有效性。

正是在這樣的背景下，CSEDB被提出。

CSEDB由未來醫(yī)生協同32位來自頂尖醫(yī)療機構23個核心專科的一線臨床專家共同制定。

最為創(chuàng)新的地方，在于CSEDB在醫(yī)療AI評估中首次引入了“安全性”與“有效性”雙軌評價體系。

與以往算總分的評測標準不同，CSEDB一條軌道專注安全性，另一條軌道衡量有效性，只有同時通過這兩道門檻，模型才被認為具備臨床部署的基本資格。

更關鍵的是，CSEDB還進一步在指標設計上引入了風險權重機制，每一項評估指標都會根據其潛在臨床風險，被賦予1到5級的權重。

涉及誤診、禁忌用藥等高風險情境的指標，會對總評分產生顯著影響。

這種設計邏輯在評估階段就模擬醫(yī)療決策中的風險分級體系，把“安全優(yōu)先”嵌入到評分結構之中。

為了支撐好CSEDB，專家團隊特意構建了一個面向真實臨床問題的數據集。

整套評估體系共涵蓋了2069個開放式問答條目，覆蓋26個臨床專科。

這些問答場景高度貼近一線實際的臨床病例推演，涵蓋危急重癥狀識別、致死性診斷失誤、劑量與器官功能失配、嚴重過敏史忽視、常見病正確診斷、多病并存優(yōu)先級、并發(fā)癥預警提示等關鍵場景，強調模型在連續(xù)決策中的表現。

從評估邏輯上看，CSEDB關注的核心并非模型“知道多少”，而是模型“如果這樣判斷，會發(fā)生什么”。

這種以醫(yī)療后果為中心的設計，讓它天然具備部署導向和監(jiān)管友好性，同時具備向不同醫(yī)療體系擴展的潛力。

從根本上改變評估目標，兼具專業(yè)性和完整性，方法論上可復現、可推廣，讓CSEDB能夠覆蓋真實臨床風險，為不同國家的不同醫(yī)療機構采用同一標尺提供了可能。

推特上有網友留言：

CSEDB被Nature子刊收錄，可能有助于評估GPT的新應用。

在這套框架下，專家團隊評估了全球范圍內的主流大模型，包括DeepSeek-R1、OpenAI o3、Gemini-2.5、Qwen3-235B、Claude-3.7等在內，悉數接受了這套嚴格測試。

結果頗具沖擊力——

在總體得分、安全性和有效性三個核心維度上，中國未來醫(yī)生團隊推出的MedGPT均位列第一。

尤其在安全性指標上，MedGPT與其他模型拉開了顯著差距，更是唯一一個在安全性評分上超過有效性的模型。

臨床安全和有效性持續(xù)收斂，MedGPT技術大拆箱

奪冠的MedGPT是什么來頭？

它由中國AI醫(yī)療公司“未來醫(yī)生”推出，是一個原生為臨床使用場景設計的醫(yī)療大模型。

鑒于醫(yī)療決策本身并不均質，MedGPT的核心架構設計了快慢雙系統模式。

大量臨床場景其實高度常規(guī)，路徑清晰、風險可控，并且在醫(yī)療場景中對響應速度要求高，快慢雙系統中的“快系統”專為這類場景而設計。

它采用輕量化的推理結構，在高度結構化的醫(yī)學知識約束下，快速生成候選結論，響應時間可以壓縮到百毫秒量級。

簡單來說，快系統追求在低風險前提下的穩(wěn)定輸出，避免在簡單問題上過度消耗算力和推理成本。

但醫(yī)療場景里還有一些棘手的問題，比如有的患者癥狀不典型，或存在合并癥或用藥沖突的情況。這種時候，需要對其病癥反復推敲，才能下診斷。

在此類復雜場景下，即便人類醫(yī)生也面臨較高的誤判風險，而AI模型還存在幻覺問題，單一的快系統機制顯然不足以保證安全性。

針對那些高復雜度、高風險場景，MedGPT則自備了一套“慢系統”。

慢系統會主動拉長推理鏈，引入多階段臨床演繹路徑，將診斷拆解為病史分析-鑒別診斷-結論驗證等多個步驟，并調用更豐富的醫(yī)學知識庫與專家經驗進行交叉校驗。

雖然存在兩套系統，但MedGPT并不會說讓兩套系統并行給出答案然后簡單擇優(yōu)，它會根據問題的風險等級、信息不確定性以及潛在后果，動態(tài)決定是否從快系統升級到慢系統。

為了進一步確保嚴謹性，MedGPT還進一步引入了專門的風險調和與控制機制“ACC層”，來處理兩套系統輸出之間的沖突。

當快系統給出的直覺性結論，與慢系統在深度推理中發(fā)現的風險信號出現不一致時，系統會優(yōu)先觸發(fā)風險約束，重新審視推理路徑，必要時直接拒絕輸出，并引導轉向人工就醫(yī)。

在訓練和數據層面，MedGPT通過結構化方式內化了醫(yī)學知識體系。模型內化醫(yī)學知識體系后，推理時會更接近醫(yī)學決策的真實路徑。

注意！MedGPT還在使用中不斷進化。

每周，來自超過一萬名醫(yī)生的兩萬條診療反饋會沉淀，納入模型推理單元訓練形成數據飛輪。從結果上來看，MedGPT每月準確率均穩(wěn)定提升1.2%-1.5%。

不過，不是所有人都能根據快慢雙系統復刻出另一個MedGPT：MedGPT身上還有可以被拆解、被驗證，也被真實運行過的工程結果。

首先是醫(yī)學邏輯被顯式建模。

MedGPT主動把臨床決策過程拆成結構化路徑，從病史分析、初步判斷，到鑒別診斷和結論驗證，每一步都對應明確的醫(yī)學知識來源和校驗規(guī)則。

模型不再只是給結論，而是沿著一條可追溯的醫(yī)學邏輯鏈條推進，錯誤不容易被“一次生成”掩蓋。

其次是臨床風險被量化控制。

無論是快慢雙系統的分流，還是ACC層的風險調和，MedGPT把臨床可能遇到的風險前置到推理過程中。

高風險場景下，系統會主動提高驗證門檻，甚至觸發(fā)拒答和就醫(yī)引導，用工程化能力讓產品劃清責任邊界。

最后，也是最容易被忽略的一點，那就是臨床反饋形成的動態(tài)閉環(huán)。

MedGPT在真實使用中持續(xù)接收醫(yī)生反饋，每周沉淀大量規(guī)則更新。

這些反饋并不只是“好不好用”的主觀評價，會直接作用于慢系統的推理路徑修正和風險策略調整，使模型的進化方向始終由真實診療場景牽引。

綜上所述，醫(yī)學邏輯的顯式建模、臨床風險的量化控制以及臨床反饋的動態(tài)閉環(huán)這三層機制的疊加，讓安全性與有效性在MedGPT身上持續(xù)收斂，構成了其難以被簡單復刻的核心壁壘。

故而MedGPT能在CSEDB中展現出優(yōu)勢。

而這個尊重醫(yī)學復雜性，且其設計哲學與評估標準高度一致的MedGPT，被團隊設計為未來醫(yī)生產品體系的核心動力引擎。

讓醫(yī)療AI能力在使用中收斂

如果只把模型當成技術能力的展示，那么一時在榜單上奪冠便已足夠。

然而對于未來醫(yī)生團隊而言，比模型能力展示更重要的，是如何將技術優(yōu)勢轉化為真實的臨床價值。

未來醫(yī)生以通過CSEDB嚴格驗證的MedGPT為核心，構建了精準匹配不同醫(yī)療角色與場景的產品矩陣：

? 患者側的“未來醫(yī)生”，7*24小時為用戶提供高質量、負責任、可追溯的嚴肅診療服務，致力于“讓頂級專家免費在線給全國人民看病”；
? 醫(yī)生側的“未來醫(yī)生AI工作室”，深度嵌入診療決策流程，成為醫(yī)生的智能協作者；
? 基層醫(yī)療場景下的“未來家醫(yī)”，則為資源有限的基層機構提供持續(xù)、可靠的輔助支持。
? ……

這些產品讓技術主動適配臨床工作流，在每一個環(huán)節(jié)追求可衡量的效率提升與風險控制，目標是通過AI新技術實現優(yōu)質醫(yī)療資源的無限復制，進而改變醫(yī)療資源供給不足引發(fā)的諸多困境，最終使高品質的健康與醫(yī)療服務變得人人可及。

技術能力通過CSEDB這樣的評估框架得到驗證，產品體系又讓這些能力持續(xù)暴露在真實使用場景中反復檢驗，一個獨特的“牽引式”進化閉環(huán)就此誕生了。

技術能力通過CSEDB的驗證獲得“準生證”，產品矩陣則將其置于真實場景中反復淬煉。

技術被迫遵從臨床流程的嚴格約束，產品則通過用戶反饋不斷向技術提出更高、更精準的要求。二者相互牽引，驅動系統向更可用、更可控的方向持續(xù)演進。

在醫(yī)療AI這場馬拉松中，短期技術領先并不罕見，長期兌現的臨床價值卻極其稀缺。

放在更長的時間尺度中，榜單會變化，標準也會不斷升級……醫(yī)療AI的競爭，更像一場長期耐力測試。

技術、評估、產品三者的協同，正在成為醫(yī)療AI能否深入臨床的決定性因素。

這正在重新定義醫(yī)療AI通往臨床的核心路徑，從追求榜單上的智能，轉向兌現診療中的信任。

刊發(fā)網頁：
https://www.nature.com/articles/s41746-025-02277-8

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.