衡宇 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
中國團隊首次在全球頂尖期刊發(fā)表“大模型+醫(yī)療”領域的相關標準研究!
作為Nature體系中專注于數字醫(yī)療的旗艦期刊,《npj Digital Medicine》(JCR影響因子15.1,中科院醫(yī)學大類1區(qū)Top期刊)此次收錄的CSEDB研究,首次提出了一套用于評估醫(yī)療大模型真實臨床能力的系統性框架。
它由中國AI醫(yī)療公司“未來醫(yī)生”協同32位來自北京協和醫(yī)院、中國醫(yī)學科學院腫瘤醫(yī)院、北京大學口腔醫(yī)院、中國醫(yī)學科學院阜外醫(yī)院、中國人民解放軍總醫(yī)院、復旦大學附屬華山醫(yī)院、上海市同濟醫(yī)院等頂尖醫(yī)療機構的23個核心專科的一線臨床專家共同制定。
![]()
CSEDB全稱為Clinical Safety-Effectiveness Dual-Track Benchmark(臨床安全性與有效性雙軌基準),它首次為評估醫(yī)療AI真實臨床能力建立了一個基于臨床專家共識、覆蓋全面風險維度,并將安全性與有效性分開考量的標準化基準。
通過公開實驗,CSEDB直接給出了不同模型在同一標尺下的臨床能力對照結果。
看到CSEDB登上Nature子刊后,GlobalMD創(chuàng)始人Tim Shi非常激動:
- 這正是我們一直在等待的市場信號!
由中國推動的標準+MedGPT的表現=真正的差異化。
![]()
從行業(yè)角度看,這項研究釋放出了一個清晰的信號:
- 醫(yī)療AI的競爭,正在從能力展示階段,正式進入責任定義階段。
CSEDB憑什么被權威期刊認可?
醫(yī)療既是高價值場景,也是高風險場景,最近這條賽道上熱鬧非凡,包括谷歌、OpenAI、Anthropic等在內,都在加速押注醫(yī)療AI。
回看醫(yī)療AI發(fā)展至今的軌跡,有一個矛盾始終難以化解——
現有評估體系往往圍繞學術數據集展開,更多關注準確率、召回率等統計指標,但鮮少回答在真實場景中部署使用會帶來什么結果。
而針對人類醫(yī)生設置的執(zhí)業(yè)醫(yī)師考試,難以覆蓋真實場景所需。
“真實臨床工作的復雜性遠超考試。”北京協和醫(yī)院胸外科主任醫(yī)師梁乃新教授告訴量子位,執(zhí)業(yè)醫(yī)師考試是一種通過性門檻,核心是考核基礎規(guī)范與“不犯錯”的能力。在面對個體化治療與多病共存的患者時,醫(yī)生的核心價值在于做出追求更好的綜合判斷。
所以,醫(yī)療AI往往在評測榜單上表現亮眼,但很難在真實診療環(huán)境中驗證安全性和有效性。
正是在這樣的背景下,CSEDB被提出。
CSEDB由未來醫(yī)生協同32位來自頂尖醫(yī)療機構23個核心專科的一線臨床專家共同制定。
最為創(chuàng)新的地方,在于CSEDB在醫(yī)療AI評估中首次引入了“安全性”與“有效性”雙軌評價體系。
與以往算總分的評測標準不同,CSEDB一條軌道專注安全性,另一條軌道衡量有效性,只有同時通過這兩道門檻,模型才被認為具備臨床部署的基本資格。
![]()
更關鍵的是,CSEDB還進一步在指標設計上引入了風險權重機制,每一項評估指標都會根據其潛在臨床風險,被賦予1到5級的權重。
涉及誤診、禁忌用藥等高風險情境的指標,會對總評分產生顯著影響。
這種設計邏輯在評估階段就模擬醫(yī)療決策中的風險分級體系,把“安全優(yōu)先”嵌入到評分結構之中。
![]()
為了支撐好CSEDB,專家團隊特意構建了一個面向真實臨床問題的數據集。
整套評估體系共涵蓋了2069個開放式問答條目,覆蓋26個臨床專科。
這些問答場景高度貼近一線實際的臨床病例推演,涵蓋危急重癥狀識別、致死性診斷失誤、劑量與器官功能失配、嚴重過敏史忽視、常見病正確診斷、多病并存優(yōu)先級、并發(fā)癥預警提示等關鍵場景,強調模型在連續(xù)決策中的表現。
從評估邏輯上看,CSEDB關注的核心并非模型“知道多少”,而是模型“如果這樣判斷,會發(fā)生什么”。
這種以醫(yī)療后果為中心的設計,讓它天然具備部署導向和監(jiān)管友好性,同時具備向不同醫(yī)療體系擴展的潛力。
從根本上改變評估目標,兼具專業(yè)性和完整性,方法論上可復現、可推廣,讓CSEDB能夠覆蓋真實臨床風險,為不同國家的不同醫(yī)療機構采用同一標尺提供了可能。
推特上有網友留言:
- CSEDB被Nature子刊收錄,可能有助于評估GPT的新應用。
![]()
在這套框架下,專家團隊評估了全球范圍內的主流大模型,包括DeepSeek-R1、OpenAI o3、Gemini-2.5、Qwen3-235B、Claude-3.7等在內,悉數接受了這套嚴格測試。
結果頗具沖擊力——
在總體得分、安全性和有效性三個核心維度上,中國未來醫(yī)生團隊推出的MedGPT均位列第一。
尤其在安全性指標上,MedGPT與其他模型拉開了顯著差距,更是唯一一個在安全性評分上超過有效性的模型。
![]()
臨床安全和有效性持續(xù)收斂,MedGPT技術大拆箱
奪冠的MedGPT是什么來頭?
它由中國AI醫(yī)療公司“未來醫(yī)生”推出,是一個原生為臨床使用場景設計的醫(yī)療大模型。
![]()
鑒于醫(yī)療決策本身并不均質,MedGPT的核心架構設計了快慢雙系統模式。
大量臨床場景其實高度常規(guī),路徑清晰、風險可控,并且在醫(yī)療場景中對響應速度要求高,快慢雙系統中的“快系統”專為這類場景而設計。
它采用輕量化的推理結構,在高度結構化的醫(yī)學知識約束下,快速生成候選結論,響應時間可以壓縮到百毫秒量級。
簡單來說,快系統追求在低風險前提下的穩(wěn)定輸出,避免在簡單問題上過度消耗算力和推理成本。
但醫(yī)療場景里還有一些棘手的問題,比如有的患者癥狀不典型,或存在合并癥或用藥沖突的情況。這種時候,需要對其病癥反復推敲,才能下診斷。
在此類復雜場景下,即便人類醫(yī)生也面臨較高的誤判風險,而AI模型還存在幻覺問題,單一的快系統機制顯然不足以保證安全性。
針對那些高復雜度、高風險場景,MedGPT則自備了一套“慢系統”。
慢系統會主動拉長推理鏈,引入多階段臨床演繹路徑,將診斷拆解為病史分析-鑒別診斷-結論驗證等多個步驟,并調用更豐富的醫(yī)學知識庫與專家經驗進行交叉校驗。
雖然存在兩套系統,但MedGPT并不會說讓兩套系統并行給出答案然后簡單擇優(yōu),它會根據問題的風險等級、信息不確定性以及潛在后果,動態(tài)決定是否從快系統升級到慢系統。
為了進一步確保嚴謹性,MedGPT還進一步引入了專門的風險調和與控制機制“ACC層”,來處理兩套系統輸出之間的沖突。
當快系統給出的直覺性結論,與慢系統在深度推理中發(fā)現的風險信號出現不一致時,系統會優(yōu)先觸發(fā)風險約束,重新審視推理路徑,必要時直接拒絕輸出,并引導轉向人工就醫(yī)。
在訓練和數據層面,MedGPT通過結構化方式內化了醫(yī)學知識體系。模型內化醫(yī)學知識體系后,推理時會更接近醫(yī)學決策的真實路徑。
注意!MedGPT還在使用中不斷進化。
每周,來自超過一萬名醫(yī)生的兩萬條診療反饋會沉淀,納入模型推理單元訓練形成數據飛輪。從結果上來看,MedGPT每月準確率均穩(wěn)定提升1.2%-1.5%。
不過,不是所有人都能根據快慢雙系統復刻出另一個MedGPT:MedGPT身上還有可以被拆解、被驗證,也被真實運行過的工程結果。
首先是醫(yī)學邏輯被顯式建模。
MedGPT主動把臨床決策過程拆成結構化路徑,從病史分析、初步判斷,到鑒別診斷和結論驗證,每一步都對應明確的醫(yī)學知識來源和校驗規(guī)則。
模型不再只是給結論,而是沿著一條可追溯的醫(yī)學邏輯鏈條推進,錯誤不容易被“一次生成”掩蓋。
其次是臨床風險被量化控制。
無論是快慢雙系統的分流,還是ACC層的風險調和,MedGPT把臨床可能遇到的風險前置到推理過程中。
高風險場景下,系統會主動提高驗證門檻,甚至觸發(fā)拒答和就醫(yī)引導,用工程化能力讓產品劃清責任邊界。
最后,也是最容易被忽略的一點,那就是臨床反饋形成的動態(tài)閉環(huán)。
MedGPT在真實使用中持續(xù)接收醫(yī)生反饋,每周沉淀大量規(guī)則更新。
這些反饋并不只是“好不好用”的主觀評價,會直接作用于慢系統的推理路徑修正和風險策略調整,使模型的進化方向始終由真實診療場景牽引。
綜上所述,醫(yī)學邏輯的顯式建模、臨床風險的量化控制以及臨床反饋的動態(tài)閉環(huán)這三層機制的疊加,讓安全性與有效性在MedGPT身上持續(xù)收斂,構成了其難以被簡單復刻的核心壁壘。
故而MedGPT能在CSEDB中展現出優(yōu)勢。
![]()
而這個尊重醫(yī)學復雜性,且其設計哲學與評估標準高度一致的MedGPT,被團隊設計為未來醫(yī)生產品體系的核心動力引擎。
讓醫(yī)療AI能力在使用中收斂
如果只把模型當成技術能力的展示,那么一時在榜單上奪冠便已足夠。
然而對于未來醫(yī)生團隊而言,比模型能力展示更重要的,是如何將技術優(yōu)勢轉化為真實的臨床價值。
未來醫(yī)生以通過CSEDB嚴格驗證的MedGPT為核心,構建了精準匹配不同醫(yī)療角色與場景的產品矩陣:
? 患者側的“未來醫(yī)生”,7*24小時為用戶提供高質量、負責任、可追溯的嚴肅診療服務,致力于“讓頂級專家免費在線給全國人民看病”;
? 醫(yī)生側的“未來醫(yī)生AI工作室”,深度嵌入診療決策流程,成為醫(yī)生的智能協作者;
? 基層醫(yī)療場景下的“未來家醫(yī)”,則為資源有限的基層機構提供持續(xù)、可靠的輔助支持。
? ……
這些產品讓技術主動適配臨床工作流,在每一個環(huán)節(jié)追求可衡量的效率提升與風險控制,目標是通過AI新技術實現優(yōu)質醫(yī)療資源的無限復制,進而改變醫(yī)療資源供給不足引發(fā)的諸多困境,最終使高品質的健康與醫(yī)療服務變得人人可及。
技術能力通過CSEDB這樣的評估框架得到驗證,產品體系又讓這些能力持續(xù)暴露在真實使用場景中反復檢驗,一個獨特的“牽引式”進化閉環(huán)就此誕生了。
技術能力通過CSEDB的驗證獲得“準生證”,產品矩陣則將其置于真實場景中反復淬煉。
技術被迫遵從臨床流程的嚴格約束,產品則通過用戶反饋不斷向技術提出更高、更精準的要求。二者相互牽引,驅動系統向更可用、更可控的方向持續(xù)演進。
在醫(yī)療AI這場馬拉松中,短期技術領先并不罕見,長期兌現的臨床價值卻極其稀缺。
放在更長的時間尺度中,榜單會變化,標準也會不斷升級……醫(yī)療AI的競爭,更像一場長期耐力測試。
技術、評估、產品三者的協同,正在成為醫(yī)療AI能否深入臨床的決定性因素。
這正在重新定義醫(yī)療AI通往臨床的核心路徑,從追求榜單上的智能,轉向兌現診療中的信任。
刊發(fā)網頁:
https://www.nature.com/articles/s41746-025-02277-8
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.