![]()
撰文丨王聰
編輯丨王多魚
排版丨水成文
一種疾病折磨了數年時間,期間看了大量醫生,卻始終得不到一個確切的病因,這是許多罕見病患者正在經歷著的“診斷奧德賽”(漫長曲折的診斷歷程)。
罕見病(rare disease)——被定義為患病率低于 1/2000 的疾病,罕見病雖然單一病種患者稀少,但作為一個整體,全球有超過3 億罕見病患者,涉及7000 多種不同的罕見病類型,其中約80%由遺傳因素導致。
盡管罕見病的總體負擔沉重,但由于其臨床表現的多樣性、個體患病率低以及臨床醫生對其了解有限,這些疾病仍然難以診斷。患者往往要經歷平均超過 5 年時間才最終確診,期間會多次轉診、被誤診以及接受不必要的治療,所有這些都導致治療延誤和不良后果。這些挑戰凸顯了開發可擴展、準確且易于解讀的診斷工具的迫切需求——在這方面,多智能體系統(multi-agent system)近期取得的進展具有變革性的潛力。
2026 年 2 月 18 日,上海交通大學人工智能學院/上海人工智能實驗室謝偉迪,上海交通大學醫學院附屬新華醫院孫錕、余永國,上海交通大學人工智能學院/上海人工智能實驗室張婭作為共同通訊作者(Zhao Weike、Wu Chaoyi、Fan Yanjie 為論文共同第一作者),在國際頂尖學術期刊Nature上發表了題為:An agentic system for rare disease diagnosis with traceable reasoning 的研究論文。
該研究針對罕見病“確診難、漏診率高”的全球性難題,開發了了全球首個AI 智能體罕見病循證推理診斷系統——DeepRare,首次在罕見病診斷的準確性上,超越了擁有十年以上經驗的臨床專家。該研究不僅推進了罕見病診斷的發展,為全球三億罕見病患者帶來了實實在在的希望,更是 AI 在醫療領域的一個里程碑,展示了大語言模型驅動的 AI 智能體系統如何重塑當前的臨床工作流程。
![]()
困境:為何罕見病診斷如此之難?
罕見病,通常指患病率低于兩千分之一的疾病,雖然單一種類患者稀少,但已知的罕見病超過 7000 種,其中約 80% 與基因相關。它們之所以診斷困難,主要原因在于:
1、臨床異質性高:癥狀復雜多樣,常涉及多個身體系統。
2、人類認知有限:任何一位醫生畢生遇到的特定罕見病例都可能寥寥無幾。
3、病例數據稀缺:難以收集足夠的數據來訓練傳統 AI 模型。
4、知識更新迅速:每年有約 260-280 種新的罕見遺傳病被發現。
這導致了罕見病患者往往在反復轉診、誤診和無效治療中耗盡精力與財力,錯失最佳治療時機。
破局:DeepRare——一個會“思考”和“查證”的 AI 診斷工具
DeepRare并非一個普通的 AI 模型,而是一個基于大語言模型(LLM)的多智能體系統(multi-agent system),整合了 40 多種專業工具和最新的知識來源,用于支撐罕見病的鑒別、診斷和決策,你可以把它理解成一個由 AI 驅動的“虛擬專家會診中心”。
它的核心能力在于:
理解復雜輸入:無論是患者主訴的自由文本、標準化的醫學表型術語,還是基因測序的原始數據,它都能處理。
多智能體協作:系統內部有多個“專業智能體”——有的負責從海量文獻中檢索最新證據,有的負責在病例庫中尋找相似患者,有的專門分析基因變異。一個中央“調度員”(大語言模型)協調它們有序工作。
生成可追溯的推理:它不會只扔給你一個病名。相反,它會像資深專家一樣,給出一步步的診斷推理過程,并且為每一步結論附上來自權威醫學文獻、指南或病例的可驗證引用鏈接。這一點對于建立臨床信任至關重要。
此外,為了讓提高穩健性,DeepRare 進一步采用了一個自我反思循環(self-reflective loop),以反復評估假設,從而減少過度診斷并減輕 AI 幻覺現象。
![]()
驗證:表現如何?數據說話
研究團隊在迄今為止最全面的罕見病基準上對 DeepRare 進行了嚴格測試,數據涵蓋來自亞洲、北美和歐洲的 6401 個真實臨床案例,涉及 2919 種罕見病類型。
關鍵結果令人振奮:
全面領先:在僅基于癥狀表型的診斷任務中,DeepRare 的首次診斷準確率(Recall@1)平均達到 57.18%,顯著優于其他 15 種方法,比第二名高出 23.79%。
基因數據是“利器”:當結合患者的基因測序數據時,診斷能力大幅躍升。在上海交通大學醫學院附屬新華醫院的數據集上,準確率從僅基于癥狀表型時的 39.9% 提升至 69.1%,優于現有的專業生物信息學工具 Exomiser(55.9%)。
超越人類專家:在與 5 名資深罕見病專家的“人機對比”中,DeepRare 在首次診斷準確率上實現了超越(64.4% vs 54.6%)。專家可以查閱搜索引擎,而 DeepRare 僅依據相同的標準化癥狀信息。
推理鏈可靠:更難得的是,其生成的診斷推理鏈經過專家評審,證據準確性與相關性獲得了 95.4% 的高認可度。這意味著該多智能體系統不僅“猜”得準,而且“想”得明白、有理有據。
![]()
DeepRare 的診斷性能
![]()
人類專家對 DeepRare 診斷系統中可追溯推理鏈和故障模式的驗證
意義:不止于診斷,更在于改變診療生態
DeepRare 的價值遠不止提升了準確率這一數字,更重要的是——
縮短診斷旅程:為一線醫生,尤其是非專科醫生,提供了強大的決策支持,有望將數年的診斷過程縮短至數天甚至更短。
賦能基層醫療:在醫療資源匱乏的地區,該系統能極大彌補罕見病專科經驗的不足,促進醫療公平。
透明化構建信任:可追溯的推理鏈讓醫生不再是“盲信” AI 結果,而是可以復核和驗證,這將成為 AI 臨床落地不可或缺的“安全帶”。
示范技術融合:它成功展示了如何將前沿的 AI 智能體技術與專業的醫學知識工具、數據庫深度融合,為未來醫療 AI 的發展提供了范本。
此外,研究團隊已開發了易用的網頁版應用,正在嘗試作為醫生的“診斷副駕駛”(diagnostic copilot)投入臨床使用,該研究的代碼也已開源,促進領域共同進步。
DeepRare 的出現,標志著 AI 正在醫療的“輔助工具”,邁向能夠進行復雜推理、提供透明化診斷建議的“合作伙伴”。對于每一位在迷茫中求索的罕見病患者而言,一盞更明亮、更智能的指路之燈已經點亮。這場對抗罕見病的“診斷奧德賽”,終于迎來了一個可能改變游戲規則的新隊友。
論文鏈接:
https://www.nature.com/articles/s41586-025-10097-9
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.