![]()
撰文丨王聰
編輯丨王多魚
排版丨水成文
用于從臨床影像數據中定義病理學的現有深度學習模型依賴于專家注釋,且在開放臨床環境中缺乏泛化能力。
2026 年 1 月 6 日,中國科學院深圳先進技術研究院醫學成像科學與技術系統全國重點實驗室王珊珊研究員團隊與澳門科技大學/溫州醫科大學張康教授團隊合作(中國科學院深圳先進技術研究院博士生楊浩、清華大學助理教授周洪宇為共同第一作者),在 Nature 子刊Nature Biomedical Engineering上發表了題為:A multimodal vision–language model for generalizable annotation-free pathology localization 的研究論文。
研究團隊提出了一種通用視覺-語言模型——AFLoc(Annotation-Free pathology Localization),其最大特點在于,無需醫生提前標注病灶,即可自動在醫學影像中“找病灶”,實現病例定位,且該模型具有強大的泛化能力,在五種不同類型病理圖像的定位任務中甚至超越了人類基準。
![]()
在這項最新研究中,研究團隊提出了一種通用視覺-語言模型——AFLoc(Annotation-Free pathology Localization),用于實現無需標注的病理定位。
AFLoc 的核心優勢在于基于多層次語義結構的對比學習,該方法將多粒度醫學概念與豐富的圖像特征進行全面對齊,從而在不依賴專家圖像標注的情況下適應病理的多樣化表現形式。
![]()
研究團隊在包含 22 萬對影像-報告的胸部 X 射線數據集上進行了初步實驗,并在涵蓋 34 種胸部病理的 8 個外部數據集上進行了驗證。結果表明,AFLoc 在無需標注的定位和分類任務中均優于當前最先進方法。
此外,研究團隊還評估了 AFLoc 在其他模態圖像上的泛化能力,包括組織病理學和視網膜眼底圖像。研究顯示,AFLoc 展現出強大的泛化能力,在五種不同類型病理圖像的定位任務中甚至超越了人類基準。
這些成果凸顯了 AFLoc 在降低標注需求以及適應復雜臨床環境應用方面的潛力。
論文鏈接:
https://www.nature.com/articles/s41551-025-01574-7
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.