網易首頁 > 網易號 > 正文申請入駐

科學通報 | 王磊/王書浩團隊聯合評述通用視覺基礎模型在計算病理學的研究進展

2026-02-02 16:13:11　來源: 科學通報

北京舉報

分享至

近日，北京航空航天大學自動化科學與電氣工程學院王磊教授聯合團隊中日友好醫院病理科/透徹未來首席技術官王書浩博士在《科學通報》發表了題為“通用視覺基礎模型在計算病理學”的評述論文，系統綜述了計算病理學（Computational Pathology, CPath）中視覺基礎模型（Vision Foundation Models, VFMs）的構建方法，分析了自監督學習如何賦能模型泛化能力，并展示了其在下游任務中的優異性能。文章探討了VFMs在多尺度表征、任務適應性等方面的挑戰，并展望了多模態與臨床高效部署等未來研究方向。

在現代醫學，尤其是癌癥診斷中，病理科醫生是手握“最終裁決權”的關鍵角色。一塊小小的組織切片，在顯微鏡下蘊藏著海量的細胞形態、組織結構信息，是醫生判定良惡、分型分級的金標準。隨著數字化浪潮席卷而來，傳統的玻璃切片被掃描成全片掃描數字圖像（Whole-Slide Image, WSI）。這些WSI可達千兆像素（Gigapixel）級別，其蘊含的數據量遠超人眼所能窮盡。計算病理學（Computational Pathology, CPath）利用人工智能（Artificial Intelligence, AI）輔助醫生，從“數據的海洋”中挖掘出肉眼難以察覺的診斷線索。然而，傳統的監督學習AI模型依賴海量的、由病理專家親手勾畫的像素級標注作為“標準答案”。這也是CPath領域十年來最大“痛點”：標注瓶頸（Annotation Bottleneck）。因缺乏標注而無法訓練出最強大的AI模型，嚴重限制了AI在真實臨床環境中的泛化能力與魯棒性。

學術界曾嘗試使用遷移學習來繞過瓶頸，即借用在自然圖像（如 ImageNet）上預訓練好的模型。但自然圖像與病理圖像之間存在顯著差異，因此這種方法的性能提升受到了限制。真正的突破源自于AI領域的一場范式革命：自監督學習（Self-Supervised Learning, SSL）。SSL 的核心思想是“讓數據自己教AI”。它不再依賴病理專家的精細標注，而是利用海量的、未標注的組織病理圖像，通過精心設計的“猜謎”任務來學習圖像的內在結構和深層特征。正是在這一背景下，視覺基礎模型（Vision Foundation Models, VFMs）應運而生。

作為一種普適高效的圖像表征新范式，VFMs 旨在從海量、多樣化、且通常是無標注的病理數據中學習通用的視覺表征。這種由 SSL 賦能的新范式，在提升數據利用效率、增強模型跨任務與跨領域的泛化能力方面展現出了巨大潛力。CPath 領域的 VFM 研究正處于增長爆發期，新模型和新方法層出不窮。本文對不同的模型的技術路徑、優勢和局限進行了系統綜述，深入算法“內核”，勾勒出一條清晰的演進路徑：從“實例判別”出發（早期模型的核心是“對比學習”，學習區分“自己”和“他人”）；深化為“語義濃縮”（新一代模型進化為“自蒸餾”和“掩碼重建”，模型從自身學習并理解局部紋理）；最終邁向“上下文建模”（最新的模型開始解決“近視眼”問題，第一次嘗試從“圖塊”級別躍升到“全切片”級別的上下文理解）。文章旨在為 CPath 研究者提供一份指南，清晰地指出不同技術范式的內在邏輯與演進方向。

文章指出了VFM真正從“學術奇跡”走向“臨床現實”所面臨的幾個關鍵挑戰。一個核心挑戰在于SSL范式與病理特性之間的適配性鴻溝。團隊分析指出，當前CPath的VFM成功，很大程度上是通用視覺領域先進SSL方法的直接遷移。然而，不同的SSL范式存在明顯的任務偏好性：以對比學習為代表的方法（如REMEDIS和CTransPath）擅長學習“全局”高層級語義，因此在“切片級”分類任務中表現出色；但其將整個圖塊視為單一實例的本質，使其對細粒度信息不敏感。另一方面，以MIM建模范式為代表的方法（如UNI所采用的DINOv2）通過重建任務學習局部紋理，在“分割”等需要精確定位的任務中具有天然優勢，但可能對全局判別性特征的捕捉略顯不足。因此，將通用SSL范式“生搬硬套”到CPath，而忽略其內在機制與特定病理任務的適配性問題，是當前研究中亟需反思的。這種挑戰并不僅僅停留在算法層面。計算與存儲資源的雙重瓶頸同樣嚴峻。VFMs是“吞金獸”，如文章表1所示，其訓練動輒需要數十塊頂級GPU（如A100 80GB）并行數周。這不僅是“訓練瓶頸”，將許多算力有限的學術機構排除在外；“部署瓶頸”更為嚴峻。單個WSI存儲可達數GB，VFM推理也需要高顯存GPU，這在許多基層醫療機構中并非標準配置。這一從訓練到推理的全鏈路資源依賴，是VFMs走向臨床應用的根本障礙。

此外，文章還探討了計算病理學未來多模態融合的發展需求，一個更強大的病理基礎模型需要融合病理圖像（形態）、基因測序（遺傳）和電子病歷（臨床）等信息。然而，當前的多模態模型（如PLIP, CONCH）仍處于非常初級的階段，其核心瓶頸在于缺乏高質量、大規模的病理視覺-語言配對數據集。未來，數字病理的全面推進和電子病歷的普及，將為構建更大規模、更高質量的多模態數據集提供堅實基礎，有望從根本上解決當前的數據瓶頸。

北京航空航天大學自動化科學與電氣工程學院王磊教授和中日友好醫院病理科/透徹未來首席技術官王書浩博士為文章通訊作者。北京航空航天大學自動化科學與電氣工程學院博士生付哲銘為文章第一作者。該研究得到了中國國家高水平醫院臨床研究專項資金、北京市“AI+健康”培育創新項目、北京市“科技新星”計劃以及2023 年度中國青海省科技項目的資助。

文章信息

付哲銘，笪倩，王偉，等.通用視覺基礎模型在計算病理學的研究進展. 科學通報, 2026.

https://www.sciengine.com/doi/10.1360/CSB-2025-5045.

轉載、投稿請留言

| 關注科學通報 | 了解科學前沿

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.