近日,北京航空航天大學(xué)自動化科學(xué)與電氣工程學(xué)院王磊教授聯(lián)合團(tuán)隊中日友好醫(yī)院病理科/透徹未來首席技術(shù)官王書浩博士在《科學(xué)通報》發(fā)表了題為“通用視覺基礎(chǔ)模型在計算病理學(xué)”的評述論文,系統(tǒng)綜述了計算病理學(xué)(Computational Pathology, CPath)中視覺基礎(chǔ)模型(Vision Foundation Models, VFMs)的構(gòu)建方法,分析了自監(jiān)督學(xué)習(xí)如何賦能模型泛化能力,并展示了其在下游任務(wù)中的優(yōu)異性能。文章探討了VFMs在多尺度表征、任務(wù)適應(yīng)性等方面的挑戰(zhàn),并展望了多模態(tài)與臨床高效部署等未來研究方向。
![]()
在現(xiàn)代醫(yī)學(xué),尤其是癌癥診斷中,病理科醫(yī)生是手握“最終裁決權(quán)”的關(guān)鍵角色。一塊小小的組織切片,在顯微鏡下蘊(yùn)藏著海量的細(xì)胞形態(tài)、組織結(jié)構(gòu)信息,是醫(yī)生判定良惡、分型分級的金標(biāo)準(zhǔn)。隨著數(shù)字化浪潮席卷而來,傳統(tǒng)的玻璃切片被掃描成全片掃描數(shù)字圖像(Whole-Slide Image, WSI)。這些WSI可達(dá)千兆像素(Gigapixel)級別,其蘊(yùn)含的數(shù)據(jù)量遠(yuǎn)超人眼所能窮盡。計算病理學(xué)(Computational Pathology, CPath)利用人工智能(Artificial Intelligence, AI)輔助醫(yī)生,從“數(shù)據(jù)的海洋”中挖掘出肉眼難以察覺的診斷線索。然而,傳統(tǒng)的監(jiān)督學(xué)習(xí)AI模型依賴海量的、由病理專家親手勾畫的像素級標(biāo)注作為“標(biāo)準(zhǔn)答案”。這也是CPath領(lǐng)域十年來最大“痛點(diǎn)”:標(biāo)注瓶頸(Annotation Bottleneck)。因缺乏標(biāo)注而無法訓(xùn)練出最強(qiáng)大的AI模型,嚴(yán)重限制了AI在真實臨床環(huán)境中的泛化能力與魯棒性。
學(xué)術(shù)界曾嘗試使用遷移學(xué)習(xí)來繞過瓶頸,即借用在自然圖像(如 ImageNet)上預(yù)訓(xùn)練好的模型。但自然圖像與病理圖像之間存在顯著差異,因此這種方法的性能提升受到了限制。真正的突破源自于AI領(lǐng)域的一場范式革命:自監(jiān)督學(xué)習(xí)(Self-Supervised Learning, SSL)。SSL 的核心思想是“讓數(shù)據(jù)自己教AI”。它不再依賴病理專家的精細(xì)標(biāo)注,而是利用海量的、未標(biāo)注的組織病理圖像,通過精心設(shè)計的“猜謎”任務(wù)來學(xué)習(xí)圖像的內(nèi)在結(jié)構(gòu)和深層特征。正是在這一背景下,視覺基礎(chǔ)模型(Vision Foundation Models, VFMs)應(yīng)運(yùn)而生。
作為一種普適高效的圖像表征新范式,VFMs 旨在從海量、多樣化、且通常是無標(biāo)注的病理數(shù)據(jù)中學(xué)習(xí)通用的視覺表征。這種由 SSL 賦能的新范式,在提升數(shù)據(jù)利用效率、增強(qiáng)模型跨任務(wù)與跨領(lǐng)域的泛化能力方面展現(xiàn)出了巨大潛力。CPath 領(lǐng)域的 VFM 研究正處于增長爆發(fā)期,新模型和新方法層出不窮。本文對不同的模型的技術(shù)路徑、優(yōu)勢和局限進(jìn)行了系統(tǒng)綜述,深入算法“內(nèi)核”,勾勒出一條清晰的演進(jìn)路徑:從“實例判別”出發(fā)(早期模型的核心是“對比學(xué)習(xí)”,學(xué)習(xí)區(qū)分“自己”和“他人”);深化為“語義濃縮”(新一代模型進(jìn)化為“自蒸餾”和“掩碼重建”,模型從自身學(xué)習(xí)并理解局部紋理);最終邁向“上下文建模”(最新的模型開始解決“近視眼”問題,第一次嘗試從“圖塊”級別躍升到“全切片”級別的上下文理解)。文章旨在為 CPath 研究者提供一份指南,清晰地指出不同技術(shù)范式的內(nèi)在邏輯與演進(jìn)方向。
文章指出了VFM真正從“學(xué)術(shù)奇跡”走向“臨床現(xiàn)實”所面臨的幾個關(guān)鍵挑戰(zhàn)。一個核心挑戰(zhàn)在于SSL范式與病理特性之間的適配性鴻溝。團(tuán)隊分析指出,當(dāng)前CPath的VFM成功,很大程度上是通用視覺領(lǐng)域先進(jìn)SSL方法的直接遷移。然而,不同的SSL范式存在明顯的任務(wù)偏好性:以對比學(xué)習(xí)為代表的方法(如REMEDIS和CTransPath)擅長學(xué)習(xí)“全局”高層級語義,因此在“切片級”分類任務(wù)中表現(xiàn)出色;但其將整個圖塊視為單一實例的本質(zhì),使其對細(xì)粒度信息不敏感。另一方面,以MIM建模范式為代表的方法(如UNI所采用的DINOv2)通過重建任務(wù)學(xué)習(xí)局部紋理,在“分割”等需要精確定位的任務(wù)中具有天然優(yōu)勢,但可能對全局判別性特征的捕捉略顯不足。因此,將通用SSL范式“生搬硬套”到CPath,而忽略其內(nèi)在機(jī)制與特定病理任務(wù)的適配性問題,是當(dāng)前研究中亟需反思的。這種挑戰(zhàn)并不僅僅停留在算法層面。計算與存儲資源的雙重瓶頸同樣嚴(yán)峻。VFMs是“吞金獸”,如文章表1所示,其訓(xùn)練動輒需要數(shù)十塊頂級GPU(如A100 80GB)并行數(shù)周。這不僅是“訓(xùn)練瓶頸”,將許多算力有限的學(xué)術(shù)機(jī)構(gòu)排除在外;“部署瓶頸”更為嚴(yán)峻。單個WSI存儲可達(dá)數(shù)GB,VFM推理也需要高顯存GPU,這在許多基層醫(yī)療機(jī)構(gòu)中并非標(biāo)準(zhǔn)配置。這一從訓(xùn)練到推理的全鏈路資源依賴,是VFMs走向臨床應(yīng)用的根本障礙。
此外,文章還探討了計算病理學(xué)未來多模態(tài)融合的發(fā)展需求,一個更強(qiáng)大的病理基礎(chǔ)模型需要融合病理圖像(形態(tài))、基因測序(遺傳)和電子病歷(臨床)等信息。然而,當(dāng)前的多模態(tài)模型(如PLIP, CONCH)仍處于非常初級的階段,其核心瓶頸在于缺乏高質(zhì)量、大規(guī)模的病理視覺-語言配對數(shù)據(jù)集。未來,數(shù)字病理的全面推進(jìn)和電子病歷的普及,將為構(gòu)建更大規(guī)模、更高質(zhì)量的多模態(tài)數(shù)據(jù)集提供堅實基礎(chǔ),有望從根本上解決當(dāng)前的數(shù)據(jù)瓶頸。
北京航空航天大學(xué)自動化科學(xué)與電氣工程學(xué)院王磊教授和中日友好醫(yī)院病理科/透徹未來首席技術(shù)官王書浩博士為文章通訊作者。北京航空航天大學(xué)自動化科學(xué)與電氣工程學(xué)院博士生付哲銘為文章第一作者。該研究得到了中國國家高水平醫(yī)院臨床研究專項資金、北京市“AI+健康”培育創(chuàng)新項目、北京市“科技新星”計劃以及2023 年度中國青海省科技項目的資助。
![]()
文章信息
付哲銘,笪倩,王偉,等.通用視覺基礎(chǔ)模型在計算病理學(xué)的研究進(jìn)展. 科學(xué)通報, 2026.
https://www.sciengine.com/doi/10.1360/CSB-2025-5045.
![]()
轉(zhuǎn)載、投稿請留言
| 關(guān)注科學(xué)通報 | 了解科學(xué)前沿
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.