![]()
編輯丨王多魚
排版丨水成文
2026 年 2 月 18 日,上海交通大學(xué)人工智能學(xué)院/上海人工智能實(shí)驗(yàn)室謝偉迪,上海交通大學(xué)醫(yī)學(xué)院附屬新華醫(yī)院孫錕、余永國,上海交通大學(xué)人工智能學(xué)院/上海人工智能實(shí)驗(yàn)室張婭作為共同通訊作者,在Nature上發(fā)表研究論文【1】,開發(fā)了,首次在罕見病診斷的準(zhǔn)確性上,超越了擁有十年以上經(jīng)驗(yàn)的臨床專家。這項(xiàng)研究不僅推進(jìn)了罕見病診斷的發(fā)展,為全球三億罕見病患者帶來了實(shí)實(shí)在在的希望,更是 AI 在醫(yī)療領(lǐng)域的一個(gè)里程碑,展示了大語言模型驅(qū)動(dòng)的 AI 智能體系統(tǒng)如何重塑當(dāng)前的臨床工作流程。
![]()
一天后的 2 月 19 日,謝偉迪、王延峰、孫錕、張婭作為共同通訊作者,在Cancer Cell期刊發(fā)表了題為:Knowledge-enhanced pretraining for vision-language pathology foundation model on cancer diagnosis 的研究論文【2】。
該研究開發(fā)了一種知識(shí)增強(qiáng)型視覺語言病理基礎(chǔ)模型——KEEP,用于癌癥診斷,其表現(xiàn)優(yōu)于現(xiàn)有的基礎(chǔ)模型,尤其是在罕見癌癥亞型上。這項(xiàng)研究確立了知識(shí)增強(qiáng)型視覺語言建模作為推進(jìn)計(jì)算病理學(xué)的強(qiáng)大范式。
![]()
病理學(xué)診斷在臨床癌癥診斷應(yīng)用中仍是金標(biāo)準(zhǔn)。過去十年間,計(jì)算機(jī)視覺領(lǐng)域深度學(xué)習(xí)技術(shù)的進(jìn)步極大地推動(dòng)了計(jì)算病理學(xué)的發(fā)展,催生了基于全監(jiān)督或弱監(jiān)督的專門模型。盡管這些方法前景可觀,但它們通常受限于標(biāo)注成本高昂和標(biāo)注數(shù)據(jù)稀疏,以及在不同數(shù)據(jù)集上的泛化能力有限。為解決這些局限性,自監(jiān)督學(xué)習(xí)(SSL)策略應(yīng)運(yùn)而生,成為一種有前景的替代方案,它能讓模型在大量未標(biāo)注的病理圖像上進(jìn)行預(yù)訓(xùn)練,作為一系列下游任務(wù)的通用特征提取器。然而,僅基于視覺的 SSL 模型仍需在多樣化的標(biāo)注數(shù)據(jù)集上針對(duì)特定任務(wù)進(jìn)行微調(diào),這限制了其在標(biāo)注數(shù)據(jù)量少的場(chǎng)景中的可擴(kuò)展性,尤其是在罕見癌癥亞型分類任務(wù)中。
近期,視覺語言模型(Vision-Language Model,VLM)的興起為計(jì)算病理學(xué)開辟了新范式,為癌癥診斷提供了新途徑。通過聯(lián)合利用視覺和文本數(shù)據(jù),視覺語言模型將自由文本描述作為病理圖像表示學(xué)習(xí)的監(jiān)督信號(hào),這有可能在數(shù)據(jù)稀疏的情況下提高診斷的準(zhǔn)確性。這種方法能夠增強(qiáng)泛化能力,并減少對(duì)大量標(biāo)注數(shù)據(jù)集的依賴,從而解決僅基于視覺的模型在區(qū)分復(fù)雜癌癥亞型方面的局限性。為了創(chuàng)建視覺和語言的聯(lián)合嵌入空間,現(xiàn)有的模型是在從內(nèi)部資源(例如 MI-Zero、CONCH 和 PRISM)或公共網(wǎng)站(如 Twitter 的 PLIP 和 YouTube 視頻的 QuiltNet)收集的病理圖像-文本對(duì)上進(jìn)行訓(xùn)練的,采用簡單的對(duì)比學(xué)習(xí)方法將圖像與其對(duì)應(yīng)的說明進(jìn)行對(duì)齊。
盡管在各種下游任務(wù)中取得了令人矚目的表現(xiàn),但現(xiàn)有的病理學(xué)視覺語言模型,包括 PLIP 和 QuiltNet,由于病理圖像文本數(shù)據(jù)集(例如 OpenPath 和 Quilt1M)規(guī)模相對(duì)較小,仍面臨重大局限。與通用計(jì)算機(jī)視覺中使用的龐大數(shù)據(jù)集相比,這些專門針對(duì)病理學(xué)的資源規(guī)模要小得多,而且往往來自非專業(yè)網(wǎng)站,導(dǎo)致數(shù)據(jù)噪聲大、質(zhì)量有限,例如,這些圖像所附帶的注釋往往簡短、無結(jié)構(gòu)且缺乏全面的醫(yī)學(xué)知識(shí)。這些缺陷阻礙了模型準(zhǔn)確識(shí)別和區(qū)分各種疾病表現(xiàn)及其相應(yīng)病理特征的能力。
零樣本癌癥診斷是病理學(xué)視覺語言基礎(chǔ)模型的關(guān)鍵下游應(yīng)用,非常適合診斷罕見腫瘤且僅有少量標(biāo)注病例的場(chǎng)景。現(xiàn)代基礎(chǔ)模型通常以整個(gè)切片圖像(WSI)的小網(wǎng)格塊為輸入,在僅視覺模型中整合嵌入特征,在視覺語言模型中整合預(yù)測(cè)標(biāo)簽,以得出最終的診斷決策。雖然視覺語言模型通過明確識(shí)別癌變網(wǎng)格塊提供了更具解釋性的方法,但其在診斷罕見疾病方面的表現(xiàn)仍有限。
視覺語言基礎(chǔ)模型,在計(jì)算病理學(xué)領(lǐng)域展現(xiàn)出了巨大潛力,但它們主要依賴數(shù)據(jù)驅(qū)動(dòng),缺乏對(duì)醫(yī)學(xué)知識(shí)的明確整合。
該研究推出了一個(gè)基礎(chǔ)模型——KEEP(KnowledgE-EnhancedPathology),它系統(tǒng)地將疾病知識(shí)融入到癌癥診斷的預(yù)訓(xùn)練中。
KEEP 利用一個(gè)包含 11454 種疾病和 139143 個(gè)屬性的全面疾病知識(shí)圖譜,將數(shù)百萬個(gè)病理圖像文本對(duì)重新組織成 143000 個(gè)語義結(jié)構(gòu)化的組,這些組與疾病本體論層次結(jié)構(gòu)相一致。這種知識(shí)增強(qiáng)型預(yù)訓(xùn)練使視覺和文本表示在層次語義空間中對(duì)齊,從而能夠更深入地理解疾病關(guān)系和形態(tài)學(xué)模式。在 18 個(gè)公共基準(zhǔn)(超過 14000 張全切片圖像)和 4 個(gè)機(jī)構(gòu)的罕見癌癥數(shù)據(jù)集(926 例)上,KEEP 一直優(yōu)于現(xiàn)有的基礎(chǔ)模型,在罕見癌癥亞型上表現(xiàn)出顯著優(yōu)勢(shì)。這些結(jié)果確立了知識(shí)增強(qiáng)型視覺語言建模作為推進(jìn)計(jì)算病理學(xué)的強(qiáng)大范式。
![]()
該研究的亮點(diǎn):
將疾病知識(shí)融入預(yù)訓(xùn)練用于癌癥診斷的基礎(chǔ)模型——KEEP;
分層疾病知識(shí)增強(qiáng)病理學(xué)視覺語言預(yù)訓(xùn)練;
知識(shí)注入可提升癌癥分割、檢測(cè)及亞型分類的效果;
知識(shí)整合促進(jìn)罕見癌癥的診斷和推廣。
論文鏈接:
1. https://www.nature.com/articles/s41586-025-10097-9
2. https://www.cell.com/cancer-cell/fulltext/S1535-6108(26)00058-9
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.