網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

CT影像的 Aha moment | Nature 報(bào)道多中心4.4w例驗(yàn)證集下穩(wěn)健表現(xiàn)的大模型

2026-03-19 12:10:49　來(lái)源: PsyBrain腦心前沿

北京舉報(bào)

分享至

一鍵關(guān)注，點(diǎn)亮星標(biāo) ?? 前沿不走丟！

認(rèn)知神經(jīng)科學(xué)前沿文獻(xiàn)分享

基本信息

Title:Merlin: a computed tomography vision–language foundation model and dataset

發(fā)表時(shí)間：2026-03-04

發(fā)表期刊:Nature

影響因子：48.5

獲取原文：

添加小助手:PSY-Brain-Frontier即可獲取PDF版本

研究背景

全球每年進(jìn)行的計(jì)算機(jī)斷層掃描（CT）約3億次，其中四分之一為腹部掃描。單次掃描往往包含超過(guò)300個(gè)切片，放射科醫(yī)師解釋每份檢查通常需要20分鐘，這種高強(qiáng)度的勞動(dòng)負(fù)荷正導(dǎo)致嚴(yán)重的醫(yī)師短缺，預(yù)計(jì)到2036年短缺人數(shù)將超過(guò)1.9萬(wàn)。

盡管機(jī)器學(xué)習(xí)在影像任務(wù)中初露鋒芒，但現(xiàn)有的醫(yī)療視覺(jué)語(yǔ)言模型多局限于2D影像或短報(bào)告，難以高效處理復(fù)雜的3D體積數(shù)據(jù)。此外，腹部CT常包含早期疾病的生物標(biāo)志物，但往往在日常報(bào)告中被忽略。針對(duì)這一領(lǐng)域痛點(diǎn)，研究者致力于開(kāi)發(fā)一種能直接學(xué)習(xí)體積影像、電子健康記錄（EHR）數(shù)據(jù)及放射報(bào)告的原生3D視覺(jué)語(yǔ)言基礎(chǔ)模型，以期在減輕診斷負(fù)擔(dān)的同時(shí)，挖掘更深層次的疾病預(yù)測(cè)價(jià)值。

實(shí)驗(yàn)設(shè)計(jì)與方法邏輯

本項(xiàng)研究引入了Merlin模型，這是一種原生3D視覺(jué)語(yǔ)言基礎(chǔ)模型（VLM），旨在通過(guò)大規(guī)模多模態(tài)數(shù)據(jù)建立腹部CT的通用表征。Merlin采用3D ResNet152作為影像編碼器，并通過(guò)Clinical Longformer作為文本編碼器以處理超長(zhǎng)臨床序列。

實(shí)驗(yàn)范式基于多階段預(yù)訓(xùn)練框架：首先利用EHR中的183萬(wàn)余條結(jié)構(gòu)化診斷代碼（ICD代碼）通過(guò)二元交叉熵?fù)p失進(jìn)行弱監(jiān)督學(xué)習(xí)；隨后結(jié)合600余萬(wàn)個(gè)放射報(bào)告詞元，利用InfoNCE損失進(jìn)行對(duì)比學(xué)習(xí)，實(shí)現(xiàn)影像與文本語(yǔ)義的對(duì)齊。核心技術(shù)手段還包括放射報(bào)告切分技術(shù)，即將報(bào)告按解剖區(qū)域拆分以強(qiáng)化局部特征學(xué)習(xí)。研究者在涉及5137個(gè)內(nèi)部掃描和44098個(gè)外部掃描的大規(guī)模數(shù)據(jù)集上，對(duì)Merlin進(jìn)行了包括零樣本分類(lèi)、表型識(shí)別、慢性病預(yù)測(cè)及語(yǔ)義分割在內(nèi)的752項(xiàng)任務(wù)測(cè)試，全面評(píng)估其在不同機(jī)構(gòu)、掃描參數(shù)及患者人群中的泛化能力。

Fig. 1 | Overview of Merlin training and evaluation. 訓(xùn)練和評(píng)估框架圖

核心發(fā)現(xiàn)

發(fā)現(xiàn)一：卓越的零樣本臨床診斷能力

Merlin在未經(jīng)特定任務(wù)微調(diào)的情況下，能根據(jù)文本提示直接對(duì)30種常見(jiàn)腹部病變進(jìn)行分類(lèi)，其在內(nèi)部驗(yàn)證集上的宏平均F1分?jǐn)?shù)達(dá)到0.741，在外部驗(yàn)證集上達(dá)到0.647。相比之下，基于2D影像的OpenCLIP和BioMedCLIP模型表現(xiàn)顯著遜色。該發(fā)現(xiàn)揭示了Merlin在處理復(fù)雜病理特征（如胸腔積液、脾腫大等）時(shí)具備極強(qiáng)的語(yǔ)義理解力，雖然在闌尾炎等微小病灶上的表現(xiàn)仍具挑戰(zhàn)性。

Fig. 2 | Zero-shot classification of findings. Figure 2展示了零樣本分類(lèi)的原理架構(gòu)及Merlin與多個(gè)基準(zhǔn)模型的量化對(duì)比，證明了原生3D架構(gòu)在捕獲空間體積信息方面的決定性?xún)?yōu)勢(shì)。

發(fā)現(xiàn)二：高效的表型關(guān)聯(lián)與多疾病風(fēng)險(xiǎn)預(yù)測(cè)

Merlin在預(yù)測(cè)692種不同表型時(shí)表現(xiàn)穩(wěn)健，平均AUROC達(dá)到0.812，其中在肝臟、腎臟及胃腸道系統(tǒng)疾病中的探測(cè)效果尤為突出。此外，模型在5年慢性病風(fēng)險(xiǎn)預(yù)測(cè)任務(wù)中，僅需10%的標(biāo)注數(shù)據(jù)即可實(shí)現(xiàn)0.708的AUROC，表現(xiàn)優(yōu)于完全監(jiān)督的圖像專(zhuān)用模型，顯示出其在機(jī)會(huì)性篩查中的巨大潛力。

Fig. 3 | Phenotype classification. Figure 3繪制了前20種高患病率表型組的平均AUROC，揭示了模型性能隨訓(xùn)練數(shù)據(jù)規(guī)模增長(zhǎng)的縮放規(guī)律，驗(yàn)證了大數(shù)據(jù)驅(qū)動(dòng)下表征學(xué)習(xí)的深度。

發(fā)現(xiàn)三：強(qiáng)大的跨域泛化與解剖學(xué)普適性

盡管Merlin僅在腹部CT上訓(xùn)練，但在處理完全不同的胸部CT數(shù)據(jù)時(shí)，其凍結(jié)編碼器的線性探測(cè)AUC表現(xiàn)仍比專(zhuān)門(mén)在胸部CT上訓(xùn)練的CT-CLIP和M3FM模型高出12.3%至24.7%。這表明Merlin學(xué)習(xí)到了具備高度魯棒性的通用解剖特征，能夠有效應(yīng)對(duì)不同醫(yī)療機(jī)構(gòu)間的設(shè)備差異和報(bào)告習(xí)慣偏移。

Fig. 5 | External validation on abdominal and chest CT scans. Figure 5的雷達(dá)圖展示了Merlin在多個(gè)外部站點(diǎn)上對(duì)30種病征的分類(lèi)表現(xiàn)，即使在分布移位的環(huán)境下，Merlin依然穩(wěn)居性能曲線最外側(cè)，印證了基礎(chǔ)模型在多樣化臨床場(chǎng)景中的適配力。

省流總結(jié)

本研究推出的Merlin模型標(biāo)志著3D醫(yī)學(xué)影像分析進(jìn)入了基金模型時(shí)代。通過(guò)融合1.5萬(wàn)例高質(zhì)量CT影像、結(jié)構(gòu)化診斷代碼與非結(jié)構(gòu)化放射報(bào)告，Merlin不僅在零樣本診斷、跨模態(tài)檢索和器官分割等任務(wù)中打破了性能天花板，更展現(xiàn)出預(yù)測(cè)未來(lái)疾病風(fēng)險(xiǎn)的巨大潛力。其原生3D設(shè)計(jì)與多模態(tài)數(shù)據(jù)對(duì)齊策略，成功克服了2D模型的局限性，且在外部多站點(diǎn)驗(yàn)證中表現(xiàn)出驚人的泛化性。這項(xiàng)工作證明，利用現(xiàn)有大規(guī)模臨床數(shù)據(jù)訓(xùn)練的通用型AI，可以有效緩解放射科醫(yī)生的工作壓力，并為臨床決策提供深層次的預(yù)判支持。

請(qǐng)打分

這篇?jiǎng)倓偟巧?strong>Nature的研究，是否實(shí)至名歸？我們邀請(qǐng)您作為“云審稿人”，一同品鑒。精讀全文后，歡迎在匿名投票中打分，并在評(píng)論區(qū)分享您的深度見(jiàn)解。

分享人：天天

審核：PsyBrain 腦心前沿編輯部

你好，這里是「PsyBrain 腦心前沿」

專(zhuān)注追蹤全球認(rèn)知神經(jīng)科學(xué)的最尖端突破

視野直擊 Nature, Science, Cell 正刊及 Nat Neurosci, Nat Hum Behav, Neuron, Sci Adv 等核心子刊與頂級(jí)大刊

每日速遞「深度解讀」與「前沿快訊」，為你打破信息差

科研是一場(chǎng)探索未知的長(zhǎng)跑，但你無(wú)需獨(dú)行。歡迎志同道合的你加入PsyBrain 學(xué)術(shù)社群，和一群懂你的同行，共同丈量腦與心智的無(wú)垠前沿。

點(diǎn)擊卡片進(jìn)群，歡迎你的到來(lái)

一鍵分享，讓更多人了解前沿

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.