![]()
一鍵關(guān)注,點(diǎn)亮星標(biāo) ?? 前沿不走丟!
認(rèn)知神經(jīng)科學(xué)前沿文獻(xiàn)分享
![]()
基本信息
Title:Merlin: a computed tomography vision–language foundation model and dataset
發(fā)表時(shí)間:2026-03-04
發(fā)表期刊:Nature
影響因子:48.5
獲取原文:
添加小助手:PSY-Brain-Frontier即可獲取PDF版本
![]()
![]()
研究背景
全球每年進(jìn)行的計(jì)算機(jī)斷層掃描(CT)約3億次,其中四分之一為腹部掃描。單次掃描往往包含超過(guò)300個(gè)切片,放射科醫(yī)師解釋每份檢查通常需要20分鐘,這種高強(qiáng)度的勞動(dòng)負(fù)荷正導(dǎo)致嚴(yán)重的醫(yī)師短缺,預(yù)計(jì)到2036年短缺人數(shù)將超過(guò)1.9萬(wàn)。
盡管機(jī)器學(xué)習(xí)在影像任務(wù)中初露鋒芒,但現(xiàn)有的醫(yī)療視覺(jué)語(yǔ)言模型多局限于2D影像或短報(bào)告,難以高效處理復(fù)雜的3D體積數(shù)據(jù)。此外,腹部CT常包含早期疾病的生物標(biāo)志物,但往往在日常報(bào)告中被忽略。針對(duì)這一領(lǐng)域痛點(diǎn),研究者致力于開(kāi)發(fā)一種能直接學(xué)習(xí)體積影像、電子健康記錄(EHR)數(shù)據(jù)及放射報(bào)告的原生3D視覺(jué)語(yǔ)言基礎(chǔ)模型,以期在減輕診斷負(fù)擔(dān)的同時(shí),挖掘更深層次的疾病預(yù)測(cè)價(jià)值。
![]()
實(shí)驗(yàn)設(shè)計(jì)與方法邏輯
本項(xiàng)研究引入了Merlin模型,這是一種原生3D視覺(jué)語(yǔ)言基礎(chǔ)模型(VLM),旨在通過(guò)大規(guī)模多模態(tài)數(shù)據(jù)建立腹部CT的通用表征。Merlin采用3D ResNet152作為影像編碼器,并通過(guò)Clinical Longformer作為文本編碼器以處理超長(zhǎng)臨床序列。
實(shí)驗(yàn)范式基于多階段預(yù)訓(xùn)練框架:首先利用EHR中的183萬(wàn)余條結(jié)構(gòu)化診斷代碼(ICD代碼)通過(guò)二元交叉熵?fù)p失進(jìn)行弱監(jiān)督學(xué)習(xí);隨后結(jié)合600余萬(wàn)個(gè)放射報(bào)告詞元,利用InfoNCE損失進(jìn)行對(duì)比學(xué)習(xí),實(shí)現(xiàn)影像與文本語(yǔ)義的對(duì)齊。核心技術(shù)手段還包括放射報(bào)告切分技術(shù),即將報(bào)告按解剖區(qū)域拆分以強(qiáng)化局部特征學(xué)習(xí)。研究者在涉及5137個(gè)內(nèi)部掃描和44098個(gè)外部掃描的大規(guī)模數(shù)據(jù)集上,對(duì)Merlin進(jìn)行了包括零樣本分類(lèi)、表型識(shí)別、慢性病預(yù)測(cè)及語(yǔ)義分割在內(nèi)的752項(xiàng)任務(wù)測(cè)試,全面評(píng)估其在不同機(jī)構(gòu)、掃描參數(shù)及患者人群中的泛化能力。
![]()
Fig. 1 | Overview of Merlin training and evaluation. 訓(xùn)練和評(píng)估框架圖
![]()
核心發(fā)現(xiàn)
發(fā)現(xiàn)一:卓越的零樣本臨床診斷能力
Merlin在未經(jīng)特定任務(wù)微調(diào)的情況下,能根據(jù)文本提示直接對(duì)30種常見(jiàn)腹部病變進(jìn)行分類(lèi),其在內(nèi)部驗(yàn)證集上的宏平均F1分?jǐn)?shù)達(dá)到0.741,在外部驗(yàn)證集上達(dá)到0.647。相比之下,基于2D影像的OpenCLIP和BioMedCLIP模型表現(xiàn)顯著遜色。該發(fā)現(xiàn)揭示了Merlin在處理復(fù)雜病理特征(如胸腔積液、脾腫大等)時(shí)具備極強(qiáng)的語(yǔ)義理解力,雖然在闌尾炎等微小病灶上的表現(xiàn)仍具挑戰(zhàn)性。
![]()
Fig. 2 | Zero-shot classification of findings. Figure 2展示了零樣本分類(lèi)的原理架構(gòu)及Merlin與多個(gè)基準(zhǔn)模型的量化對(duì)比,證明了原生3D架構(gòu)在捕獲空間體積信息方面的決定性?xún)?yōu)勢(shì)。
發(fā)現(xiàn)二:高效的表型關(guān)聯(lián)與多疾病風(fēng)險(xiǎn)預(yù)測(cè)
Merlin在預(yù)測(cè)692種不同表型時(shí)表現(xiàn)穩(wěn)健,平均AUROC達(dá)到0.812,其中在肝臟、腎臟及胃腸道系統(tǒng)疾病中的探測(cè)效果尤為突出。此外,模型在5年慢性病風(fēng)險(xiǎn)預(yù)測(cè)任務(wù)中,僅需10%的標(biāo)注數(shù)據(jù)即可實(shí)現(xiàn)0.708的AUROC,表現(xiàn)優(yōu)于完全監(jiān)督的圖像專(zhuān)用模型,顯示出其在機(jī)會(huì)性篩查中的巨大潛力。
![]()
Fig. 3 | Phenotype classification. Figure 3繪制了前20種高患病率表型組的平均AUROC,揭示了模型性能隨訓(xùn)練數(shù)據(jù)規(guī)模增長(zhǎng)的縮放規(guī)律,驗(yàn)證了大數(shù)據(jù)驅(qū)動(dòng)下表征學(xué)習(xí)的深度。
發(fā)現(xiàn)三:強(qiáng)大的跨域泛化與解剖學(xué)普適性
盡管Merlin僅在腹部CT上訓(xùn)練,但在處理完全不同的胸部CT數(shù)據(jù)時(shí),其凍結(jié)編碼器的線性探測(cè)AUC表現(xiàn)仍比專(zhuān)門(mén)在胸部CT上訓(xùn)練的CT-CLIP和M3FM模型高出12.3%至24.7%。這表明Merlin學(xué)習(xí)到了具備高度魯棒性的通用解剖特征,能夠有效應(yīng)對(duì)不同醫(yī)療機(jī)構(gòu)間的設(shè)備差異和報(bào)告習(xí)慣偏移。
![]()
Fig. 5 | External validation on abdominal and chest CT scans. Figure 5的雷達(dá)圖展示了Merlin在多個(gè)外部站點(diǎn)上對(duì)30種病征的分類(lèi)表現(xiàn),即使在分布移位的環(huán)境下,Merlin依然穩(wěn)居性能曲線最外側(cè),印證了基礎(chǔ)模型在多樣化臨床場(chǎng)景中的適配力。
![]()
省流總結(jié)
本研究推出的Merlin模型標(biāo)志著3D醫(yī)學(xué)影像分析進(jìn)入了基金模型時(shí)代。通過(guò)融合1.5萬(wàn)例高質(zhì)量CT影像、結(jié)構(gòu)化診斷代碼與非結(jié)構(gòu)化放射報(bào)告,Merlin不僅在零樣本診斷、跨模態(tài)檢索和器官分割等任務(wù)中打破了性能天花板,更展現(xiàn)出預(yù)測(cè)未來(lái)疾病風(fēng)險(xiǎn)的巨大潛力。其原生3D設(shè)計(jì)與多模態(tài)數(shù)據(jù)對(duì)齊策略,成功克服了2D模型的局限性,且在外部多站點(diǎn)驗(yàn)證中表現(xiàn)出驚人的泛化性。這項(xiàng)工作證明,利用現(xiàn)有大規(guī)模臨床數(shù)據(jù)訓(xùn)練的通用型AI,可以有效緩解放射科醫(yī)生的工作壓力,并為臨床決策提供深層次的預(yù)判支持。
![]()
請(qǐng)打分
這篇?jiǎng)倓偟巧?strong>Nature的研究,是否實(shí)至名歸?我們邀請(qǐng)您作為“云審稿人”,一同品鑒。精讀全文后,歡迎在匿名投票中打分,并在評(píng)論區(qū)分享您的深度見(jiàn)解。
分享人:天天
審核:PsyBrain 腦心前沿編輯部
你好,這里是「PsyBrain 腦心前沿」
專(zhuān)注追蹤全球認(rèn)知神經(jīng)科學(xué)的最尖端突破
視野直擊 Nature, Science, Cell 正刊 及 Nat Neurosci, Nat Hum Behav, Neuron, Sci Adv 等核心子刊與頂級(jí)大刊
每日速遞「深度解讀」與「前沿快訊」,為你打破信息差
科研是一場(chǎng)探索未知的長(zhǎng)跑,但你無(wú)需獨(dú)行。歡迎志同道合的你加入PsyBrain 學(xué)術(shù)社群,和一群懂你的同行,共同丈量腦與心智的無(wú)垠前沿。
點(diǎn)擊卡片進(jìn)群,歡迎你的到來(lái)
![]()
![]()
![]()
一鍵分享,讓更多人了解前沿
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.