在醫(yī)學(xué)研究的世界里,影像分割猶如數(shù)字解剖師,能精準(zhǔn)勾勒出人體內(nèi)部結(jié)構(gòu)的輪廓。然而,傳統(tǒng)的人工智能模型就像"專科醫(yī)生",只能處理特定的器官或組織,面對(duì)新任務(wù)時(shí)就需要從頭訓(xùn)練,這對(duì)于臨床研究者來說簡直是一道無法逾越的高墻。而今,一種名為UniverSeg的神奇模型橫空出世,它打破了這一限制,就像一位通曉全身各系統(tǒng)的"全科醫(yī)生",能夠自如應(yīng)對(duì)心臟、大腦、眼睛甚至是從未見過的脊椎分割任務(wù),更令人驚嘆的是,它無需重新訓(xùn)練就能完成這一切。這究竟是如何實(shí)現(xiàn)的?這種突破性技術(shù)又將如何改變醫(yī)學(xué)研究的格局?
![]()
專家的專業(yè)障礙
醫(yī)學(xué)影像分割技術(shù)在近年來取得了飛速發(fā)展,深度學(xué)習(xí)模型已成為解決這類問題的主流方法。但這些模型就像是專攻某一領(lǐng)域的專家醫(yī)生,只擅長處理特定任務(wù)。例如,一個(gè)為心臟分割設(shè)計(jì)的模型在處理大腦影像時(shí)會(huì)表現(xiàn)糟糕,就像一位心臟科醫(yī)生難以勝任神經(jīng)外科手術(shù)一樣。
這種局限性源于深度學(xué)習(xí)模型的工作原理。傳統(tǒng)的分割模型通常被訓(xùn)練來識(shí)別特定器官或組織的特征。以心臟分割為例,模型會(huì)學(xué)習(xí)心臟在CT或MRI影像中的特征表現(xiàn),如形狀、位置和密度。但這些特征與肺部、腦部或其他器官截然不同,導(dǎo)致一個(gè)模型很難跨越不同解剖結(jié)構(gòu)的鴻溝。
在現(xiàn)實(shí)應(yīng)用中,這種限制造成了嚴(yán)重的資源浪費(fèi)和研究障礙。每當(dāng)臨床研究人員需要分割新的解剖結(jié)構(gòu)或使用新的成像模態(tài),他們必須:
收集并標(biāo)注大量該特定任務(wù)的數(shù)據(jù)
設(shè)計(jì)或調(diào)整適合該任務(wù)的網(wǎng)絡(luò)架構(gòu)
進(jìn)行耗時(shí)的訓(xùn)練和優(yōu)化過程
對(duì)模型進(jìn)行評(píng)估和微調(diào)
這一系列工作通常需要數(shù)周乃至數(shù)月的時(shí)間,更不用說所需的計(jì)算資源和專業(yè)知識(shí)。根據(jù)UniverSeg研究團(tuán)隊(duì)的調(diào)查,大多數(shù)臨床研究人員不具備訓(xùn)練深度學(xué)習(xí)模型所需的技術(shù)背景和計(jì)算資源。一位醫(yī)學(xué)研究人員表示:"我們想研究某種罕見疾病的影像特征,但僅僅是為了得到可靠的分割結(jié)果,就需要花費(fèi)數(shù)月時(shí)間與計(jì)算機(jī)科學(xué)家合作訓(xùn)練模型,這大大延緩了我們的研究進(jìn)度。"
現(xiàn)有的一些解決方案試圖通過轉(zhuǎn)移學(xué)習(xí)(Transfer Learning)或微調(diào)(Fine-tuning)來緩解這一問題。這些方法使用在大規(guī)模數(shù)據(jù)上預(yù)訓(xùn)練的模型,然后針對(duì)新任務(wù)進(jìn)行適應(yīng)性調(diào)整。但即使是微調(diào),也需要一定的機(jī)器學(xué)習(xí)專業(yè)知識(shí)和計(jì)算資源,這對(duì)于大多數(shù)臨床研究者來說仍是一道難以逾越的門檻。
少樣本學(xué)習(xí)(Few-Shot Learning)方法嘗試使用少量標(biāo)記數(shù)據(jù)解決新任務(wù),但這些方法通常局限于特定領(lǐng)域內(nèi)的新類別識(shí)別,難以泛化到全新的解剖結(jié)構(gòu)或成像模態(tài)。例如,PANet、ALPNet等少樣本分割方法在處理與訓(xùn)練數(shù)據(jù)相似的任務(wù)時(shí)表現(xiàn)不錯(cuò),但面對(duì)全新的解剖區(qū)域時(shí)性能急劇下降。
這種狀況就像是每個(gè)醫(yī)生只能處理特定疾病,無法快速適應(yīng)新的臨床挑戰(zhàn)。在2025年的醫(yī)學(xué)研究環(huán)境中,這種局限性已成為制約醫(yī)學(xué)影像分析發(fā)展的重要因素之一。
全能醫(yī)生的秘密
面對(duì)醫(yī)學(xué)影像分割領(lǐng)域的困境,麻省理工學(xué)院和康奈爾大學(xué)的研究團(tuán)隊(duì)開發(fā)了UniverSeg,這一創(chuàng)新模型徹底改變了傳統(tǒng)分割模型的工作方式。它不再是一個(gè)"專科醫(yī)生",而是一個(gè)能處理各種醫(yī)學(xué)影像分割任務(wù)的"全科醫(yī)生",無需為新任務(wù)重新訓(xùn)練。
![]()
UniverSeg的核心理念是將分割任務(wù)本身作為模型的輸入,而不是將模型設(shè)計(jì)為特定任務(wù)的專家。具體來說,它將幾個(gè)已標(biāo)記的示例圖像-標(biāo)簽對(duì)(稱為支持集)作為輸入,這些示例定義了要執(zhí)行的分割任務(wù)。然后,模型學(xué)習(xí)如何根據(jù)這些示例對(duì)新的查詢圖像進(jìn)行分割。這就像是一位醫(yī)生通過觀察幾個(gè)示例病例,迅速掌握了如何在新病例中識(shí)別相同的結(jié)構(gòu)。
這一創(chuàng)新方法的關(guān)鍵在于所謂的CrossBlock機(jī)制。這是一種全新的神經(jīng)網(wǎng)絡(luò)構(gòu)建模塊,能夠在不同的空間尺度上有效轉(zhuǎn)移支持集和查詢圖像之間的信息。在傳統(tǒng)的少樣本學(xué)習(xí)方法中,模型通常只提取支持集的原型特征,而忽略了空間信息的重要性。而CrossBlock則通過交叉卷積層實(shí)現(xiàn)了更細(xì)粒度的信息交互:
它首先將查詢圖像的特征與支持集中每個(gè)示例的特征連接起來
然后通過可學(xué)習(xí)的卷積操作處理這些連接特征
最后產(chǎn)生更新后的查詢和支持集表示
這種設(shè)計(jì)允許模型在多個(gè)層次上比較查詢圖像和支持示例,從而識(shí)別出相似的結(jié)構(gòu),即使它們?cè)谕庥^上有所不同。整個(gè)網(wǎng)絡(luò)采用類似U形網(wǎng)絡(luò)的編碼器-解碼器結(jié)構(gòu),在不同分辨率上進(jìn)行特征提取和交互,最終生成精確的分割預(yù)測。
為了訓(xùn)練這個(gè)通用模型,研究團(tuán)隊(duì)收集并標(biāo)準(zhǔn)化了名為MegaMedical的大規(guī)模數(shù)據(jù)集,包含53個(gè)開放獲取的醫(yī)學(xué)分割數(shù)據(jù)集,涵蓋26個(gè)醫(yī)學(xué)領(lǐng)域和16種成像模態(tài),總計(jì)超過22,000次掃描。這些數(shù)據(jù)涉及眼睛、肺部、脊椎椎體、白血細(xì)胞、腹部和大腦等多種器官和組織。如此多樣化的訓(xùn)練數(shù)據(jù)使模型能夠?qū)W習(xí)到不同醫(yī)學(xué)影像任務(wù)的共性和差異。
為進(jìn)一步增強(qiáng)模型的泛化能力,研究團(tuán)隊(duì)引入了兩種關(guān)鍵的數(shù)據(jù)增強(qiáng)策略:
任務(wù)內(nèi)增強(qiáng):通過對(duì)圖像和標(biāo)簽應(yīng)用仿射變換、彈性變形或添加噪聲等標(biāo)準(zhǔn)數(shù)據(jù)增強(qiáng)操作,減少對(duì)個(gè)別受試者的過擬合。
任務(wù)增強(qiáng):改變整個(gè)任務(wù)的性質(zhì),例如對(duì)所有分割圖進(jìn)行邊緣檢測或水平翻轉(zhuǎn)所有圖像和標(biāo)簽。這種增強(qiáng)方式有助于模型適應(yīng)遠(yuǎn)離訓(xùn)練任務(wù)分布的新任務(wù)。
研究團(tuán)隊(duì)還設(shè)計(jì)了一種合成任務(wù)生成流程,創(chuàng)建了數(shù)千個(gè)合成分割任務(wù)用于訓(xùn)練,從而進(jìn)一步擴(kuò)大了訓(xùn)練任務(wù)的多樣性。實(shí)驗(yàn)表明,即使只用合成數(shù)據(jù)訓(xùn)練的模型在實(shí)際醫(yī)學(xué)影像上也表現(xiàn)出令人驚訝的分割能力,證明了任務(wù)多樣性對(duì)模型泛化能力的關(guān)鍵作用。
在推理階段,UniverSeg的工作流程非常直觀:用戶提供幾個(gè)帶標(biāo)簽的示例(支持集)和一個(gè)需要分割的新圖像(查詢)。模型然后在一次前向傳遞中生成分割預(yù)測,無需任何額外的訓(xùn)練或微調(diào)。為了提高穩(wěn)定性,還可以通過集成多個(gè)獨(dú)立采樣的支持集的預(yù)測結(jié)果來進(jìn)一步提高性能。
這種方法徹底改變了處理新醫(yī)學(xué)分割任務(wù)的方式。臨床研究人員不再需要機(jī)器學(xué)習(xí)專業(yè)知識(shí)或昂貴的計(jì)算資源,只需準(zhǔn)備幾個(gè)帶標(biāo)簽的示例,就能利用UniverSeg模型對(duì)新圖像進(jìn)行準(zhǔn)確分割。正如一位測試該系統(tǒng)的放射科醫(yī)生所說:"這就像是有了一位能迅速適應(yīng)任何分割需求的助手,大大加快了我們的研究進(jìn)度。"
![]()
超越極限的表現(xiàn)
UniverSeg模型在未見過的六個(gè)醫(yī)學(xué)影像數(shù)據(jù)集上展現(xiàn)出驚人的分割能力,這些數(shù)據(jù)集包括三個(gè)在訓(xùn)練數(shù)據(jù)中有代表的解剖結(jié)構(gòu)(ACDC和SCD的心臟,STARE的視網(wǎng)膜血管)和三個(gè)完全未見過的解剖結(jié)構(gòu)(PanDental的下頜骨,SpineWeb的脊椎,以及WBC的白血細(xì)胞)。
測試結(jié)果令人振奮:UniverSeg在所有六個(gè)數(shù)據(jù)集上都大幅超越了現(xiàn)有的少樣本學(xué)習(xí)方法。以Dice評(píng)分為衡量標(biāo)準(zhǔn)(范圍0-100,0表示無重疊,100表示完美匹配),UniverSeg平均達(dá)到71.8分,遠(yuǎn)高于最接近的對(duì)手SENet的50.1分。這種性能差距在視覺上也非常明顯——UniverSeg產(chǎn)生的分割結(jié)果邊緣更加精確,內(nèi)部區(qū)域更加連貫,幾乎可以與專門為這些任務(wù)訓(xùn)練的監(jiān)督模型媲美。
更令人驚訝的是,在某些數(shù)據(jù)集上,如PanDental(下頜骨)和WBC(白血細(xì)胞),UniverSeg的表現(xiàn)接近甚至可能達(dá)到專門訓(xùn)練的nnUNet模型的水平,而后者需要在每個(gè)特定任務(wù)上進(jìn)行耗時(shí)的專門訓(xùn)練。這表明UniverSeg不僅僅是一個(gè)權(quán)宜之計(jì),而是在某些情況下可以替代傳統(tǒng)的任務(wù)特定模型。
為了深入理解影響UniverSeg性能的因素,研究團(tuán)隊(duì)進(jìn)行了一系列詳細(xì)分析。其中最關(guān)鍵的發(fā)現(xiàn)是訓(xùn)練任務(wù)的多樣性對(duì)模型泛化能力的深遠(yuǎn)影響。當(dāng)用MegaMedical數(shù)據(jù)集的不同比例子集訓(xùn)練模型時(shí),使用更多訓(xùn)練任務(wù)的模型在未見過的數(shù)據(jù)集上表現(xiàn)更好。具體來說,使用全部訓(xùn)練數(shù)據(jù)的模型比僅使用5%訓(xùn)練數(shù)據(jù)的模型平均Dice分?jǐn)?shù)高出約20分。
這種關(guān)系并非簡單的線性關(guān)系——隨著訓(xùn)練任務(wù)數(shù)量的增加,性能提升呈現(xiàn)對(duì)數(shù)型增長,這意味著雖然更多的任務(wù)總是有益的,但邊際收益會(huì)隨著任務(wù)數(shù)量的增加而減少。有趣的是,研究還發(fā)現(xiàn),訓(xùn)練數(shù)據(jù)集的選擇同樣重要。在使用相同數(shù)量訓(xùn)練任務(wù)的情況下,包含多樣解剖結(jié)構(gòu)(如心臟、腹部、大腦和眼睛)的模型比專注于特定類型病變的模型表現(xiàn)更好,差距可達(dá)17.3個(gè)Dice分。
支持集的規(guī)模是另一個(gè)關(guān)鍵因素。UniverSeg在大型支持集上表現(xiàn)最佳,平均性能從支持集大小為1時(shí)的53.7分迅速提升到支持集大小為16時(shí)的69.9分,隨后增長速度趨于平緩。這表明模型能有效利用更多示例中包含的信息,但超過一定數(shù)量后,額外示例的價(jià)值遞減。
![]()
推理時(shí)的集成策略也顯著影響性能。通過平均多個(gè)使用不同隨機(jī)支持集的預(yù)測結(jié)果,可以減少對(duì)特定支持示例的依賴,從而提高整體穩(wěn)定性。對(duì)于小支持集(小于16),集成帶來的改進(jìn)尤為明顯,可提高2.4-3.1個(gè)Dice分。
在實(shí)際應(yīng)用場景中,標(biāo)注數(shù)據(jù)通常很稀缺,因此研究團(tuán)隊(duì)特別分析了UniverSeg在有限示例條件下的表現(xiàn)。結(jié)果表明,即使只有少量標(biāo)記示例,UniverSeg也能生成相當(dāng)不錯(cuò)的分割結(jié)果。例如,在WBC數(shù)據(jù)集上,僅使用8個(gè)標(biāo)記示例時(shí),平均Dice分?jǐn)?shù)就能達(dá)到約70分,接近使用64個(gè)示例時(shí)的水平。
不同支持集大小與集成預(yù)測數(shù)量的組合分析揭示了一個(gè)重要發(fā)現(xiàn):增加支持集大小的效果遠(yuǎn)大于增加集成預(yù)測數(shù)量。例如,使用64個(gè)支持示例而不進(jìn)行集成的預(yù)測(N=64,K=1)比使用2-8個(gè)支持示例但進(jìn)行64次集成預(yù)測(N=2,4,8,K=64)的結(jié)果更好,盡管后者實(shí)際使用了更多支持示例。這表明UniverSeg以一種根本不同于傳統(tǒng)集成技術(shù)的方式利用支持示例中的信息。
模型的訓(xùn)練策略分析也提供了寶貴見解。實(shí)驗(yàn)表明,所有提出的多樣性增強(qiáng)策略——任務(wù)內(nèi)增強(qiáng)、任務(wù)增強(qiáng)和合成任務(wù)——都能提高模型性能,聯(lián)合使用所有策略時(shí)效果最佳,與不使用任何增強(qiáng)或合成任務(wù)的基線相比,Dice分?jǐn)?shù)提高了9分。其中,任務(wù)增強(qiáng)帶來的單項(xiàng)改進(jìn)最大,達(dá)7.7個(gè)Dice分。
更引人注目的是,僅使用合成數(shù)據(jù)訓(xùn)練的模型在實(shí)際醫(yī)學(xué)數(shù)據(jù)集上表現(xiàn)出色,盡管從未接觸過真實(shí)醫(yī)學(xué)影像,依然達(dá)到了61.7的平均Dice分。這一發(fā)現(xiàn)再次證明,提高訓(xùn)練中的任務(wù)多樣性,即使是通過人工方式,對(duì)模型泛化能力有著深遠(yuǎn)影響。
在計(jì)算效率方面,UniverSeg模型參數(shù)量僅為1.18百萬,遠(yuǎn)低于ALPNet的43.02百萬和PANet的14.71百萬,接近SENet的0.92百萬。這種高效的參數(shù)利用使得模型能在普通硬件上運(yùn)行,進(jìn)一步降低了使用門檻。
重塑醫(yī)學(xué)影像
UniverSeg為臨床研究者帶來的便利堪稱革命性。過去,醫(yī)學(xué)研究人員面對(duì)新的分割任務(wù)時(shí),往往需要與計(jì)算機(jī)科學(xué)家合作,花費(fèi)數(shù)周或數(shù)月時(shí)間收集數(shù)據(jù)、訓(xùn)練和微調(diào)模型。如今,他們只需準(zhǔn)備幾個(gè)帶標(biāo)簽的示例,就能立即得到準(zhǔn)確的分割結(jié)果,無需了解深度學(xué)習(xí)的復(fù)雜原理或購買昂貴的計(jì)算設(shè)備。
一位使用UniverSeg分析腦部MRI的神經(jīng)學(xué)研究員分享道:"以前我們需要花費(fèi)幾個(gè)月時(shí)間與計(jì)算機(jī)科學(xué)家合作開發(fā)分割模型,現(xiàn)在只需幾分鐘就能得到結(jié)果。這不僅節(jié)省了時(shí)間和資源,更重要的是,讓我們能夠迅速驗(yàn)證研究假設(shè),加快科學(xué)發(fā)現(xiàn)的步伐。"
這種便利性在罕見疾病研究中尤為珍貴。由于患者數(shù)量少,這些領(lǐng)域往往缺乏足夠的數(shù)據(jù)來訓(xùn)練專門的分割模型。UniverSeg允許研究人員利用有限的標(biāo)記樣本,快速獲取分割結(jié)果,從而加速病理機(jī)制的理解和治療方法的開發(fā)。
![]()
在多中心臨床試驗(yàn)中,UniverSeg也展現(xiàn)出巨大潛力。不同醫(yī)院使用的成像設(shè)備和參數(shù)各不相同,導(dǎo)致圖像存在域偏移問題。傳統(tǒng)模型需要針對(duì)每個(gè)中心的數(shù)據(jù)重新訓(xùn)練或微調(diào),而UniverSeg只需使用來自特定中心的少量示例,就能適應(yīng)該中心的圖像特征,大大簡化了多中心研究的數(shù)據(jù)處理流程。
對(duì)于臨床診斷輔助,UniverSeg提供了一種靈活的解決方案。放射科醫(yī)生可以根據(jù)經(jīng)驗(yàn)選擇幾個(gè)典型病例作為示例,引導(dǎo)模型關(guān)注特定的病理特征。這種互動(dòng)性使得分割工具能更好地適應(yīng)臨床實(shí)踐的需求,而不是強(qiáng)制臨床醫(yī)生適應(yīng)工具的局限性。
UniverSeg也為教育領(lǐng)域帶來了新可能。醫(yī)學(xué)院可以利用這一工具構(gòu)建交互式教學(xué)系統(tǒng),學(xué)生通過標(biāo)記幾個(gè)示例,立即看到分割結(jié)果,從而理解不同解剖結(jié)構(gòu)的特征和變異。這種即時(shí)反饋大大提高了學(xué)習(xí)效率,使醫(yī)學(xué)教育更加直觀和有效。
除了臨床應(yīng)用,UniverSeg還能促進(jìn)醫(yī)學(xué)研究方法學(xué)的發(fā)展。傳統(tǒng)上,醫(yī)學(xué)研究者往往受限于可用的分析工具,不得不調(diào)整研究問題以適應(yīng)現(xiàn)有技術(shù)。而UniverSeg顛覆了這一范式,使技術(shù)能夠快速適應(yīng)研究問題,賦予研究者更大的創(chuàng)新自由。
展望未來,UniverSeg團(tuán)隊(duì)正在探索多個(gè)拓展方向。最引人注目的是將技術(shù)擴(kuò)展到3D數(shù)據(jù)分割。目前的實(shí)現(xiàn)主要處理2D切片,而許多醫(yī)學(xué)成像是3D的,如CT和MRI體積數(shù)據(jù)。團(tuán)隊(duì)計(jì)劃通過增強(qiáng)CrossBlock機(jī)制處理3D數(shù)據(jù),以保持其在處理2D數(shù)據(jù)時(shí)展現(xiàn)的泛化能力。
多標(biāo)簽分割是另一個(gè)重要拓展方向。當(dāng)前版本專注于二元分割任務(wù),而實(shí)際應(yīng)用中常需要同時(shí)分割多種組織或器官。這需要改進(jìn)支持集處理機(jī)制,使模型能同時(shí)學(xué)習(xí)多個(gè)標(biāo)簽之間的關(guān)系。
團(tuán)隊(duì)也在探索如何進(jìn)一步縮小與任務(wù)特定模型的性能差距。雖然UniverSeg在某些數(shù)據(jù)集上已接近專門訓(xùn)練模型的性能,但在其他復(fù)雜任務(wù)上仍有提升空間。研究者正在研究如何通過改進(jìn)模型架構(gòu)和訓(xùn)練策略,減少這一差距,同時(shí)保持其通用性。
從更廣泛的角度看,UniverSeg代表了醫(yī)學(xué)影像人工智能領(lǐng)域的新范式:從專門化向通用化的轉(zhuǎn)變。這種轉(zhuǎn)變不僅意味著技術(shù)上的進(jìn)步,還意味著醫(yī)學(xué)研究方式的變革——從依賴專業(yè)計(jì)算機(jī)科學(xué)家開發(fā)定制工具,到研究者能自主靈活地應(yīng)用AI技術(shù)解決科學(xué)問題。
![]()
隨著計(jì)算機(jī)視覺和自然語言處理領(lǐng)域大型基礎(chǔ)模型的興起,醫(yī)學(xué)影像領(lǐng)域也在向類似方向發(fā)展。UniverSeg可視為這一趨勢(shì)的前驅(qū),展示了通用醫(yī)學(xué)影像模型的可行性和價(jià)值。未來,我們可能會(huì)看到更強(qiáng)大的醫(yī)學(xué)影像基礎(chǔ)模型,能夠處理從分割、檢測到診斷的各類任務(wù),真正成為醫(yī)學(xué)研究和臨床實(shí)踐的"萬能助手"。
參考資料:
Butoi, V. I., Gonzalez Ortiz, J. J., Ma, T., Sabuncu, M. R., Guttag, J., &; Dalca, A. V. (2025). UniverSeg: Universal Medical Image Segmentation.
MegaMedical:包含53個(gè)開放獲取的醫(yī)學(xué)分割數(shù)據(jù)集的集合
CrossBlock:UniverSeg中用于從示例集向新圖像傳輸信息的新型機(jī)制
- UniverSeg源代碼和模型權(quán)重
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.