在醫學影像領域,標注數據猶如黃金,珍貴而稀缺。當深度學習模型渴求海量帶標簽的數據時,醫學專家的時間與精力卻成為了制約因素。少樣本學習應運而生,它能讓模型僅憑幾個樣本便學會新任務,如同醫學生從少量病例中領悟診斷要領。這項技術在醫學影像分割、分類與配準三大領域展現出驚人潛力,特別是通過元學習技術提升模型的泛化能力。然而,研究顯示,度量學習等主流元學習方法雖廣受青睞,卻未必總能勝過創新的監督學習和半監督學習方法。這一領域的格局正在形成,但挑戰與機遇并存。
![]()
醫學數據困境
醫學影像分析是現代醫療診斷的重要手段,從X光片到核磁共振成像(MRI),從計算機斷層掃描(CT)到正電子發射斷層掃描(PET),這些技術為醫生提供了"透視"人體內部的能力。近年來,隨著深度學習技術在計算機視覺領域的快速發展,人們嘗試將這些技術應用到醫學影像分析中,希望借助人工智能提高診斷準確性和效率。
但醫學影像數據有個顯著特點:獲取昂貴,標注繁瑣。以肝臟腫瘤分割為例,一名放射科醫師可能需要花費30分鐘到數小時不等的時間來手動標注一張三維CT圖像中的腫瘤區域。這不僅耗費大量專業人員的寶貴時間,還涉及醫療隱私保護問題,使數據共享變得復雜。2023年的一項調查顯示,一個典型的醫學影像數據集通常只有幾百到幾千張帶標注的圖像,遠低于通用計算機視覺數據集的規模,后者往往包含數十萬甚至數百萬張圖像。
除了數量少,醫學影像數據還面臨其他挑戰。不同醫療設備產生的圖像質量和特性各異,如不同品牌的MRI設備可能產生對比度和分辨率不同的圖像。病變的表現形式也千差萬別,同一種疾病在不同患者身上的影像學表現可能有很大差異。這些因素共同構成了醫學影像分析的"數據稀缺困境"。
正是在這一背景下,少樣本學習(Few-Shot Learning, FSL)成為醫學影像分析領域的研究熱點。FSL旨在從極少量的帶標簽樣本中學習,模擬人類醫生"舉一反三"的能力。典型的FSL設置是N-way K-shot學習,即對于N個類別,每個類別只有K個帶標簽的樣本用于訓練,通常K小于10。這與傳統深度學習需要大量帶標簽數據的范式形成鮮明對比。
在醫學影像領域,FSL主要應用于三大任務:分割、分類和配準。分割任務旨在精確區分圖像中的不同組織結構,如從肺部CT中分割出腫瘤區域;分類任務則判斷圖像屬于哪種疾病類型,如區分良性和惡性腫瘤;配準任務則將不同時間或不同模態的醫學影像對齊,便于醫生進行比較分析。根據2023年Eva Pachetti和Sara Colantonio發表的系統綜述,在FSL醫學影像分析的研究中,分割任務占61%,分類任務占32%,配準任務占7%,反映了分割任務在醫學影像分析中的核心地位。
就應用的解剖結構而言,心臟(34%)、腎臟(13%)、脾臟(13%)和肝臟(13%)是分割研究最關注的區域,這可能與這些器官在常見疾病診斷中的重要性以及相關公開數據集的可獲取性有關。在分類研究中,肺部(36%)、皮膚(21%)和乳腺(15%)疾病是主要研究對象,這也反映了這些疾病在臨床上的高發性和影像學診斷的重要性。
![]()
盡管數據稀缺帶來挑戰,FSL技術已在多項醫學應用中展現出令人鼓舞的成果。例如,在肝臟分割任務中,基于FSL的方法能夠達到0.78的平均Dice系數(衡量分割精度的指標);在肺部疾病分類中,某些FSL方法能達到0.93的準確率。這些成績表明,FSL有望成為解決醫學影像數據稀缺問題的有效途徑。
方法技術探索
少樣本學習在醫學影像領域的應用主要依賴于幾種核心技術路線,這些方法各有特點,適合不同的應用場景。總體來說,這些方法可分為元學習和非元學習兩大類。
元學習,又稱"學會學習",是解決少樣本問題的主流方法。與傳統方法不同,元學習不直接在數據上訓練,而是在任務(或稱"情景")上訓練。它模擬人類的學習過程——人們在學習新事物時會借鑒以往的經驗,而不是從零開始。元學習框架通常包括兩個階段:元訓練和元測試。在元訓練階段,模型接觸多個不同的任務,從中提取通用知識;在元測試階段,模型將這些知識應用到新任務上,即使只見過幾個樣本,也能迅速適應。
元學習方法可進一步細分為三類:以初始化為基礎的方法、以度量學習為基礎的方法和以幻化為基礎的方法。
以初始化為基礎的方法側重于尋找良好的模型參數初始值,使模型能夠通過少量樣本快速適應新任務。這類方法中最具代表性的是模型無關元學習(Model-Agnostic Meta-Learning, MAML),由Finn等人于2017年提出。MAML尋找對任務變化敏感的模型參數,只需幾步梯度更新就能適應新任務。在醫學影像中,例如,Yuan等人提出的MetaHistoSeg將MAML應用于組織病理學圖像分割,只需8個標注樣本就能達到較好分割效果。此外,Reptile、基于LSTM的優化器和基于馬爾可夫決策過程的強化學習方法也屬于這一類。
以度量學習為基礎的方法則專注于學習樣本間的相似度度量,通過比較測試樣本與支持集樣本的相似度來進行分類。這類方法包括孿生網絡(Siamese Network)、三元組網絡(Triplet Network)、匹配網絡(Matching Network)、原型網絡(Prototypical Network)和關系網絡(Relation Network)等。在醫學影像分析中,這類方法尤為流行,占所有采用元學習的研究的40%。例如,Ali等人將原型網絡應用于內窺鏡圖像分類,僅用5個樣本就達到了90.6%的準確率;Cui等人提出的MRE-Net結合距離度量學習和U-net進行器官分割,在1-shot情況下達到了78.1%的脾臟分割Dice系數。
![]()
以幻化為基礎的方法則直接解決數據稀缺問題,通過生成額外的訓練數據來增強模型性能。這類方法包括基于類內類比的幻化和分類器與幻化器聯合訓練模型等。例如,Zhao等人提出的Meta-hallucinator能在心臟分割任務中,即使只有一個標注樣本,也能達到75.6%的主動脈分割Dice系數。不過,這類方法在醫學影像領域的應用相對較少,僅占元學習方法的6%。
除了元學習方法,非元學習方法在醫學少樣本學習中也展現出強大實力。這些方法包括創新的監督學習、半監督學習、自監督學習和數據增強技術。
監督學習是最基本的機器學習范式,在少樣本設置下,研究者通過設計特殊的網絡結構和損失函數來提高模型泛化能力。例如,Wang等人提出的替代聯合網絡(Alternating Union Network)將圖像子網絡和標簽子網絡結合,僅用一個標注樣本就在左心室分割中達到了87.3%的Dice系數。
半監督學習利用少量帶標簽數據和大量無標簽數據聯合訓練,這在醫學影像分析中尤為重要,因為無標簽醫學圖像往往比帶標簽圖像豐富得多。Xu和Niethammer提出的DeepAtlas同時訓練分割網絡和配準網絡,在膝蓋多結構分割中達到了89.2%的平均Dice系數。
數據增強技術通過對現有樣本進行變換生成新樣本,從而增加訓練數據的多樣性。在醫學影像中,除了傳統的幾何變換和強度變換外,還有基于生成模型的增強和基于配準的增強。例如,Chen等人提出的對抗鏈(Advchain)框架通過對抗訓練生成多樣化的訓練樣本,在左心室分割中達到了84.4%的Dice系數。
在研究分布上,度量學習為基礎的方法是分割任務中最常用的元學習方法(26%),其次是初始化為基礎的方法(13%)和幻化為基礎的方法(6%)。有趣的是,雖然度量學習方法應用最廣,但性能并不總是最好。非元學習方法在某些任務上表現甚至更佳,平均Dice系數達到0.84,而度量學習方法為0.79。
在分類任務中,度量學習方法和非元學習方法各占40%,初始化為基礎的方法占20%。同樣,非元學習方法也展現出較好的性能,平均準確率達0.95,而度量學習方法為0.81,初始化為基礎的方法為0.83。
這些數據反映了一個關鍵洞見:在醫學影像少樣本學習中,方法選擇應根據具體任務和可用資源靈活決定。元學習雖然是主流方向,但并非在所有情況下都是最佳選擇。簡單而創新的非元學習方法有時能達到同樣甚至更好的效果,這為研究者提供了更多技術路線選擇。
臨床應用實景
在醫學影像領域,少樣本學習技術已經從實驗室走向臨床實踐,顯示出令人矚目的成果。從解剖結構分布來看,心臟、肺部和腦部是研究者最為關注的區域。這并非偶然,而是由這些器官在疾病診斷中的關鍵地位所決定。
![]()
心臟作為生命之源,其影像分析在心血管疾病診斷中扮演核心角色。統計數據顯示,在少樣本學習的分割研究中,心臟相關應用占比高達34%,遠超其他器官。左心室、右心室和心肌是最常被研究的心臟結構。2021年Wang等團隊開發的自監督學習框架在心臟分割任務中表現突出,僅使用4個標注樣本就在左心室分割中達到了93.7%的Dice系數,接近全監督學習的水平。這一成績意味著臨床醫生只需標注少量心臟磁共振圖像,就能得到準確的心臟結構分割結果,大大提高了診斷效率。
肺部是少樣本學習另一個重要應用場景,尤其在胸部X光和CT分析中。在分類研究中,肺部疾病檢測占比36%,位居首位。2020年新冠疫情爆發后,不少研究轉向肺部CT中新冠肺炎的檢測。Naren等人開發的基于MAML++的模型僅用5個樣本即可達到85.7%的新冠肺炎檢測準確率。同時,Huang團隊的一次性異常檢測框架在肺部COVID-19檢測中取得了95.5%的AUROC,展示了少樣本學習在突發公共衛生事件中的應用潛力。
腦部影像分析也是少樣本學習的重要戰場。腦腫瘤分割是神經外科手術規劃的關鍵步驟,傳統方法需要大量標注數據。Khaled等人提出的多階段生成對抗網絡在腦腫瘤分割中表現優異,即使只有5個標注樣本,也能達到94%的Dice系數。這一技術為神經外科醫生提供了寶貴工具,幫助他們在術前準確規劃手術路徑,減少對正常腦組織的損傷。
在性能評估方面,不同解剖結構和不同任務之間存在顯著差異。數據顯示,在分割任務中,股骨分割達到了最高的Dice系數(99%),但這一結果僅來自單個研究,可靠性有限。相比之下,心臟主動脈和左心室分割分別達到89%和88%的平均Dice系數,且這些結果來自多項研究,具有更高的可信度。值得注意的是,前列腺分割成績最差,平均Dice系數僅為42%,反映了前列腺MRI圖像中組織對比度低的挑戰。
在分類任務中,腦組織對比度分類達到了最高的準確率(99%),但這是一項相對簡單的任務。皮膚病變分類的平均準確率達到82%,展示了少樣本學習在皮膚科輔助診斷中的應用價值。相比之下,肝臟疾病分類的準確率僅為61%,說明在某些器官上,少樣本學習還面臨較大挑戰。
配準任務雖然研究較少,但在臨床實踐中同樣重要。基于少樣本學習的配準方法在心臟圖像上取得了87%的平均Dice系數,展示了其在多時相心臟影像分析中的應用前景。
不同方法在各任務上的表現也值得關注。在分割任務中,非元學習方法和基于幻化的方法取得了84%的平均Dice系數,優于基于度量學習的方法(79%)和基于初始化的方法(82%)。這一發現挑戰了元學習在少樣本學習中的主導地位,表明創新的非元學習方法在某些醫學應用中可能更有效。
在分類任務中,非元學習方法同樣表現出色,平均準確率達95%,遠高于基于度量學習的方法(81%)和基于初始化的方法(83%)。這一結果可能與非元學習方法更靈活、更能適應特定醫學任務特點有關。
![]()
在配準任務中,由于所有研究都使用非元學習方法,無法進行方法間的比較。但這些方法在肺部配準中取得了平均1.03mm的目標配準誤差,表明少樣本學習在醫學圖像配準中具有實用價值。
結合解剖結構和方法類型的分析發現,不同器官可能適合不同的少樣本學習方法。例如,在心臟分割中,基于初始化的方法表現最佳;而在肺部分類中,非元學習方法更有優勢。這提示臨床應用中應根據具體器官和任務選擇合適的方法,而非盲目追求所謂的"最先進"技術。
總的來說,少樣本學習已在多種醫學影像分析任務中展示出實用價值,但不同器官、不同任務間的性能差異提醒我們,這一技術仍處于發展階段,需要針對特定臨床需求進行優化和調整。
挑戰與前瞻
少樣本學習在醫學影像分析中展現出巨大潛力的同時,也面臨著一系列亟待解決的挑戰。了解這些挑戰并探索未來可能的發展方向,對于推動這一技術在臨床實踐中的應用至關重要。
當前研究中存在明顯的偏好與空白。從解剖結構來看,心臟、肺部和腹部器官獲得了大量關注,而前列腺、消化道器官和骨骼等區域的研究相對較少。這種不均衡部分源于公開數據集的可獲取性——CHAOS(腹部)、MS-CMRSeg(心臟)和NIH Chest X-ray(肺部)等大型數據集的存在,使相關研究更加便利。2022年的一項調查顯示,前列腺MRI的公開數據集僅有不到10個,而心臟MRI的公開數據集超過20個。這種數據集分布的不均衡導致某些臨床重要區域的少樣本學習研究滯后。
從方法學角度看,度量學習方法在分割和分類任務中得到了廣泛應用,而基于幻化的方法卻相對被忽視,僅占分割研究的6%,在分類研究中幾乎沒有應用。這一現象值得反思,因為雖然度量學習方法應用最廣,但其性能卻未必最佳。例如,在分割任務中,非元學習方法和基于幻化的方法達到了84%的平均Dice系數,優于基于度量學習的方法的79%。這提示研究者應更多關注被忽視的方法路線,特別是基于幻化的方法在醫學影像分析中的潛力。
模型評估與驗證中也存在顯著問題。研究數據表明,在分類和配準任務中,約有一半的研究缺乏適當的模型魯棒性評估。許多研究沒有進行消融實驗或交叉驗證,使結果的可靠性和可重復性受到質疑。更令人擔憂的是,部分研究在聲稱使用少樣本學習的同時,未能清晰說明如何解決少樣本挑戰,導致研究結果的偏差風險增加。
例如,2023年的一項評估發現,在聲稱使用少樣本學習的醫學圖像分割研究中,有17%未能提供明確的訓練數據量信息,11%雖然聲稱使用少樣本學習,但實際上使用了大量標注數據。這種不透明做法不僅影響研究的可信度,也阻礙了該領域的健康發展。
醫學數據的特殊性也帶來了獨特挑戰。醫學影像不僅在不同設備間存在域差異,同一疾病在不同患者間的表現也各異。這種高度異質性使得少樣本學習模型很難從有限樣本中捕捉疾病的完整特征。此外,醫學診斷往往需要同時考慮多種模態的信息,如何在少樣本設置下有效融合多模態數據,仍是一個開放問題。
![]()
針對這些挑戰,未來研究可能朝著幾個方向發展:
基于幻化的方法值得更多關注。這類方法直接解決數據稀缺問題,通過生成合成樣本增強訓練集。在醫學影像中,基于解剖先驗知識的生成模型可能比通用生成模型更有效。例如,將器官形狀先驗與生成對抗網絡相結合,可能產生更符合解剖學規律的合成樣本。已有研究表明,基于幻化的方法在心臟分割中表現優異,達到84%的平均Dice系數,與非元學習方法并列第一,這說明該方向具有廣闊前景。
擴展醫學應用范圍也是重要方向。前列腺、消化道器官和各類骨骼結構等相對被忽視的區域,都是少樣本學習可以發揮作用的領域。特別是罕見疾病的診斷,由于樣本本身就少,更適合少樣本學習技術。例如,罕見皮膚病的識別、罕見骨骼畸形的檢測等,都是值得探索的方向。
提高模型驗證和評估標準迫在眉睫。研究者應采用更嚴格的實驗設計,包括合理的消融實驗、交叉驗證和獨立測試集評估。同時,明確報告訓練數據量和實驗設置,對于確保研究可重復性至關重要。2023年有學者提出,應建立醫學少樣本學習的標準評估框架,包括統一的數據分割方式、評估指標和基準測試,以便不同方法間的公平比較。
多模態融合是另一個有前途的方向。在醫學診斷中,醫生通常會綜合考慮多種檢查結果。少樣本學習如何有效整合CT、MRI、病理學圖像等多種模態的信息,是未來研究的重點。最近的研究顯示,基于對比學習的多模態融合方法在少樣本設置下表現優異,為這一方向提供了新思路。
可解釋性也是不容忽視的方面。醫學診斷不同于一般圖像識別,醫生需要理解AI系統為什么做出特定判斷。在少樣本學習中,如何保證模型決策的可解釋性,是推動臨床應用的關鍵。注意力機制、類激活映射等技術可能為少樣本學習的可解釋性提供解決方案。
最后,將少樣本學習與主動學習相結合也很有前景。主動學習可以幫助模型選擇最有價值的樣本進行標注,進一步減輕醫生的標注負擔。一項關于肺結節檢測的研究表明,結合少樣本學習和主動學習的方法,只需標注5%的原始數據集,就能達到接近全監督學習的性能。
總之,少樣本學習在醫學影像分析中面臨諸多挑戰,但也蘊含著巨大機遇。通過關注被忽視的方法路線,擴展應用范圍,提高評估標準,以及與其他技術的融合,少樣本學習有望在未來醫學診斷中發揮更大作用,為精準醫療時代的到來做出貢獻。
參考資料:
Eva Pachetti, Sara Colantonio. A Systematic Review of Few-Shot Learning in Medical Imaging. Preprint submitted to Artificial Intelligence in Medicine, 2023.
Finn, C., Abbeel, P., &; Levine, S. Model-agnostic meta-learning for fast adaptation of deep networks. ICML, 2017.
Wang, Y., Yao, Q., Kwok, J. T., &; Ni, L. M. Generalizing from a few examples: A survey on few-shot learning. ACM Computing Surveys, 2020.
Ouyang, C., et al. Self-Supervised Adaptive Local Prototype Pooling Network. Medical Image Analysis, 2021.
Wang, J., et al. V-Net + Init-crop + Self-down + Self-crop. IEEE Transactions on Medical Imaging, 2021.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.