在醫(yī)學圖像分析領域中, 分割是一個重要的任務, 它涉及從醫(yī)學圖像中識別和勾勒出不同的結構或病變區(qū)域, 分割結果不僅有助于醫(yī)生進行精準診斷, 也將為后續(xù)的臨床決策和治療方案制定提供重要參考. 為了提高分割金標準的可靠性, 通常會收集多位專家的標注意見(圖1[1]). 由于不同專家的標注可能存在差異, 帶來了所謂的“多標注者問題”[2,3]. 就像幾個人看同一幅畫, 對同一物體的邊界描繪出不同的輪廓. 尤其是在邊界模糊或病變復雜的區(qū)域, 這個問題尤其嚴重. 如何在“眾說紛紜”的標注中, 有效整合多個標注者的意見, 提煉出最可靠的結果? 這是傳統(tǒng)深度學習模型難以解決的難題.
![]()
圖1 多標注者問題[1]. 眼底彩照中視杯的多標注者注釋示例, 可以觀察到注釋之間的內部偏差較大
之前的研究者主要從兩個方面來解決“多標注者問題”. 第一種方法是學習校準分割結果以反映不同觀察者之間的標注差異, 使模型能夠學習多個專家標注之間的潛在一致性或分歧[4~6]. 但這個方法需要正確的不同觀察者的標注可信度信息. 第二種方法是從多標注者標簽中識別潛在的正確真實標注, 評估每個標注者的置信度并通過加權平均來融合標簽[7,8]. 這個方法的局限在于學習融合標簽時沒有進行校準, 可能會產生過度自信[8,9]或模糊的結果[10,11].
本研究團隊提出了一種新的multi-rater prism框架[1](下文簡稱“MrPrism”)來解決“多標注者問題”. 它將“校準分割”和“評估專家可信度”這兩個任務結合起來, 通過反復迭代, 讓兩者相互促進, 最終找到一個既精確又反映專家共識的結果. 這個框架通過迭代優(yōu)化的方式, 結合了多標注者置信度的分配和校準分割任務, 最終生成一個反映觀察者間一致性的自我校準分割結果.
在整體流程上, MrPrism首先通過卷積神經網絡提取醫(yī)學圖像的深層特征表示, 并構建統(tǒng)一的特征嵌入空間. 在此基礎上, 引入多標注者的標簽信息作為動態(tài)變量, 通過一個雙棱鏡結構實現(xiàn)分割校準與專家可信度建模的協(xié)同優(yōu)化. 該過程以預測的分割掩膜為中介變量, 逐步逼近同時滿足圖像語義一致性與多標注者共識的最優(yōu)解. 框架借助遞推機制不斷循環(huán)更新, 最終實現(xiàn)分割結果與置信度分布的聯(lián)合收斂.
如圖2所示, MrPrism的核心在于兩個相互配合的模塊: 聚合棱鏡(converging prism, ConP)和發(fā)散棱鏡(diverging prism, 簡稱DivP). 這兩個模塊相互配合、相互作用優(yōu)化分割結果.
![]()
圖2 Multi-rater Prism框架[1]
首先, DivP模塊分析ConP提供的初步分割結果, 運用先進的多頭注意力機制評估每位專家標注的可信度, 并動態(tài)生成權重; 然后, ConP模塊將基于這些權重, 通過注意力機制對醫(yī)學圖像特征進行選擇性整合, 輸出更準確的分割結果. 這種循環(huán)優(yōu)化過程類似于專家會診中的反復討論, 經過幾輪迭代后, 系統(tǒng)能夠自動平衡不同專家的意見, 最終生成既符合圖像解剖結構特征, 又能反映專家共識的精準分割.
這種反復迭代的設計靈感來源于數學中的“半二次優(yōu)化”理論[12]. 研究團隊通過視覺變換器(vision transformer)技術[13]實現(xiàn)了這兩個模塊. ConP用注意力機制整合圖像特征和可信度信息, DivP則通過多頭注意力機制分別評估每位專家的標注. 實驗證明, 這種“雙棱鏡”策略能在多次迭代中逐步提高精度, 尤其是在專家意見分歧較大的任務中表現(xiàn)尤為出色.
為了驗證MrPrism的效果, 團隊在多種醫(yī)學影像分割任務上進行了測試, 包括眼底圖像的視盤/視杯分割(REFUGE[14]和RIGA[15]數據集)、腦腫瘤分割(QU-BraTS 2020[16]和QUBIQ-BrainTumor[17]數據集)、前列腺分割(QUBIQ-prostate[17]數據集)、腦發(fā)育分割(QUBIQ-BrainGrowth[17]數據集)和腎臟分割(QUBIQ-kidney[17]數據集). 這些數據集涵蓋不同器官和疾病, 涉及標注者間差異程度不同的多種場景, 為評估MrPrism在復雜標注環(huán)境下的適應性和穩(wěn)定性提供了充分依據.
實驗中各個方法在上述任務的分割結果如圖3所示, 圖中對比方法包括AggNet[10]、CL[8]、CM[9]、MaxMig[11]、MRNet[3]、WDNet[5]. 從圖中可以看出, MrPrism的表現(xiàn)出色, 即MrPrism在所有任務中都超過了當前最先進的方法. 以視杯分割為例, 當專家意見分歧較大時, 傳統(tǒng)方法可能只能達到85%左右的準確率(以Dice系數衡量), 而MrPrism通過三次迭代后, 能將準確率提升到88%以上. 類似地, 在腦腫瘤分割中, 它也顯著優(yōu)于其他策略, 尤其是在邊界模糊的區(qū)域, 能更準確地勾勒出腫瘤輪廓. 更重要的是, MrPrism展現(xiàn)了“自我校準”的能力. 實驗顯示, 隨著迭代次數增加, 分割結果逐漸穩(wěn)定, 反映出它能動態(tài)適應不同任務的特點. 當專家意見分歧較小時, 它能平衡各方意見; 當少數專家明顯更準確時, 它能識別并優(yōu)先采納這些意見. 這種靈活性讓它在實際應用中更具潛力.
![]()
圖3 MrPrism及AggNet[10]、CL[8]、CM[9]、MaxMig[11]、MRNet[3]、WDNet[5]各對比方法的分割效果對比示意圖. GT為分割金標準. (a) 眼底彩照分割視杯視盤任務; (b) 腦發(fā)育數據集MRI分割腦實質任務; (c) 腦MRI數據集中腦腫瘤分割任務; (d) CT圖像中左側腎臟分割任務; (e) 前列腺MRI數據中前列腺腺體分割任務
MrPrism框架的提出為醫(yī)學影像分割提供了一種新思路. 它摒棄了傳統(tǒng)方法對單一“標準答案”的追求, 轉而通過建模專家間的分歧來獲得更可靠的共識; 另外, 在此框架中, 系統(tǒng)能自動評估各專家標注的可信度, 避免了人工指定權重的繁瑣; 最重要的是, MrPrism將圖像結構信息融入學習過程(通過注意力機制), 使分割結果更符合解剖學特征. 無論是篩查青光眼, 還是分割腦腫瘤, MrPrism框架都能幫助計算機更聰明地“讀懂”醫(yī)學影像. 對于患者和醫(yī)生來說, 這意味著更可靠的輔助診斷工具. 相關研究成果發(fā)表在Science Bulletin[1], 本工作代碼已在https://github.com/WuJunde/MrPrism開源, 歡迎相關從業(yè)人員關注與使用.
本團隊未來將進一步拓展該框架的應用范圍, 探索其在更多醫(yī)學圖像模態(tài)(如舌象圖片、病理切片和動態(tài)超聲序列)中的適應性, 并推動與臨床決策系統(tǒng)的深度整合, 以支持端到端的診療流程優(yōu)化. 同時, 團隊也計劃針對醫(yī)療資源不足的場景進行模型輕量化設計, 讓這項技術能夠惠及更廣泛的醫(yī)療機構. 從“眾說紛紜”到“精確標注”, MrPrism用AI的“雙棱鏡”照亮了醫(yī)學圖像臨床價值的新方向.
參考文獻
[1] Wu J, Fang H, Zhu J, et al. Multi-rater Prism: learning self-calibrated medical image segmentation from multiple raters. Chin Sci Bull , 2025 , 69: 2906 -2919
[2] Warrens M J. Inequalities between multi-rater kappas. Adv Data Anal Classif , 2010 , 4: 271 -286
[3] Ji W, Yu S, Wu J, et al. Learning calibrated medical image segmentation via multi-rater agreement modeling. In: Proceedings of the 34th IEEE Conference on Computer Vision and Pattern Recognition, 2021. Vancouver, 2021. 12341–12351.
[4] Wu J, Fang H, Yang D. et al. Opinions vary? Diagnosis first! In: Proceedings of the 25th International Conference on Medical Image Computing and Computer-Assisted Intervention, 2022. Singapore, 2022. 604–613.
[5] Guan M Y, Gulshan V, Dai A M, et al. Who said what: modeling individual labelers improves classification. In: Proceedings of the 32nd AAAI Conference on Artificial Intelligence, 2018. New Orleans, 2018. 2668–3603.
[6] Chou H C, Lee C C. Every rating matters: joint learning of subjective labels and individual annotators for speech emotion classification. In: Proceedings of the 44th IEEE International Conference on Acoustics, Speech and Signal Processing, 2019. Brighton, 2019. 5886–5890.
[7] Warfield S K, Zou K H, Wells W M. Simultaneous truth and performance level estimation (STAPLE): an algorithm for the validation of image segmentation. IEEE Trans Med Imag , 2004 , 23: 903 -921
[8] Rodrigues F, Pereira F. Deep learning from crowds. In: Proceedings of the 32nd AAAI Conference on Artificial Intelligence, 2018. New Orleans, 2018. 1611–1618.
[9] Tanno R, Saeedi A, Sankaranarayanan S, et al. Learning from noisy labels by regularized estimation of annotator confusion. In: Proceedings of the 32nd IEEE conference on Computer Vision and Pattern Recognition, 2019. Long Beach, 2019. 11244–11253.
[10] Albarqouni S, Baur C, Achilles F, et al. AggNet: deep learning from crowds for mitosis detection in breast cancer histology images. IEEE Trans Med Imag , 2016 , 35: 1313 -1321
[11] Cao P, Xu Y, Kong Y, et al. MaxMig: an information theoretic approach for joint learning from crowds. In: Proceedings of the 7th International Conference on Learning Representations, 2019. New Orleans, 2019.
[12] Geman D, Reynolds G. Constrained restoration and the recovery of discontinuities. IEEE Trans Pattern Anal Machine Intell , 1992 , 14: 367 -383
[13] Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16×16 words: transformers for image recognition at scale. In: Proceedings of the 9th International Conference on Learning Representations, 2021. Vienna, 2021.
[14] Orlando J I, Fu H, Barbosa Breda J, et al. REFUGE Challenge: a unified framework for evaluating automated methods for glaucoma assessment from fundus photographs. Med Image Anal , 2020 , 59: 101570
[15] Almazroa A, Alodhayb S, Osman E, et al. Agreement among ophthalmologists in marking the optic disc and optic cup in fundus images. Int Ophthalmol , 2017 , 37: 701 -717
[16] Mehta R, Filos A, Baid U, et al. QU-BraTS: MICCAI BraTS 2020 challenge on quantifying uncertainty in brain tumor segmentation – analysis of ranking scores and benchmarking results. Melba , 2022 , 1: 1 -54
[17] Li H B, Navarro F, Ezhov I, et al. QUBIQ: uncertainty quantification for biomedical image segmentation challenge. 2024, arXiv: 2405.18435.
轉載、投稿請留言
| 關注科學通報 | 了解科學前沿
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.