文章來源:我愛計算機視覺(ID:aicvml)
最近,多模態大模型在圖像編輯領域的能力真是讓人眼前一亮,但在嚴肅的醫療領域,這陣風卻刮得有些小心翼翼。原因無他,主要是因為缺少一個大規模、高質量、而且專門為醫學圖像編輯量身打造的公開數據集。今天,就和大家聊一篇來自新加坡國立大學的新工作,他們推出了一個名為Med-Banana-50K的數據集,希望能為這個領域添一把火。
![]()
論文標題 : Med-Banana-50K: A Cross-modality Large-Scale Dataset for Text-guided Medical Image Editing
作者 : Zhihui Chen, Mengling Feng
機構 : 新加坡國立大學
論文地址 : https://arxiv.org/abs/2511.00801
項目主頁 : https://github.com/richardChenzhihui/med-banana-50k
簡單來說,Med-Banana-50K 是一個專門用于指導模型進行醫學圖像編輯的大型數據集。它的名字聽起來可能有點可愛,但內容卻非常硬核。
數據集構成
這個數據集的規模和多樣性都相當可觀:
規模 : 包含約 5萬張 圖像。
多樣性 : 覆蓋了 3種關鍵的醫學影像模態 (胸部X光、腦部MRI、眼底攝影)和 23種不同的疾病類型 。
任務 : 編輯任務是雙向的,包括“添加病變”和“移除病變”。
上表清晰地展示了數據集在不同模態和任務上的分布情況,以及生成這些數據時的成功率。可以看到,研究者們為了構建這個數據集付出了巨大的努力。
創新的數據構建流程
那么,如此高質量的數據集是如何誕生的呢?研究者設計了一套相當精巧的流程。
![]()
整個流程可以分為四步:
指令生成 : 首先,為真實的醫學圖像生成編輯指令,比如“在左肺上葉區域添加一個結節”。
單步編輯 : 利用強大的 Gemini-2.5-Flash-Image 模型,根據指令對圖像進行初步編輯。
LLM-as-Judge評估 : 這是最關鍵的一步。研究者讓另一個大語言模型扮演“法官”的角色,從多個維度對編輯結果進行嚴格評估。
歷史感知迭代精煉 : 如果“法官”認為編輯結果不合格,系統會記錄下失敗的原因,并在下一輪編輯中進行修正。這個過程最多可以迭代五輪,直到生成滿意的結果。
在醫學領域,圖像的準確性至關重要。CV君認為,這項工作最值得稱道的地方,就是其系統性的醫學質量控制方法。
LLM-as-Judge:AI醫生來把關
“法官”模型會根據一個專門設計的、具有醫學背景的評分標準來打分,主要包括四個維度:
指令符合性 (Instruction Compliance) : 編輯是否嚴格遵循了文本指令?
結構合理性 (Structural Plausibility) : 編輯后的解剖結構是否還合理?有沒有出現反常識的錯誤?
真實感 (Realism) : 編輯出的病變或修復后的區域看起來真實嗎?
保真性 (Fidelity Preservation) : 除了編輯區域,圖像的其他部分是否保持了原樣?
從上表的評估通過率可以看出,這個標準相當嚴苛。例如,在“結構合理性”上,有接近10%的編輯嘗試會失敗,常見的失敗原因包括病變位置錯誤、形狀不規則等。正是這種嚴苛的篩選,保證了最終數據集的高質量。
數據集亮點與價值 不僅僅是成功案例
除了成功的編輯案例,該數據集還有一個非常獨特的亮點:它包含了多達 3.7萬次失敗的嘗試 以及完整的對話日志。這些“反面教材”對于研究模型的偏好學習(Preference Learning)和對齊(Alignment)至關重要,能幫助我們更好地理解和控制模型的行為,避免它們在關鍵的醫療任務上“自由發揮”。
豐富的編輯實例
下面是一些數據集中跨模態和任務的代表性編輯結果,可以直觀地感受到這個數據集的質量和多樣性。
![]()
總的來說,Med-Banana-50K不僅僅是一個數據集,它更為下一代醫學圖像編輯模型的訓練和評估建立了一個堅實的基礎。作者已經將數據集和代碼完全公開,鼓勵大家去探索和使用。
數據鏈接:https://github.com/richardChenzhihui/med-banana-50k
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.