網易首頁 > 網易號 > 正文申請入駐

國產多模態Agent拿下醫學分割SOTA！不用改模型、不加token

2026-04-22 15:15:02　來源: 量子位

北京舉報

分享至

這個生物醫學視覺推理框架，被CVPR 2026接收了！

人類專家在標注醫學圖像時，從不是“看一眼就畫出來”。

他們會先掃視全圖、鎖定可疑區域，隨后在分割工具上反復點擊正負樣本，根據每一步生成的mask形態重新判斷，不斷調整策略——

這是一個多輪交互、邊看邊想、邊想邊做的迭代推理過程。

然而，現有的醫學多模態大模型普遍采用“單次前向推理”范式：

輸入圖像，輸出mask，一步到位。

這種方式面對生物醫學圖像中細微的病灶邊界、復雜的解剖結構、模糊的視覺語義時往往力不從心。

更深層的問題在于，為了賦予MLLM分割能力，現有方法普遍引入隱式分割token（如

）并與外部pixel decoder聯合微調——

這一設計破壞了大模型原有的文本輸出空間，導致語言推理能力退化，泛化能力大打折扣。

上述范式存在四個核心瓶頸：

單次推理無法自我糾錯：一旦第一步定位出現偏差，錯誤持續累積，最終影響分割質量。
隱式token破壞推理能力
等token侵占文本空間，導致災難性遺忘，細粒度視覺推理被嚴重壓制。
缺乏自主決策機制：模型只能被動執行單次指令，無法像人類專家一樣主動觀察、反思、調整。
訓練數據瓶頸：現有數據集只有最終mask，缺乏逐步交互的推理軌跡，難以直接監督多步行為。

鑒于上述問題，浙江大學蔡鈺祥教授、上海人工智能實驗室研究員江彥開等人聯合提出了IBISAgent——

一個將分割重新定義為多步視覺決策過程的Agentic MLLM框架。

具體方法

概括而言，IBISAgent的主要創新點如下：

將分割任務建模為多步馬爾可夫決策過程（MDP），以交錯的文本推理與點擊動作替代隱式token，保留MLLM完整的語言推理能力，同時實現自主多輪迭代精化。
提出兩階段訓練框架。首先通過冷啟動SFT在自動生成的推理軌跡上建立像素級推理先驗；隨后引入Agentic強化學習，以細粒度獎勵信號驅動模型自主探索更優決策策略，超越對軌跡的簡單模仿。
構建包含456K條高質量推理軌跡的冷啟動數據集，覆蓋正常標注與自我反思糾錯兩類軌跡，為多步視覺推理提供系統化的訓練基礎。

具體方法為，IBISAgent將整個分割過程建模為一條多步推理軌跡，每一步由三個核心元素構成閉環：

推理（Textual Thinking）：模型對當前分割圖像的狀態進行推理分析，如“當前mask偏左，需要在右側腫瘤邊緣補充正向點擊”。
行動（Action）：模型輸出結構化的空間點擊指令，包含三個要素：分割目標類別（Target）、點擊屬性（正/負，Attribute）、歸一化圖像坐標（Coordinate_2d）。模型可在一步中同時輸出多個點擊。
觀測（Observation）：點擊被傳入交互式分割工具MedSAM2，生成更新后的mask，并疊加到原圖上作為下一步的視覺輸入反饋給模型。

這一設計的關鍵在于：

模型每一步都能“看到”自己上一步分割的結果，形成視覺感知與語言推理的閉環。

整個過程不引入任何新的模型組件或隱式token，分割能力完全從MLLM內在的視覺推理中涌現，并天然支持從頭分割與mask精化兩類任務。

與此同時，IBISAgemt采用兩階段訓練方案：

第一階段：冷啟動SFT。

現有生物醫學分割數據集只有最終mask，沒有逐步點擊軌跡。

研究團隊利用BiomedParseData（340萬圖像-mask對， 9種成像模態）開發了自動軌跡生成算法：

通過規則化的點擊模擬策略自動推導點擊序列，再用Gemini- 2.5-Pro為每步生成對應的自然語言推理。

為增強魯棒性，額外合成兩類自我反思軌跡：

（1）錯誤自糾正——檢測到錯誤動作后回溯并重新推理；

（2）指令不一致糾正——遇到與初始mask不符的指令時主動丟棄并重新分割。最終構建出包含456K樣本的高質量冷啟動數據集。

第二階段：Agentic強化學習。

SFT之后模型仍在模仿已有軌跡，研究團隊進一步引入RL，設計細粒度獎勵框架在每個交互步驟提供密集反饋：

其中區域點擊獎勵與漸進式分割改進獎勵是核心創新——

前者引導模型將每次點擊落在語義有效的區域，后者強制每步行動必須帶來實質性的分割改善，從而徹底杜絕冗余操作與來回震蕩。

RL訓練使用GRPO算法，在888KVQA樣本上進行優化。

實驗結果

實驗結果顯示，IBISAgemt在域內測試集、域外泛化集（MeCOVQA-G+，涵蓋5種成像模態）和自建私有數據集（1K CT/MRI/病理， 7類癌癥）三個benchmark上，均大幅領先所有對比方法。

相比醫學專用MLLM基線，平均IoU提升35.13%， DSC提升37.58%， F1提升29.79%。

值得注意的是， Citrus-V和UniBiomed均在比本方法更大規模的數據集上訓練， IBISAgent仍能一致超越，說明性能提升來自方法設計本身，而非數據優勢。

與工具增強Agent的對比實驗

相比同樣調用MedSAM2的工具增強型Agent（GPT-4o 、LLaVA-Med 、HuatuoGPT-Vision等）， IBISAgent在域外集和私有數據集上仍保持顯著領先，充分說明多輪交互式推理帶來的增益遠超簡單的工具調用。

兩階段訓練消融實驗

消融實驗證明，冷啟動SFT、自我反思軌跡和RL三個方案缺一不可，逐級疊加均帶來明顯收益。

RL階段提供最大的性能躍升，說明強化學習的探索-利用機制對激發真正自主的像素級推理至關重要。

細粒度獎勵設計消融實驗

對于RL階段的獎勵設計，研究團隊同樣進行了逐項驗證。

以僅使用格式獎勵與答案獎勵為基線，在域外集MeCOVQA-G+上的IoU僅為73.77；

逐步引入區域點擊獎勵后， IoU提升至76.60， mask定位準確性顯著改善；

加入漸進式分割改進獎勵后進一步躍升至80.61，同時平均交互步數從11.29步壓縮至8.12步，模型學會了更高效的分割路徑；

最終疊加軌跡長度獎勵后，交互效率繼續提升，步數降至4.26步，同時分割質量維持在最高水平。

這一結果表明，細粒度的逐步反饋信號是驅動模型在質量與效率之間取得最優平衡的關鍵，單純依賴最終結果獎勵無法達到同等效果。

小結一下

這項研究將生物醫學圖像分割從“單次推理輸出”推進到“自主多輪交互決策”。

針對現有方法依賴隱式token導致的推理能力退化問題， IBISAgent以交錯的文本推理與點擊動作完全替代

token，保留了MLLM完整的語言能力，并通過多步MDP建模實現真正的自主迭代精化。

進一步地，冷啟動SFT結合自動軌跡生成建立穩健的推理先驗，Agentic強化學習與細粒度獎勵驅動模型超越模仿、探索最優決策策略，最終實現了細粒度的視覺推理。

廣泛的實驗驗證了IBISAgent在多模態、多疾病場景下的一致性優勢，為未來面向真實臨床的智能醫學圖像分析系統奠定了重要基礎。

論文鏈接：
https://arxiv.org/abs/2601.03054
代碼鏈接：
https://github.com/Yankai96/IBISAgent

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.