在人工智能視覺領域,語義分割一直是一項挑戰性任務,尤其是在開放世界場景中。傳統方法依賴大量人工標注數據,限制了其應用范圍。近期,一種名為"MixReorg"的創新方法悄然崛起,它通過跨模態混合補丁重組技術,突破了這一瓶頸。這種方法不需要像素級標注,只需圖像-文本對數據,就能實現高精度的開放世界語義分割。MixReorg通過巧妙構建細粒度的補丁-文本對應關系,并設計了上下文混合和混合恢復等創新策略,使模型能夠學習更精確的語義對齊能力。在多個基準測試中,它顯著超越了現有方法,為計算機視覺開辟了新的可能性。
![]()
分割的困境
當今計算機視覺技術蓬勃發展,語義分割作為其關鍵任務之一,應用場景廣泛。從虛擬現實、虛擬試衣到電影后期制作、自動駕駛,精準的圖像分割能力已成為眾多應用的基礎設施。想象一下,手機應用能識別出照片中的每一個物體,并能準確標記其邊界;或者自動駕駛系統能精確區分路面上的行人、車輛和交通標志。這就是語義分割技術的魅力所在。
傳統語義分割方法雖然取得了顯著成就,但它們存在一個根本性的局限:依賴大量像素級標注數據。這些標注數據需要專業人員一像素一像素地勾畫圖像中的每個物體邊界,工作量巨大且成本高昂。以一張普通分辨率的圖像為例,完整標注可能需要一名專業人員花費10-30分鐘,而訓練一個高性能模型通常需要數千甚至數萬張這樣的標注圖像。
更值得注意的是,這些方法通常在"封閉世界"設定下運行,即它們只能識別訓練集中已出現的類別。如果測試圖像中出現了訓練時未見過的物體類別,這些模型往往會出現嚴重的誤判。例如,一個在城市道路場景下訓練的分割模型,當遇到從未見過的農村場景或罕見物體時,就會感到"手足無措"。
在真實世界中,物體種類繁多且不斷變化,完全覆蓋所有可能遇到的類別幾乎不可能。這就是所謂的"開放世界"問題——模型需要面對訓練時未見過的物體類別,并能合理處理它們。
![]()
一些早期嘗試解決開放世界分割問題的方法包括少樣本學習和無監督聚類。少樣本學習雖然減輕了標注負擔,但仍假設訓練集和測試集中的類別屬于同一潛在特征空間,這在實際應用中往往不成立。無監督聚類方法則難以保證分割結果的語義一致性。
近年來,隨著視覺-語言模型(如CLIP)的興起,研究人員開始探索只使用文本監督的語義分割方法。其中,GroupViT通過視覺-語言對比學習實現了圖像補丁的自動分組,取得了當時最先進的開放世界分割性能。ViL-Seg則通過引入視覺嵌入的在線聚類來實現圖像分割。這些方法利用大量圖像-文本對數據為開放世界場景提供了豐富的視覺和文本語義。
然而,盡管這些方法在一定程度上實現了不同模態的局部信息對齊,但它們仍然是一種基于計算的隱式匹配策略。它們通過計算補丁-文本或詞元級別的相似性矩陣來學習細粒度匹配,這種方式效率不高且精度有限。如何從圖像-文本對數據中學習更加細粒度的語義對齊,成為基于文本監督的開放世界分割任務的關鍵挑戰。
在實際測試中,這些基于文本監督的方法經常在復雜場景下表現不佳。例如,當圖像中包含多個物體或物體邊界模糊時,它們往往難以給出準確的分割結果。這主要是因為它們缺乏像素級的精細監督信號,無法充分捕捉物體的空間結構和邊界信息。
重組的革新
針對上述挑戰,MixReorg提出了一種全新且簡單的預訓練范式,旨在增強模型的補丁重組能力。這種方法的核心創新在于,它能夠從圖像-文本對數據中構建細粒度的補丁-文本對應關系,而且不需要額外的標注成本。
MixReorg的靈感來源于混合圖像建模相關工作,如拼圖游戲和混合圖像重建。但與之前的方法不同,MixReorg的混合補丁重組是一個專為語義分割設計的跨模態掩碼學習器。它通過混合不同圖像的補丁生成混合圖像,同時保留補丁與文本之間的對應關系。
具體來說,MixReorg將不同圖像的補丁隨機混合在一起,形成一系列帶有已知分割掩碼的混合圖像。根據原始圖像-文本對,混合圖像的補丁-文本對應關系也被保留下來,混合圖像的掩碼則用作混合圖像的語義分割標簽。這樣,我們就從圖像-文本對數據中獲得了補丁-文本對數據,無需任何額外標注。
這種方法看似簡單,卻面臨兩個主要挑戰:首先,混合圖像分割容易受到低級特征的干擾,使模型無法通過高級語義實現混合圖像的補丁重組;其次,混合圖像中的每個補丁容易受到來自不同圖像的不相關補丁的干擾,這可能導致圖像語義難以與相應文本匹配。
為解決第一個挑戰,MixReorg提出了上下文混合和漸進式混合兩種策略。上下文混合策略在混合操作前添加一個Transformer層,使混合圖像中的每個補丁能夠預先獲取其原始圖像的全局語義,從而強制模型從高級語義中學習混合圖像重組。這樣做避免了低級特征對模型語義學習的干擾,使分割更加精準。
漸進式混合策略則通過使用原始圖像特征增強混合圖像特征中的全局語義信息。具體做法是,在Transformer的多層處理過程中,不斷將原始圖像的特征信息融入到混合圖像的特征中,這樣可以有效防止混合操作導致的語義信息丟失。
![]()
為應對第二個挑戰,MixReorg設計了混合恢復策略。它通過混合圖像恢復與文本之間的對比學習,保證混合圖像中每個補丁標記與文本的語義關聯。這種方式能有效抑制混合圖像中來自不同圖像的補丁之間的相互干擾。
與現有方法相比,MixReorg的創新之處在于它提供了一種真正的數據級別的細粒度監督信號,而不僅僅是計算上的偽局部信息對應。這種方法直接從數據入手,通過巧妙的混合和重組操作,創造出比原始圖像-文本對更加細粒度的監督信息。
在實踐中,MixReorg通過一系列精心設計的損失函數來指導模型學習。混合分割損失促使模型學習準確分割混合圖像中各個補丁的能力;恢復對比損失則確保模型能夠將混合圖像中的補丁與其對應的文本正確對齊。這兩種損失協同工作,使模型同時具備精確分割和語義對齊的能力。
MixReorg的另一個實用優勢是,在測試階段,它只需執行原始圖像分支,不會增加任何額外的測試時間。這使得它在實際應用中具有很高的效率。這種高效的架構設計使MixReorg不僅在性能上超越現有方法,而且在實用性上也有明顯優勢。
實驗結果表明,通過這種創新的跨模態混合補丁重組方法,MixReorg成功建立了一個強大的開放世界分割模型,在多個基準測試中顯著超越了現有的零樣本分割基線。它在PASCAL VOC2012、PASCAL Context、MS COCO和ADE20K等標準數據集上分別提高了5.0%、6.2%、2.5%和3.4%的平均交并比(mIoU),這些提升對于計算機視覺領域來說是相當顯著的。
技術深入解析
MixReorg的技術實現看似復雜,實際上思路清晰且巧妙。這個系統的核心是一個三階段圖像編碼器,它能夠處理混合圖像并生成精確的分割結果。
這個編碼器的第一階段是上下文混合。在這個階段,系統將不同圖像的補丁隨機混合在一起,生成帶有已知分割掩碼的混合圖像。與其他混合方法不同的是,MixReorg在混合前添加了一個transformer層,讓每個補丁能先獲取到原始圖像的全局語義信息。這就好比給每個拼圖塊先打上了原始圖畫的標記,使它們即使被打亂,也能記住自己來自哪里。
具體來說,對于一批圖像-文本對,系統先把每張圖像分割成不重疊的補丁,并將它們投影到潛在空間。然后,它隨機混合來自M張不同圖像的補丁,構造M張混合圖像。這個過程會保留每個補丁與其原始圖像文本之間的對應關系,從而形成一個帶有補丁-文本對應關系的語義分割數據集。
第二階段是漸進式混合。在這個階段,普通圖像和混合圖像的補丁標記分別與一組可學習的分組標記連接,并獨立輸入到多層transformer中。同時,系統使用原始圖像的特征來增強混合圖像特征中的上下文信息。這就像是在拼圖過程中,不時參考原圖來確保方向正確。
第三階段是混合恢復。在這個階段,系統會根據混合前圖像的補丁位置恢復混合圖像。原始特征、混合特征和恢復特征通過兩階段分組塊進行分割,生成相應的分段標記。這些分段標記經過多層transformer處理后,通過MLP投影到與文本嵌入相同的維度。
![]()
計算損失時,MixReorg使用兩種主要損失函數:混合分割損失和恢復對比損失。混合分割損失通過計算混合圖像的預測掩碼與真實掩碼之間的交叉熵來優化模型。恢復對比損失則通過恢復特征與文本嵌入之間的對比學習來增強跨模態語義對齊能力。
值得注意的是,MixReorg在測試時只需執行原始圖像分支,不會增加任何額外的測試時間。這使它在實際應用中既高效又實用。
從技術角度看,MixReorg的創新在于它成功地將補丁混合與跨模態學習結合起來,創造了一種新的掩碼學習方法。這種方法不需要像素級標注,只需圖像-文本對數據,就能實現高精度的開放世界語義分割。
出眾的表現
經過嚴格測試,MixReorg在多個基準數據集上展現出卓越的性能,證明了其作為開放世界分割模型的強大能力。
在PASCAL VOC2012數據集上,MixReorg的單尺度評估達到了47.9%的平均交并比(mIoU),多尺度評估更是達到了50.5%,比基線方法GroupViT分別提高了6.8%和5.0%。這個提升在計算機視覺領域是相當顯著的。要知道,PASCAL VOC數據集包含20個前景類別,是評估分割模型的標準數據集之一。
在PASCAL Context數據集上,MixReorg的表現同樣令人印象深刻。它在單尺度評估中達到23.9%的mIoU,多尺度評估中達到25.4%,比GroupViT分別提高了5.7%和6.2%。考慮到PASCAL Context包含59個類別,涵蓋更廣泛的物體類型,這一提升更加值得稱贊。
在MS COCO數據集上,MixReorg的單尺度評估為21.3%,多尺度評估為23.6%,比GroupViT分別提高了2.9%和2.5%。COCO是一個更具挑戰性的數據集,包含80個類別和更復雜的場景,MixReorg仍然能夠取得顯著改進。
即使在最具挑戰性的ADE20K數據集上,MixReorg也表現出色。它的單尺度評估為8.7%,多尺度評估為10.1%,比GroupViT分別提高了2.9%和3.4%。ADE20K包含150個類別,場景多樣且復雜,能在這樣的數據集上取得提升,充分證明了MixReorg方法的強大泛化能力。
除了與GroupViT的比較外,MixReorg還超越了許多其他先進方法。例如,在PASCAL VOC上,它優于使用額外自監督信息的SLIP(12.3%)和CLIP-MAE(16.8%),以及使用更多訓練數據的MaskCLIP(21.7%)。這種全面的優勢表明,MixReorg的跨模態混合補丁重組方法能夠更有效地學習細粒度語義對齊。
除了語義分割外,MixReorg在圖像分類任務上也表現出色。在ImageNet零樣本分類測試中,MixReorg的top-1準確率為38.8%,top-5準確率為66.7%,顯著優于GroupViT的37.5%和65.5%。這表明MixReorg通過細粒度掩碼學習實現了更好的圖像-文本對齊。
![]()
為了深入了解MixReorg各組件的貢獻,研究團隊進行了全面的消融研究。實驗表明,上下文混合(CM)策略是至關重要的。僅添加一個transformer層(即GroupViT+)并不能提高性能,但加入CM后,性能顯著提升(19.3% vs 18.2%)。這證明了在模型早期獲取全局語義信息的重要性。
另外,實驗還探索了混合用于上下文混合操作的圖像數量M的影響。結果顯示,M=16是最佳選擇。隨著M的增加,混合圖像包含更多語義類別,有助于模型學習語義分組(20.5% vs 17.1%)。但M超過某個閾值(如M=32)后,由于分辨率限制,混合圖像中的語義表示不足,反而會干擾模型學習(20.5% vs 18.2%)。
![]()
漸進式混合模塊的數量P也是一個重要參數。當P=0時,即不使用原始圖像增強混合圖像,模型性能較差。隨著P的增加,混合圖像特征的語義變得更清晰,更有利于模型學習區分不同語義。實驗表明,P=6時模型性能最佳,比P=0提高約7%的mIoU。
直觀地看,MixReorg生成的分割結果在視覺上也明顯優于GroupViT。在處理包含多個類別的復雜圖像時,MixReorg能夠更準確地分割不同物體。同時,對于"stuff"類別(如天空、草地等),MixReorg的分割質量也明顯優于GroupViT。這表明MixReorg具有更強的高級語義理解和分割能力。
研究團隊還可視化了從混合圖像重組的結果,發現MixReorg能夠正確地將大多數圖像補丁分割到其對應的原始語義中。混合圖像預測的混淆矩陣表明,MixReorg能夠有效地將補丁與文本對齊。
總的來說,MixReorg通過創新的跨模態混合補丁重組方法,成功地從圖像-文本對數據中構建了細粒度的補丁-文本數據,并設計了有效的掩碼學習策略,實現了開放世界語義分割的顯著性能提升。這種方法不僅在多個基準測試中表現優異,而且在實際應用中具有高效性和實用性。
參考資料
Cai, K., Ren, P., Zhu, Y., Xu, H., Liu, J., Li, C., Wang, G., &; Liang, X. (2023). MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner for Open-World Semantic Segmentation.
GroupViT: Zhou, D., Kang, B., Jin, X., Yang, L., Lian, X., Hou, Q., &; Feng, J. (2022). Semantic segmentation with text supervision.
CLIP: Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., … &; Sutskever, I. (2021). Learning transferable visual models from natural language supervision.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.