<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      混重組:跨模態混合補丁重組是開放世界語義分割的優秀掩碼學習器

      0
      分享至

      在人工智能視覺領域,語義分割一直是一項挑戰性任務,尤其是在開放世界場景中。傳統方法依賴大量人工標注數據,限制了其應用范圍。近期,一種名為"MixReorg"的創新方法悄然崛起,它通過跨模態混合補丁重組技術,突破了這一瓶頸。這種方法不需要像素級標注,只需圖像-文本對數據,就能實現高精度的開放世界語義分割。MixReorg通過巧妙構建細粒度的補丁-文本對應關系,并設計了上下文混合和混合恢復等創新策略,使模型能夠學習更精確的語義對齊能力。在多個基準測試中,它顯著超越了現有方法,為計算機視覺開辟了新的可能性。


      分割的困境

      當今計算機視覺技術蓬勃發展,語義分割作為其關鍵任務之一,應用場景廣泛。從虛擬現實、虛擬試衣到電影后期制作、自動駕駛,精準的圖像分割能力已成為眾多應用的基礎設施。想象一下,手機應用能識別出照片中的每一個物體,并能準確標記其邊界;或者自動駕駛系統能精確區分路面上的行人、車輛和交通標志。這就是語義分割技術的魅力所在。

      傳統語義分割方法雖然取得了顯著成就,但它們存在一個根本性的局限:依賴大量像素級標注數據。這些標注數據需要專業人員一像素一像素地勾畫圖像中的每個物體邊界,工作量巨大且成本高昂。以一張普通分辨率的圖像為例,完整標注可能需要一名專業人員花費10-30分鐘,而訓練一個高性能模型通常需要數千甚至數萬張這樣的標注圖像。

      更值得注意的是,這些方法通常在"封閉世界"設定下運行,即它們只能識別訓練集中已出現的類別。如果測試圖像中出現了訓練時未見過的物體類別,這些模型往往會出現嚴重的誤判。例如,一個在城市道路場景下訓練的分割模型,當遇到從未見過的農村場景或罕見物體時,就會感到"手足無措"。

      在真實世界中,物體種類繁多且不斷變化,完全覆蓋所有可能遇到的類別幾乎不可能。這就是所謂的"開放世界"問題——模型需要面對訓練時未見過的物體類別,并能合理處理它們。


      一些早期嘗試解決開放世界分割問題的方法包括少樣本學習和無監督聚類。少樣本學習雖然減輕了標注負擔,但仍假設訓練集和測試集中的類別屬于同一潛在特征空間,這在實際應用中往往不成立。無監督聚類方法則難以保證分割結果的語義一致性。

      近年來,隨著視覺-語言模型(如CLIP)的興起,研究人員開始探索只使用文本監督的語義分割方法。其中,GroupViT通過視覺-語言對比學習實現了圖像補丁的自動分組,取得了當時最先進的開放世界分割性能。ViL-Seg則通過引入視覺嵌入的在線聚類來實現圖像分割。這些方法利用大量圖像-文本對數據為開放世界場景提供了豐富的視覺和文本語義。

      然而,盡管這些方法在一定程度上實現了不同模態的局部信息對齊,但它們仍然是一種基于計算的隱式匹配策略。它們通過計算補丁-文本或詞元級別的相似性矩陣來學習細粒度匹配,這種方式效率不高且精度有限。如何從圖像-文本對數據中學習更加細粒度的語義對齊,成為基于文本監督的開放世界分割任務的關鍵挑戰。

      在實際測試中,這些基于文本監督的方法經常在復雜場景下表現不佳。例如,當圖像中包含多個物體或物體邊界模糊時,它們往往難以給出準確的分割結果。這主要是因為它們缺乏像素級的精細監督信號,無法充分捕捉物體的空間結構和邊界信息。

      重組的革新

      針對上述挑戰,MixReorg提出了一種全新且簡單的預訓練范式,旨在增強模型的補丁重組能力。這種方法的核心創新在于,它能夠從圖像-文本對數據中構建細粒度的補丁-文本對應關系,而且不需要額外的標注成本。

      MixReorg的靈感來源于混合圖像建模相關工作,如拼圖游戲和混合圖像重建。但與之前的方法不同,MixReorg的混合補丁重組是一個專為語義分割設計的跨模態掩碼學習器。它通過混合不同圖像的補丁生成混合圖像,同時保留補丁與文本之間的對應關系。

      具體來說,MixReorg將不同圖像的補丁隨機混合在一起,形成一系列帶有已知分割掩碼的混合圖像。根據原始圖像-文本對,混合圖像的補丁-文本對應關系也被保留下來,混合圖像的掩碼則用作混合圖像的語義分割標簽。這樣,我們就從圖像-文本對數據中獲得了補丁-文本對數據,無需任何額外標注。

      這種方法看似簡單,卻面臨兩個主要挑戰:首先,混合圖像分割容易受到低級特征的干擾,使模型無法通過高級語義實現混合圖像的補丁重組;其次,混合圖像中的每個補丁容易受到來自不同圖像的不相關補丁的干擾,這可能導致圖像語義難以與相應文本匹配。

      為解決第一個挑戰,MixReorg提出了上下文混合和漸進式混合兩種策略。上下文混合策略在混合操作前添加一個Transformer層,使混合圖像中的每個補丁能夠預先獲取其原始圖像的全局語義,從而強制模型從高級語義中學習混合圖像重組。這樣做避免了低級特征對模型語義學習的干擾,使分割更加精準。

      漸進式混合策略則通過使用原始圖像特征增強混合圖像特征中的全局語義信息。具體做法是,在Transformer的多層處理過程中,不斷將原始圖像的特征信息融入到混合圖像的特征中,這樣可以有效防止混合操作導致的語義信息丟失。


      為應對第二個挑戰,MixReorg設計了混合恢復策略。它通過混合圖像恢復與文本之間的對比學習,保證混合圖像中每個補丁標記與文本的語義關聯。這種方式能有效抑制混合圖像中來自不同圖像的補丁之間的相互干擾。

      與現有方法相比,MixReorg的創新之處在于它提供了一種真正的數據級別的細粒度監督信號,而不僅僅是計算上的偽局部信息對應。這種方法直接從數據入手,通過巧妙的混合和重組操作,創造出比原始圖像-文本對更加細粒度的監督信息。

      在實踐中,MixReorg通過一系列精心設計的損失函數來指導模型學習。混合分割損失促使模型學習準確分割混合圖像中各個補丁的能力;恢復對比損失則確保模型能夠將混合圖像中的補丁與其對應的文本正確對齊。這兩種損失協同工作,使模型同時具備精確分割和語義對齊的能力。

      MixReorg的另一個實用優勢是,在測試階段,它只需執行原始圖像分支,不會增加任何額外的測試時間。這使得它在實際應用中具有很高的效率。這種高效的架構設計使MixReorg不僅在性能上超越現有方法,而且在實用性上也有明顯優勢。

      實驗結果表明,通過這種創新的跨模態混合補丁重組方法,MixReorg成功建立了一個強大的開放世界分割模型,在多個基準測試中顯著超越了現有的零樣本分割基線。它在PASCAL VOC2012、PASCAL Context、MS COCO和ADE20K等標準數據集上分別提高了5.0%、6.2%、2.5%和3.4%的平均交并比(mIoU),這些提升對于計算機視覺領域來說是相當顯著的。

      技術深入解析

      MixReorg的技術實現看似復雜,實際上思路清晰且巧妙。這個系統的核心是一個三階段圖像編碼器,它能夠處理混合圖像并生成精確的分割結果。

      這個編碼器的第一階段是上下文混合。在這個階段,系統將不同圖像的補丁隨機混合在一起,生成帶有已知分割掩碼的混合圖像。與其他混合方法不同的是,MixReorg在混合前添加了一個transformer層,讓每個補丁能先獲取到原始圖像的全局語義信息。這就好比給每個拼圖塊先打上了原始圖畫的標記,使它們即使被打亂,也能記住自己來自哪里。

      具體來說,對于一批圖像-文本對,系統先把每張圖像分割成不重疊的補丁,并將它們投影到潛在空間。然后,它隨機混合來自M張不同圖像的補丁,構造M張混合圖像。這個過程會保留每個補丁與其原始圖像文本之間的對應關系,從而形成一個帶有補丁-文本對應關系的語義分割數據集。

      第二階段是漸進式混合。在這個階段,普通圖像和混合圖像的補丁標記分別與一組可學習的分組標記連接,并獨立輸入到多層transformer中。同時,系統使用原始圖像的特征來增強混合圖像特征中的上下文信息。這就像是在拼圖過程中,不時參考原圖來確保方向正確。

      第三階段是混合恢復。在這個階段,系統會根據混合前圖像的補丁位置恢復混合圖像。原始特征、混合特征和恢復特征通過兩階段分組塊進行分割,生成相應的分段標記。這些分段標記經過多層transformer處理后,通過MLP投影到與文本嵌入相同的維度。


      計算損失時,MixReorg使用兩種主要損失函數:混合分割損失和恢復對比損失。混合分割損失通過計算混合圖像的預測掩碼與真實掩碼之間的交叉熵來優化模型。恢復對比損失則通過恢復特征與文本嵌入之間的對比學習來增強跨模態語義對齊能力。

      值得注意的是,MixReorg在測試時只需執行原始圖像分支,不會增加任何額外的測試時間。這使它在實際應用中既高效又實用。

      從技術角度看,MixReorg的創新在于它成功地將補丁混合與跨模態學習結合起來,創造了一種新的掩碼學習方法。這種方法不需要像素級標注,只需圖像-文本對數據,就能實現高精度的開放世界語義分割。

      出眾的表現

      經過嚴格測試,MixReorg在多個基準數據集上展現出卓越的性能,證明了其作為開放世界分割模型的強大能力。

      在PASCAL VOC2012數據集上,MixReorg的單尺度評估達到了47.9%的平均交并比(mIoU),多尺度評估更是達到了50.5%,比基線方法GroupViT分別提高了6.8%和5.0%。這個提升在計算機視覺領域是相當顯著的。要知道,PASCAL VOC數據集包含20個前景類別,是評估分割模型的標準數據集之一。

      在PASCAL Context數據集上,MixReorg的表現同樣令人印象深刻。它在單尺度評估中達到23.9%的mIoU,多尺度評估中達到25.4%,比GroupViT分別提高了5.7%和6.2%。考慮到PASCAL Context包含59個類別,涵蓋更廣泛的物體類型,這一提升更加值得稱贊。

      在MS COCO數據集上,MixReorg的單尺度評估為21.3%,多尺度評估為23.6%,比GroupViT分別提高了2.9%和2.5%。COCO是一個更具挑戰性的數據集,包含80個類別和更復雜的場景,MixReorg仍然能夠取得顯著改進。

      即使在最具挑戰性的ADE20K數據集上,MixReorg也表現出色。它的單尺度評估為8.7%,多尺度評估為10.1%,比GroupViT分別提高了2.9%和3.4%。ADE20K包含150個類別,場景多樣且復雜,能在這樣的數據集上取得提升,充分證明了MixReorg方法的強大泛化能力。

      除了與GroupViT的比較外,MixReorg還超越了許多其他先進方法。例如,在PASCAL VOC上,它優于使用額外自監督信息的SLIP(12.3%)和CLIP-MAE(16.8%),以及使用更多訓練數據的MaskCLIP(21.7%)。這種全面的優勢表明,MixReorg的跨模態混合補丁重組方法能夠更有效地學習細粒度語義對齊。

      除了語義分割外,MixReorg在圖像分類任務上也表現出色。在ImageNet零樣本分類測試中,MixReorg的top-1準確率為38.8%,top-5準確率為66.7%,顯著優于GroupViT的37.5%和65.5%。這表明MixReorg通過細粒度掩碼學習實現了更好的圖像-文本對齊。


      為了深入了解MixReorg各組件的貢獻,研究團隊進行了全面的消融研究。實驗表明,上下文混合(CM)策略是至關重要的。僅添加一個transformer層(即GroupViT+)并不能提高性能,但加入CM后,性能顯著提升(19.3% vs 18.2%)。這證明了在模型早期獲取全局語義信息的重要性。

      另外,實驗還探索了混合用于上下文混合操作的圖像數量M的影響。結果顯示,M=16是最佳選擇。隨著M的增加,混合圖像包含更多語義類別,有助于模型學習語義分組(20.5% vs 17.1%)。但M超過某個閾值(如M=32)后,由于分辨率限制,混合圖像中的語義表示不足,反而會干擾模型學習(20.5% vs 18.2%)。


      漸進式混合模塊的數量P也是一個重要參數。當P=0時,即不使用原始圖像增強混合圖像,模型性能較差。隨著P的增加,混合圖像特征的語義變得更清晰,更有利于模型學習區分不同語義。實驗表明,P=6時模型性能最佳,比P=0提高約7%的mIoU。

      直觀地看,MixReorg生成的分割結果在視覺上也明顯優于GroupViT。在處理包含多個類別的復雜圖像時,MixReorg能夠更準確地分割不同物體。同時,對于"stuff"類別(如天空、草地等),MixReorg的分割質量也明顯優于GroupViT。這表明MixReorg具有更強的高級語義理解和分割能力。

      研究團隊還可視化了從混合圖像重組的結果,發現MixReorg能夠正確地將大多數圖像補丁分割到其對應的原始語義中。混合圖像預測的混淆矩陣表明,MixReorg能夠有效地將補丁與文本對齊。

      總的來說,MixReorg通過創新的跨模態混合補丁重組方法,成功地從圖像-文本對數據中構建了細粒度的補丁-文本數據,并設計了有效的掩碼學習策略,實現了開放世界語義分割的顯著性能提升。這種方法不僅在多個基準測試中表現優異,而且在實際應用中具有高效性和實用性。

      參考資料

      1. Cai, K., Ren, P., Zhu, Y., Xu, H., Liu, J., Li, C., Wang, G., &; Liang, X. (2023). MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner for Open-World Semantic Segmentation.

      2. GroupViT: Zhou, D., Kang, B., Jin, X., Yang, L., Lian, X., Hou, Q., &; Feng, J. (2022). Semantic segmentation with text supervision.

      3. CLIP: Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., … &; Sutskever, I. (2021). Learning transferable visual models from natural language supervision.

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      鄰居長期在樓道堆放鞋子等雜物,屢勸不聽,湖南一男子將爺爺遺照掛樓道“反擊” ;當事人:實在被逼得沒辦法

      鄰居長期在樓道堆放鞋子等雜物,屢勸不聽,湖南一男子將爺爺遺照掛樓道“反擊” ;當事人:實在被逼得沒辦法

      大風新聞
      2025-12-26 18:12:08
      南博事件新證據曝光!徐湖平夫妻被帶走,40億金獸疑似被偷梁換柱

      南博事件新證據曝光!徐湖平夫妻被帶走,40億金獸疑似被偷梁換柱

      鶴羽說個事
      2025-12-27 09:57:19
      但斌:茅臺的主力消費人群正在慢慢消失

      但斌:茅臺的主力消費人群正在慢慢消失

      新浪財經
      2025-12-26 16:52:47
      為什么人類吃食草動物的肉,基本上不吃食肉動物的肉?

      為什么人類吃食草動物的肉,基本上不吃食肉動物的肉?

      宇宙時空
      2025-12-26 11:49:12
      家中有事?缺席對陣新疆,周琦獨自離隊,原因曝光,首鋼回應

      家中有事?缺席對陣新疆,周琦獨自離隊,原因曝光,首鋼回應

      樂聊球
      2025-12-26 11:15:13
      毛主席微服察訪北平后勃然大怒,嚴令羅瑞卿徹查此事,最終七人被執行槍決,究竟發生了何等嚴重事端?

      毛主席微服察訪北平后勃然大怒,嚴令羅瑞卿徹查此事,最終七人被執行槍決,究竟發生了何等嚴重事端?

      桃煙讀史
      2025-12-20 17:37:11
      江蘇首富嚴昊:身價千億,迎娶著名女歌星,克林頓親自來出席婚禮

      江蘇首富嚴昊:身價千億,迎娶著名女歌星,克林頓親自來出席婚禮

      阿柒的訊
      2025-12-26 15:16:44
      曾苦戀王志文四年,后與沙桐結婚1年后閃離,最終收獲幸福

      曾苦戀王志文四年,后與沙桐結婚1年后閃離,最終收獲幸福

      小欣欣聊體育
      2025-12-26 22:47:42
      美國「斬殺線」沖爆熱搜!失業180天,年薪45萬美元程序員流落街頭

      美國「斬殺線」沖爆熱搜!失業180天,年薪45萬美元程序員流落街頭

      新智元
      2025-12-27 09:23:35
      演員金莎曬視頻宣布被男友孫丞瀟求婚,兩人相差19歲,于2023年9月公開戀情

      演員金莎曬視頻宣布被男友孫丞瀟求婚,兩人相差19歲,于2023年9月公開戀情

      臺州交通廣播
      2025-12-24 22:45:46
      婚禮結束僅4天,霍震霆兩個兒子“翻車”,郭晶晶態度早說明一切

      婚禮結束僅4天,霍震霆兩個兒子“翻車”,郭晶晶態度早說明一切

      娛樂看阿敞
      2025-11-22 13:26:47
      湖人內訌實錘!拉拉維亞直指內部脫節,雷迪克暗諷某人,難怪連敗

      湖人內訌實錘!拉拉維亞直指內部脫節,雷迪克暗諷某人,難怪連敗

      細話籃球
      2025-12-26 13:21:49
      陳獨秀逝世幾十年,鄧小平收到后人來信,立刻下令:保護陳獨秀墓

      陳獨秀逝世幾十年,鄧小平收到后人來信,立刻下令:保護陳獨秀墓

      歷史龍元閣
      2025-12-26 11:15:07
      942 天零出場!利物浦傳奇遭解約,30 歲斷崖式下滑

      942 天零出場!利物浦傳奇遭解約,30 歲斷崖式下滑

      瀾歸序
      2025-12-27 01:07:57
      南京博物館事件后,全國博物館紛紛關閉:施工關閉、臨時關閉

      南京博物館事件后,全國博物館紛紛關閉:施工關閉、臨時關閉

      爆角追蹤
      2025-12-26 11:02:32
      南博事件新證據曝光!徐湖平夫妻被帶走,40億金獸疑被偷梁換柱

      南博事件新證據曝光!徐湖平夫妻被帶走,40億金獸疑被偷梁換柱

      花小貓的美食日常
      2025-12-27 09:41:54
      老公和閨蜜好上了,陜西女子一夜白頭,閨蜜為男方打胎,身材性感

      老公和閨蜜好上了,陜西女子一夜白頭,閨蜜為男方打胎,身材性感

      水晶的視界
      2025-12-27 06:56:58
      中央5臺今日直播乒乓球賽嗎?今晚19∶00男團半決賽直播在哪看

      中央5臺今日直播乒乓球賽嗎?今晚19∶00男團半決賽直播在哪看

      皮皮觀天下
      2025-12-27 10:30:06
      宣布交易!楊瀚森,狂喜!

      宣布交易!楊瀚森,狂喜!

      李帕在北漂
      2025-12-26 14:32:35
      晚年不能自理時,怎樣才能安然度過余生?睿智的老人是這樣解決的

      晚年不能自理時,怎樣才能安然度過余生?睿智的老人是這樣解決的

      人間百態大全
      2025-12-27 06:35:03
      2025-12-27 12:27:00
      臆說歷史 incentive-icons
      臆說歷史
      作有深度的歷史解讀
      162文章數 232關注度
      往期回顧 全部

      科技要聞

      小米也漲價了!業界稱終端再不漲明年必虧

      頭條要聞

      賈國龍首次回應西貝風波 稱自己連續40天靠安眠藥入睡

      頭條要聞

      賈國龍首次回應西貝風波 稱自己連續40天靠安眠藥入睡

      體育要聞

      NBA教練圈的布朗尼,花了22年證明自己

      娛樂要聞

      劉宇寧:我的價值不需要靠番位來證明

      財經要聞

      注意,開始拉物價了!

      汽車要聞

      好音響比大屏更重要?車企開始“聽”用戶的

      態度原創

      房產
      手機
      數碼
      藝術
      親子

      房產要聞

      炸裂,三亞360億超級清單發布,又一批重大配套要來了!

      手機要聞

      iPhone Fold再次被確認:依舊有折痕,吸引力或銳減!

      數碼要聞

      度電成本降低77%!全球首款PCM相變家庭儲能式集成空調來了

      藝術要聞

      毛主席致徐悲鴻信件曝光,書法風格引關注。

      親子要聞

      低齡兒童也要有意識地保護眼睛

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产av一区二区三区传媒| 国产乱子伦视频在线播放| 日日撸日日干| 国产在线资源| 影音先锋成人资源| 午夜视频免费试看| 久久久久青草线综合超碰| 天天色av| 日韩成人社区| 狠狠?综合?精品?伊人| 久久天天躁狠狠躁夜夜av不卡| 国产香蕉97碰碰久久人人| 国产360激情盗摄全集| 不卡黄片| 久久久久国产一区二区三区| 精品国产免费人成在线观看| 久久亚洲视频| 欧美性受xxxx黑人xyx性爽| 妇女bbbbb撒尿正面视频| 无码人妻精品一区二区三区不卡| 爱3P| 伊人网综合| 2021亚洲爆乳无码专区| 潮喷失禁大喷水无码| 久久国产乱子伦免费精品| 777精品成人a?v久久| 国产又大又硬又粗| 自拍偷拍第一页| 综合久久无码| www国产亚洲精品久久麻豆| 国产av大全| 97香蕉久久国产超碰青草专区| 俺去啦中文网| 亚洲成av人片大线观看| 91亚洲免费视频| 久久96| 粉嫩导航| 亚洲成人在线网址| 欧美一二三区| 成人硅胶娃做爰无码www| 99久久伊人精品综合观看|