<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      北大團隊提出CPL++框架,實現視覺定位模型的自知之明和自我糾錯

      0
      分享至



      本文是北京大學彭宇新教授團隊在視覺定位方向的最新研究成果,相關論文已被頂級國際期刊 IEEE TPAMI 接收。為視覺定位模型賦予「自知之明」能力 —— 通過自監督的關聯校正與驗證模塊,在訓練過程中動態識別、衰減并糾正錯誤的監督信號。大量實驗證明,讓模型學會「自我糾錯」,是突破弱監督視覺定位瓶頸的有效途徑。



      • 論文標題:Confidence-aware Pseudo-label Self-Correction for Weakly Supervised Visual Grounding
      • 論文鏈接:https://ieeexplore.ieee.org/document/11433810/
      • 開源代碼:https://github.com/oceanflowlab/CPL
      • 實驗室網址:http://mipl.pku.edu.cn

      背景與動機

      視覺定位(Visual Grounding)旨在根據自然語言查詢準確定位圖像中的目標區域。然而,全監督方法嚴重依賴密集的「圖像 - 文本 - 物體框」細粒度標注,這在處理大規模復雜場景時面臨巨大的標注成本挑戰。因此,僅利用「圖像 - 文本」進行訓練的弱監督視覺定位受到了廣泛關注。

      現有弱監督方法通常將該任務視為一個目標檢索過程,依賴跨模態匹配分數或重構損失來挑選候選區域。但語言描述的高層抽象概念與圖像區域的像素級特征之間存在著巨大的「異構鴻溝」,這使得跨模態匹配往往極不可靠。模型在訓練中一旦學到了這些錯誤的「偽關聯」,就會陷入錯誤傳播和累積的死循環。此前的無監督方法嘗試用模板生成偽查詢,但生成的句子生硬且缺乏多樣性,同樣忽略了錯誤關聯對模型的嚴重影響。

      針對這一難題,北京大學彭宇新教授團隊提出了置信度感知的偽標簽學習框架(CPL)及其進階版 CPL++,通過引入大模型生成多樣化描述,并結合「自監督關聯驗證」機制,讓模型在訓練過程中學會動態發現并糾正自己的錯誤,實現弱監督視覺定位性能的提升。

      技術方案

      本文提出的 CPL 框架不僅能過濾錯誤的區域 - 文本關聯,更能利用模型自身在訓練中不斷增強的定位能力,動態地「糾正」這些錯誤標簽。其核心亮點包含以下幾個方面:



      圖 1. 置信度感知的偽標簽學習框架 CPL

      1. 高質量偽查詢生成與單模態匹配

      由于跨模態匹配的困難,本文轉換思路,利用單模態內的匹配構造偽標簽。如上圖所示,CPL 框架提出了三條互補的生成管線(啟發式增強 Heuristic+、以對象為中心描述 Object-Centric、以關系為中心描述 Relation-Aware),為圖像中的每個候選區域生成描述性強、真實且多樣化的偽查詢文本。隨后,模型在文本特征空間內計算真實查詢與偽查詢之間的單模態相似度,挑選最匹配的區域作為初始偽標簽,從而避開了跨模態對齊帶來的挑戰。

      2. 靜態跨模態驗證模塊



      雖然 CPL 取得了顯著效果,但其驗證模塊是孤立于定位模型之外的「靜態」評估,不僅無法在訓練中動態發揮作用,更缺乏對錯誤關聯的「糾正」機制。為此,研究團隊進一步擴展得到 CPL++ 框架,在以下核心方面進行了自監督升級。



      圖 2. 置信度感知的偽標簽學習框架的進階版本 CPL++

      3. 自監督關聯校正與動態偽標簽優化

      為了糾正錯誤的「區域 - 查詢」關聯,CPL++ 進一步引入了自監督關聯校正模塊。首先,模型不僅僅依賴檢測器的置信度,而是結合了查詢文本中的類別、屬性和空間關系,構建了一個高質量的語義感知候選池。其綜合評分函數定義為:



      該評估函數綜合性地結合了查詢文本和候選區域在類別、屬性、空間關系上的匹配程度,并結合檢測器的置信度,對「區域 - 查詢」偽標簽提供了全面、可靠的評估手段,用于發現可能錯誤的「區域 - 查詢」關聯,過濾得到高質量的偽查詢候選池,用于訓練模型。





      4. 自監督關聯驗證





      這種自監督驗證機制巧妙融合了強大的靜態預訓練模型的先驗知識與不斷動態進化的定位模型的能力,降低了誤差傳播的風險。

      實驗結果

      本文在弱監督視覺定位領域的五大數據集(RefCOCO、RefCOCO+、RefCOCOg、ReferItGame、Flickr30K Entities)上進行了全面評估。

      CPL 基礎框架在這五個數據集的測試集上超越現有的弱監督與無監督方法。具備自糾錯能力的 CPL++ 框架在 CPL 的基礎上進一步實現了 2.78%、5.81%、1.08%、2.03% 和 2.55% 的絕對性能提升。CPL++ 框架將弱監督方法與全監督方法之間的性能差距縮小,展現了偽標簽自校正機制的巨大潛力。



      表 1:RefCOCO、RefCOCO+、RefCOCOg 數據集結果



      表 2:ReferItGame、Flickr30K Entities 數據集結果

      為了進一步直觀展示模型生成偽標簽的實際效果,圖 3 中給出了偽標簽的可視化結果,可以看出,CPL 能夠為圖像候選區域生成描述準確、句式豐富且包含復雜交互關系的高質量偽查詢,提供了高度互補的多樣化監督信息。此外,圖 4 展示了自監督關聯校正模塊的動態糾錯全過程:從圖 4(a)中最初建立的初步偽查詢關聯,到圖 4(b)中經過單模態匹配后可能產生的偏差關聯,最終在校正模塊的干預下,圖 4(c)中模型的預測框被成功糾正并精準鎖定到了與圖 4(d)中的真實文本完全對應的正確目標區域上。這些案例證明了 CPL++ 框架在動態識別并修正錯誤監督信號方面的強大能力。



      圖 3:CPL 框架偽標簽可視化



      圖 4:CPL++ 框架自監督關聯校正可視化

      總結

      本文提出了一種弱監督視覺定位框架 CPL++ 。該框架不僅通過單模態匹配建立了更可靠的初始區域 - 文本關聯,更重要的是,它為模型賦予了「自知之明」能力 —— 通過自監督的關聯校正與驗證模塊,在訓練過程中動態識別、衰減并糾正錯誤的監督信號。大量實驗證明,讓模型學會「自我糾錯」,是突破弱監督視覺定位瓶頸的有效途徑。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      為什么WTO很少被提起了?中國入世談判花了15年,如今幾乎被架空

      為什么WTO很少被提起了?中國入世談判花了15年,如今幾乎被架空

      古史青云啊
      2026-04-07 14:52:09
      劉震云:一個媽媽最大的悲哀,就是輕易向別人透露子女這3件隱私,真的很傻!

      劉震云:一個媽媽最大的悲哀,就是輕易向別人透露子女這3件隱私,真的很傻!

      新浪財經
      2026-04-10 12:43:57
      變卦了?鄭麗文訪美日期確定:兩岸想要和平,美國至關重要

      變卦了?鄭麗文訪美日期確定:兩岸想要和平,美國至關重要

      娛樂小可愛蛙
      2026-04-18 07:46:17
      騷擾電話為何總打給你?元兇就在微信,關掉這開關立馬清凈

      騷擾電話為何總打給你?元兇就在微信,關掉這開關立馬清凈

      復轉這些年
      2026-04-16 12:31:37
      鎖定第二!廣廈18分逆轉橫掃同曦 胡金秋26+9郭昊文23分

      鎖定第二!廣廈18分逆轉橫掃同曦 胡金秋26+9郭昊文23分

      醉臥浮生
      2026-04-17 21:42:28
      斯諾克賽程:3個時段10人上陣,上屆冠亞軍迎來首秀,2場冠軍PK!

      斯諾克賽程:3個時段10人上陣,上屆冠亞軍迎來首秀,2場冠軍PK!

      劉姚堯的文字城堡
      2026-04-18 07:25:13
      特朗普:霍爾木茲海峽局勢結束后,北約問是否需要幫助,我告訴他們離遠點,他們只想要石油,一點用都沒有,簡直就是紙老虎!

      特朗普:霍爾木茲海峽局勢結束后,北約問是否需要幫助,我告訴他們離遠點,他們只想要石油,一點用都沒有,簡直就是紙老虎!

      魯中晨報
      2026-04-18 07:20:17
      中產徹底清醒!鋼琴銷量暴跌72%:不是不愛音樂,是時代不裝了…

      中產徹底清醒!鋼琴銷量暴跌72%:不是不愛音樂,是時代不裝了…

      火山詩話
      2026-04-09 13:45:45
      定了!國足第三檔身份參加抽簽,或將進超級死亡之組,出線又懸了

      定了!國足第三檔身份參加抽簽,或將進超級死亡之組,出線又懸了

      綠茵舞著
      2026-04-17 10:30:20
      北京國際電影節開幕,韓紅幽默點評:我不知道李乃文是不是真的他唱的

      北京國際電影節開幕,韓紅幽默點評:我不知道李乃文是不是真的他唱的

      鄉野小珥
      2026-04-17 09:13:02
      阿洛伊西:今天這個結果很不錯;韋林頓肌肉不適應該問題不大

      阿洛伊西:今天這個結果很不錯;韋林頓肌肉不適應該問題不大

      懂球帝
      2026-04-18 04:24:12
      氣溫回暖,猝死的人越來越多?醫生強調:寧睡到中午,也別做5事

      氣溫回暖,猝死的人越來越多?醫生強調:寧睡到中午,也別做5事

      醫學原創故事會
      2026-04-14 23:52:04
      2026北京車展將開幕,想看首發新車的,認準這12款錯不了

      2026北京車展將開幕,想看首發新車的,認準這12款錯不了

      優視汽車
      2026-04-17 15:39:30
      活該,設計院降薪降得領導都指揮不動員工了!

      活該,設計院降薪降得領導都指揮不動員工了!

      黯泉
      2026-04-17 20:59:06
      成龍安排好身后事才2個月,翁靜晶再曝大瓜,沒給他留一絲體面

      成龍安排好身后事才2個月,翁靜晶再曝大瓜,沒給他留一絲體面

      星星沒有你亮
      2026-02-28 20:40:21
      蕭旭岑到底拿走了什么,讓76歲馬英九不惜撕破臉、固執提告?

      蕭旭岑到底拿走了什么,讓76歲馬英九不惜撕破臉、固執提告?

      線裝史冊
      2026-04-18 05:15:53
      雷霆的悖論:冠軍+狀元簽,公平嗎?

      雷霆的悖論:冠軍+狀元簽,公平嗎?

      籃壇第一線
      2026-04-17 08:13:33
      巴基斯坦1.3萬中械部隊正式進駐沙特,新時代開啟

      巴基斯坦1.3萬中械部隊正式進駐沙特,新時代開啟

      遠方青木
      2026-04-18 00:46:29
      太坑!深圳一停車場連點6次同意才能繳費:涉事企業被罰1萬元

      太坑!深圳一停車場連點6次同意才能繳費:涉事企業被罰1萬元

      快科技
      2026-04-17 16:53:27
      解放后損失最大俘虜逃跑事件,劫走一架飛機帶走3名我軍中層干部

      解放后損失最大俘虜逃跑事件,劫走一架飛機帶走3名我軍中層干部

      鶴羽說個事
      2026-04-16 22:07:31
      2026-04-18 09:16:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12790文章數 142632關注度
      往期回顧 全部

      科技要聞

      7家頭部平臺被罰沒35.97億元

      頭條要聞

      “張雪機車”奪超級桿位賽第二名

      頭條要聞

      “張雪機車”奪超級桿位賽第二名

      體育要聞

      中超-泰山1-1海港 楊希處子球克雷桑任意球扳平

      娛樂要聞

      劉德華摯友潘宏彬離世 曾一起租房住

      財經要聞

      "影子萬科"2.0:管理層如何吸血萬物云?

      汽車要聞

      奇瑞威麟R08 PRO正式上市 售價14.48萬元起

      態度原創

      手機
      教育
      藝術
      數碼
      公開課

      手機要聞

      華為Pura X Max再次被確認:屏幕參數已清晰,折痕和耐用性拉滿!

      教育要聞

      五育融合,到底“融”在哪里?

      藝術要聞

      鄭麗文深藍西裝亮相,洪秀柱書法作品引關注!

      數碼要聞

      惠普新款曲面帶魚屏首發6999元:WQHD 120Hz高刷

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版