<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      PixelRefer :讓AI從“看大圖”走向“看懂每個對象”

      0
      分享至



      多模態(tài)大模型(MLLMs)雖然在圖像理解、視頻分析上表現(xiàn)出色,但多停留在整體場景級理解。

      而場景級理解 ≠ 視覺理解的終點,現(xiàn)實任務(wù)(如自動駕駛、機器人、醫(yī)療影像、視頻分析)需要的是細(xì)粒度、對象級(object-level)詳細(xì)理解

      然而,當(dāng)下的研究工作,如英偉達的Describe Anything Model (DAM)局限于單個物體的描述,難以深入理解多對象屬性、交互關(guān)系及其時序演變,且犧牲了模型本身的通用理解能力。

      針對這一問題,浙江大學(xué)、達摩院、香港理工大學(xué)聯(lián)合提出了一種創(chuàng)新的解決方案PixelRefer:一個統(tǒng)一的時空像素級區(qū)域級理解框架,可實現(xiàn)任意粒度下的精細(xì)視覺指代與推理,在多項像素級細(xì)粒度理解任務(wù)取得領(lǐng)先性能表現(xiàn)。和DAM-3B相比,輕量版的2B模型推理時間加快了4倍,顯存占用減半,且訓(xùn)練數(shù)據(jù)量大大少于已有方法。



      PixelRefer能夠?qū)θ我饽繕?biāo)實現(xiàn)準(zhǔn)確語義理解以及時空物體區(qū)域理解。









      • 論文標(biāo)題:
      • PixelRefer: A Unified Framework for Spatio-Temporal Object Referring with Arbitrary Granularity
      • 論文鏈接:
      • https://arxiv.org/abs/2510.23603
      • 項目網(wǎng)站鏈接:
      • https://circleradon.github.io/PixelRefer/
      • 代碼鏈接:
      • https://github.com/DAMO-NLP-SG/PixelRefer

      先驗分析:大模型“如何看懂區(qū)域”?

      為了探索解決以上問題,作者基于通用視覺基礎(chǔ)模型采用最直接的設(shè)計:將全局視覺token+像素級區(qū)域token+文本token一起喂給 LLM。當(dāng)無物體指代區(qū)域時,模型則退化成通用視覺理解任務(wù),從而實現(xiàn)區(qū)域理解的同時,保留通用模型本身的通用理解能力。

      作者對LLM內(nèi)從淺層到深層中分析視覺token、區(qū)域token以及其他類型token進行可視化分析。本文可以發(fā)現(xiàn)從淺層到深層,答案(Ans)優(yōu)先關(guān)注像素級區(qū)域token,其attention分?jǐn)?shù)一直很高,說明物體token表征對于模型的回答起到重要的作用。此外,全局圖像token(vision)則僅在淺層中(第一層)表現(xiàn)出較高的attention分布(Answer-to-image token attention),LLM的深層則表現(xiàn)較弱,甚至沒有影響,這個在通用視覺基礎(chǔ)模型研究中也被討論到。



      淺層到深層的attention可視化

      基于此分析,作者得出兩種設(shè)計方案:

      1. 高質(zhì)量像素級物體表征很重要:對于像素級區(qū)域的表達,語義豐富的區(qū)域表征直接決定像素級語義理解的質(zhì)量;
      2. 全局信息的冗余可以通過“預(yù)融合”優(yōu)化:在 LLM 深層階段,全局視覺標(biāo)記的作用顯著減弱,在深層階段反而變得冗余,說明其信息可提前注入對象標(biāo)記中,以大幅減少計算開銷。

      方法設(shè)計

      為此,作者針對像素級細(xì)粒度理解定義了兩種框架,Vision-Object Framework (a)與Object-Only Framework (b):



      PixelRefer(Vision-Object Framework)

      對于PixelRefer,作者把全局視覺token+像素級區(qū)域token+文本token一起送入 LLM,既保留場景語境,又在對象級上精細(xì)推理。關(guān)鍵在于像素級區(qū)域表征token質(zhì)量足夠高。為此,作者提出尺度自適應(yīng)對象分詞器(Scale-Adaptive Object Tokenizer, SAOT) 來生成精確、緊湊、語義豐富的對象表示。

      SAOT 圍繞兩個設(shè)計:(i)小目標(biāo)容易在patch化后丟失細(xì)節(jié);(ii)大目標(biāo)的特征冗余嚴(yán)重

      核心做法分三步:

      1. 動態(tài)尺度處理(Dynamic Object Processing)。按像素級區(qū)域大小自適應(yīng)地放大小物體、縮小大物體,并進行上下文擴展(在目標(biāo)周圍留出一定背景),保證既不丟細(xì)節(jié)也不過度冗余。隨后通過共享視覺編碼器取到區(qū)域級特征。
      2. 位置感知的掩碼特征抽取(Mask Feature + Relative Positional Encoding)。對區(qū)域內(nèi)的有效特征做掩碼并疊加相對坐標(biāo)投影,形成位置感知的對象token,為后續(xù)推理提供“這片語義在圖像哪里”的線索。作者還為被裁剪/擴展后的區(qū)域加入相對位置編碼來緩解對齊歧義,使對象token具備空間感知。
      3. 冗余聚合(Abundant Feature Aggregation)。對大/同質(zhì)區(qū)域里高度相似的token,采用k-means 聚類合并,只保留n 個代表性token,既壓縮冗余又保留多視角細(xì)節(jié)。這一步實證上顯著降低了對象內(nèi)部token的相似度,提高了表示“緊致度”。




      PixelRefer-Lite (Object-Only Framework)

      該變體僅使用對象標(biāo)記進行 LLM 推理,借助對象中心信息融合模塊(Object-Centric Infusion Module, OCI)將全局特征在前處理階段融合入對象表示中。通過 Local-to-Object 和 Global-to-Object Attention,使目標(biāo)的表征同時具備細(xì)節(jié)感知與全局語義,從而實現(xiàn)更完整的上下文融合。這樣一來,推理階段無需再使用全局視覺標(biāo)記,顯著降低顯存與時間消耗,同時保持語義一致性與理解精度。



      PixelRefer-Lite 實現(xiàn)了一個高效的推理框架,在保持高性能的同時將推理速度提升約 2–3 倍。

      數(shù)據(jù)集

      作者收集并開源了用于訓(xùn)練的兩類數(shù)據(jù)集,分別是Foundational Object Perception(140萬樣本):涵蓋物體、部件、時序關(guān)系的識別與描述以及Visual Instruction Tuning(80萬樣本):覆蓋區(qū)域QA、視頻QA、多對象關(guān)系與未來事件預(yù)測QA。



      性能結(jié)果

      • 對于圖像像素級細(xì)粒度理解benchmark



      PixelRefer在多個圖像理解benchmark上已達到SOTA水平,不論是簡單的區(qū)域識別還是詳細(xì)理解,已成為最先進的模型,特別是在reasoning場景下,更是展現(xiàn)出了突出優(yōu)勢。

      • 對于視頻像素級細(xì)粒度理解benchmark



      在經(jīng)典的VideoRefer-Bench上,不論是視頻區(qū)域的caption還是QA,均取得了領(lǐng)先性能,展現(xiàn)了通用而又全面的能力。

      • 對于推理時間與效率的計算



      在基于圖片的benchmark DLC-Bench和基于視頻的benchmark上HC-STVG上均進行了測評,輕量版的PixelRefer-Lite-2B模型有較大的領(lǐng)先優(yōu)勢,特別是在視頻上,相較于DAM-3B,推理時間縮短了約4倍,顯存占用減少了2倍。

      • 消融實驗:Scale-adaptive Object TokenizervsMaskPooling



      • 相較于之前簡單maskpooling的做法,作者提出的Scale-adaptive Object Tokenizer模塊有明顯的提升,特別是在小目標(biāo)理解上,在LVIS和DLC-Bench上均提升了十幾個點。

      • 消融實驗:對于區(qū)域token的表征個數(shù)



      研究意義與總結(jié)

      PixelRefer的出現(xiàn),標(biāo)志著AI視覺理解從“看懂一張圖”邁向“理解世界的細(xì)節(jié)動態(tài)”,為多模態(tài)大模型的精細(xì)化視覺理解提供了新的方向。應(yīng)用前景包括:

      • 自動駕駛的時序場景識別
      • 醫(yī)療影像的病灶級理解
      • 智能視頻剪輯與監(jiān)控
      • 多模態(tài)對話與人機交互

      未來的多模態(tài)AI,不僅會“看見世界”,更會理解世界的關(guān)系。PixelRefer的提出,正是通向通用視覺智能的一塊關(guān)鍵拼圖。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      杭州已有第一批“養(yǎng)龍蝦”的人!有人養(yǎng)了不到10天就離不開了,還對家里堆成山的泡泡瑪特定了個目標(biāo)

      杭州已有第一批“養(yǎng)龍蝦”的人!有人養(yǎng)了不到10天就離不開了,還對家里堆成山的泡泡瑪特定了個目標(biāo)

      都市快報橙柿互動
      2026-03-10 11:19:02
      那道拿捏得極有尊嚴(yán)的“跪姿”!

      那道拿捏得極有尊嚴(yán)的“跪姿”!

      胖胖說他不胖
      2026-03-10 13:06:38
      國際油價暴跌!三桶油:嚇?biāo)缹殞毩耍姨澪覀儩q得快!

      國際油價暴跌!三桶油:嚇?biāo)缹殞毩耍姨澪覀儩q得快!

      社會日日鮮
      2026-03-10 14:19:40
      伊朗稱驅(qū)逐美以大使可過霍爾木茲

      伊朗稱驅(qū)逐美以大使可過霍爾木茲

      界面新聞
      2026-03-10 08:12:46
      再漲20元,2026年-2030年養(yǎng)老金調(diào)整方向定了,超1.8億人受益

      再漲20元,2026年-2030年養(yǎng)老金調(diào)整方向定了,超1.8億人受益

      財話連篇
      2026-03-09 23:17:37
      伊朗提出停火首要條件 伊外長稱新任最高領(lǐng)袖不會與美談判

      伊朗提出停火首要條件 伊外長稱新任最高領(lǐng)袖不會與美談判

      上游新聞
      2026-03-10 13:40:14
      最先看到世界的波斯女足反水,摘掉了頭巾!

      最先看到世界的波斯女足反水,摘掉了頭巾!

      家傳編輯部
      2026-03-10 16:22:24
      接受現(xiàn)實吧:去年印度iPhone產(chǎn)能提升53%,已占全球25%了

      接受現(xiàn)實吧:去年印度iPhone產(chǎn)能提升53%,已占全球25%了

      互聯(lián)網(wǎng).亂侃秀
      2026-03-10 14:28:01
      伊朗開啟復(fù)仇!以色列首都已全面停電,小哈梅內(nèi)伊比想象中更強硬

      伊朗開啟復(fù)仇!以色列首都已全面停電,小哈梅內(nèi)伊比想象中更強硬

      派大星紀(jì)錄片
      2026-03-10 12:01:56
      女足亞洲杯1/4決賽對陣:中國vs中國臺北,朝鮮vs澳大利亞

      女足亞洲杯1/4決賽對陣:中國vs中國臺北,朝鮮vs澳大利亞

      懂球帝
      2026-03-10 19:09:45
      特朗普發(fā)表“收場”表態(tài)想結(jié)束沖突,伊朗會否同意?

      特朗普發(fā)表“收場”表態(tài)想結(jié)束沖突,伊朗會否同意?

      新民晚報
      2026-03-10 13:38:26
      中網(wǎng)友瘋傳張娜拉去世!公司職員也被發(fā)現(xiàn)死亡!經(jīng)紀(jì)公司回應(yīng)

      中網(wǎng)友瘋傳張娜拉去世!公司職員也被發(fā)現(xiàn)死亡!經(jīng)紀(jì)公司回應(yīng)

      陌上桃花開的
      2026-03-10 17:51:41
      “活不起了?”男子橫幅威脅引發(fā)熱議,真相令人震驚!

      “活不起了?”男子橫幅威脅引發(fā)熱議,真相令人震驚!

      一絲不茍的法律人
      2026-03-10 12:45:20
      陳都靈太嫩了

      陳都靈太嫩了

      阿廢冷眼觀察所
      2026-02-28 11:28:38
      這菜再貴也要吃,大量上市!通便排毒,殺菌消炎,提高免疫力

      這菜再貴也要吃,大量上市!通便排毒,殺菌消炎,提高免疫力

      阿龍美食記
      2026-03-10 16:31:51
      樓市,突然不講武德了

      樓市,突然不講武德了

      地產(chǎn)觀點
      2026-03-10 18:05:03
      大陸宣布,不管臺當(dāng)局同不同意、支不支持,廈金大橋工程照常開工

      大陸宣布,不管臺當(dāng)局同不同意、支不支持,廈金大橋工程照常開工

      南權(quán)先生
      2026-03-10 15:20:18
      曝伊朗女足已正式登機離開澳洲:多人落淚+反抗未果 有2人成功留下

      曝伊朗女足已正式登機離開澳洲:多人落淚+反抗未果 有2人成功留下

      風(fēng)過鄉(xiāng)
      2026-03-10 21:14:19
      第一次,中國對塔利班發(fā)火了!

      第一次,中國對塔利班發(fā)火了!

      曉看說
      2026-03-10 15:27:27
      國際油價10日由暴漲轉(zhuǎn)為大幅回落

      國際油價10日由暴漲轉(zhuǎn)為大幅回落

      中國經(jīng)濟網(wǎng)
      2026-03-10 13:07:14
      2026-03-11 02:20:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12467文章數(shù) 142581關(guān)注度
      往期回顧 全部

      科技要聞

      全民"養(yǎng)蝦"背后:大廠集體下場瘋狂賣Token

      頭條要聞

      伊朗新最高領(lǐng)袖在襲擊中受傷未公開發(fā)表講話 官方回應(yīng)

      頭條要聞

      伊朗新最高領(lǐng)袖在襲擊中受傷未公開發(fā)表講話 官方回應(yīng)

      體育要聞

      加蘭沒那么差,但鱸魚會用嗎?

      娛樂要聞

      《逐玉》注水風(fēng)波升級!315評論區(qū)淪陷

      財經(jīng)要聞

      “龍蝦補貼”密集出爐 最高1000萬!

      汽車要聞

      MG4有SUV衍生 上汽乘用車多款新車規(guī)劃曝光

      態(tài)度原創(chuàng)

      家居
      時尚
      健康
      房產(chǎn)
      軍事航空

      家居要聞

      自然肌理 溫度質(zhì)感婚房

      看來看去這些才是適合普通人的穿搭!不花哨、不繁瑣,提氣質(zhì)

      轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

      房產(chǎn)要聞

      信號!千億巨頭入局,三亞開啟新一輪大征拆!

      軍事要聞

      剛說完戰(zhàn)爭很快結(jié)束 特朗普改口

      無障礙瀏覽 進入關(guān)懷版