<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      當(dāng)視頻難以被表征:UCSD、HKUST等機(jī)構(gòu)聯(lián)合提出FlowRVS

      0
      分享至



      本文第一作者為王贊毅,本科畢業(yè)于西安交通大學(xué),現(xiàn)為加州大學(xué)圣迭戈分校(UCSD)ECE 系碩士一年級(jí)學(xué)生。其主要研究方向?yàn)椋阂曨l理解,生成式建模。本工作為作者在國家電網(wǎng)思極 AI 實(shí)驗(yàn)室(SGIT AI Lab) 實(shí)習(xí)期間的成果。

      長期以來,計(jì)算機(jī)視覺領(lǐng)域陷入了一個(gè) “表征(Representation)” 的執(zhí)念。我們習(xí)慣設(shè)計(jì)各種精巧的 Encoder,試圖將動(dòng)態(tài)世界壓縮成一組特征向量。然而,視頻作為現(xiàn)實(shí)的高維投影,其熵值之高、動(dòng)態(tài)之復(fù)雜,讓這種試圖 “定格” 的表征顯得力不從心。特別是在指代視頻分割(RVOS)中,傳統(tǒng) “先定位、后分割” 范式遭遇了信息坍縮的瓶頸 —— 一旦特征被壓縮,細(xì)粒度的時(shí)空對(duì)應(yīng)關(guān)系便隨之瓦解。

      如果換一種思路呢?如果不再執(zhí)著于 “壓縮” 和 “表征”,而是利用生成式模型對(duì)物理規(guī)律的深刻理解去‘重演’這個(gè)過程,是否能實(shí)現(xiàn)降維打擊?在剛剛公布的 ICLR 2026 中,來自SGIT AI Lab,UCSD, HKUST等機(jī)構(gòu)的研究團(tuán)隊(duì)給出了肯定的答案。他們提出的FlowRVS,跳出了傳統(tǒng)‘凍結(jié)骨干提取特征 + 獨(dú)立解碼器預(yù)測’的桎梏。不同于以往將大模型僅僅視為一個(gè)特征提取器(Feature Extractor),F(xiàn)lowRVS 徹底釋放了 DiT(Diffusion Transformer)全參數(shù)的生成能力,將分割任務(wù)重塑為一個(gè)在潛空間中、直接從視頻流向 Mask 的條件流匹配過程。這不僅是 SOTA 的提升,更是一種視覺感知范式的代際轉(zhuǎn)換。



      • 論文標(biāo)題:Deforming Videos to Masks: Flow Matching for Referring Video Segmentation
      • 論文鏈接:https://arxiv.org/abs/2510.06139
      • 代碼鏈接:https://github.com/xmz111/FlowRVS

      生成式建模:從 “壓縮” 到 “仿真” 的降維打擊

      "What I cannot create, I cannot understand." — Richard Feynman

      這句物理學(xué)界的至理名言,或許是 FlowRVS 最底層的注腳。極致的生成,本身就是極致的理解。視頻理解的本質(zhì)困難在于其極高的不確定性與時(shí)空連續(xù)性。傳統(tǒng)的判別式模型往往試圖在這些不確定的像素中強(qiáng)行劃定邊界,這就像是在湍急的河流中試圖用網(wǎng)兜住每一滴水,費(fèi)力且由于遮擋或運(yùn)動(dòng)模糊而常常失效。

      相比之下,Sora, Wan 2.1, 以及最近大火的 Seedance2 等生成式模型之所以強(qiáng)大,是因?yàn)樗鼈冊(cè)陬A(yù)訓(xùn)練過程中通過學(xué)習(xí) “如何生成視頻”,掌握了物體恒常性、光影變化乃至物理運(yùn)動(dòng)的元知識(shí)。這種 “World Simulator” 級(jí)別的先驗(yàn),恰恰是解決復(fù)雜視覺判別任務(wù)的終極答案。試想,Seedance 2 能夠生成長達(dá)數(shù)分鐘、且符合人體動(dòng)力學(xué)的復(fù)雜舞蹈,這證明了 生成模型足以捕捉極高維度的時(shí)空演變規(guī)律。FlowRVS 的核心洞察正基于此:與其訓(xùn)練一個(gè)模型去死記硬背像素的分類,不如利用 T2V 模型已有的生成能力,引導(dǎo)視頻特征 “自然生長” 出目標(biāo)的分割掩碼。這本質(zhì)上是同一套物理法則在不同方向上的應(yīng)用。

      確立了利用生成式模型的大方向,僅僅是推開了真理的大門,而通往最優(yōu)解的路徑依然迷霧重重。回溯 Table 2 的消融實(shí)驗(yàn),我們看到的是一條從直覺出發(fā),在碰壁中不斷修正,最終回歸物理本質(zhì)的探索軌跡。

      最初的構(gòu)想往往是最樸素的:既然目標(biāo)是分割,能否直接訓(xùn)練模型將高維視頻特征 “壓縮” 為二值 Mask?這種 “一步映射(One-step Prediction)” 看似最符合判別式任務(wù)的習(xí)慣,但實(shí)驗(yàn)結(jié)果卻相當(dāng)殘酷(J&F 38.9)。事實(shí)證明,試圖讓模型在一步之內(nèi)跨越如此巨大的信息鴻溝,如同要求它從懸崖直接跳入谷底,劇烈的特征坍縮導(dǎo)致了訓(xùn)練的極度不穩(wěn)定。



      既然直接映射行不通,那么模仿 Sora 等主流生成模型,從高斯噪聲開始生成 Mask 呢?這種 “從噪聲出發(fā)(Noise-to-Mask)” 的范式將視頻降級(jí)為輔助條件,試圖在一張白紙上 “幻視” 出分割結(jié)果。然而,這一嘗試帶來了災(zāi)難性的 32.3 分。這個(gè)全場最低分揭示了一個(gè)被忽視的常識(shí):視頻本身包含了極高熵的空間和紋理細(xì)節(jié),舍棄這些寶貴的先驗(yàn),強(qiáng)行從零開始生成,無異于買櫝還珠,舍近求遠(yuǎn)。

      真正的轉(zhuǎn)機(jī),出現(xiàn)在對(duì) “殘差” 思維的回歸上。當(dāng)不再強(qiáng)求模型憑空預(yù)測絕對(duì)的 Mask,而是轉(zhuǎn)而預(yù)測相對(duì)于視頻特征的 “變化量(速度)” 時(shí),性能瞬間躍升至 50.8。這一數(shù)據(jù)的暴漲成為了至關(guān)重要的路標(biāo) —— 它證明了保留視頻本身作為基底(Source)的巨大價(jià)值。既然預(yù)測 “一步變化” 如此有效,那么將其擴(kuò)展為連續(xù)的、平滑的變形過程,便是順理成章的進(jìn)化方向。順著這一邏輯,F(xiàn)lowRVS 最終確立了Video-to-Mask Flow的范式:直接以視頻為流的起點(diǎn),學(xué)習(xí)一個(gè)確定性的 ODE 軌跡,引導(dǎo)高維特征平滑地 “流淌” 為目標(biāo) Mask。這種范式完全解鎖了預(yù)訓(xùn)練模型的錢呢。最終 60.6 的 SOTA 成績,不僅是分?jǐn)?shù)的勝利,更是對(duì) “如何正確利用視頻信息” 這一物理本質(zhì)的深刻回歸。



      非對(duì)稱的流:當(dāng) “生成” 遇到 “判別”

      如果說將判別任務(wù)重構(gòu)為生成任務(wù)是 FlowRVS 的 “第一性原理”,那么如何處理這兩個(gè)過程在物理形態(tài)上的根本差異,則是決定模型生死的關(guān)鍵細(xì)節(jié)。讓我們把目光投向論文中的 Figure 3—— 這張圖揭示了一個(gè)被長期忽視的拓?fù)鋵W(xué)矛盾。標(biāo)準(zhǔn)的視頻生成(如 Sora 或 Wan)是一個(gè)語義的發(fā)散過程(Divergent Process)”。模型從一個(gè)單純的高斯噪聲出發(fā),就像宇宙大爆炸一樣,可以在潛空間中向任意方向擴(kuò)散,最終坍縮成無數(shù)種合理的視頻 —— 一只貓可以跑向左邊,也可以跑向右邊,只要符合物理規(guī)律即可。在這種發(fā)散場中,每一加噪步(Timestep)的重要性相對(duì)均衡,模型享受著 “探索” 的自由。



      然而,RVOS 這樣的判別式任務(wù)是一個(gè)收斂過程(Convergent Process)。輸入是蘊(yùn)含了億萬像素信息的復(fù)雜視頻,目標(biāo)卻是唯一確定的二值掩碼(Mask)。這就好比要將奔涌的江河強(qiáng)行收束進(jìn)原本的源頭。在這個(gè)過程中,t=0(流的起點(diǎn))擁有著至高無上的決定權(quán)。

      BBS:搶占 t=0 的 “決策權(quán)”

      在傳統(tǒng)的 Flow Matching 訓(xùn)練中,時(shí)間t 是均勻采樣的(Uniform Sampling)。這意味著模型會(huì)花費(fèi)同樣多的算力去學(xué)習(xí) t=0.9 時(shí)的微調(diào)(此時(shí) Mask 輪廓已經(jīng)基本成型),和 t=0.1 時(shí)的初始變形。但在 RVOS 的收斂漏斗中,這完全是資源錯(cuò)配。

      t=0 時(shí)刻,是視頻特征與文本指令發(fā)生劇烈化學(xué)反應(yīng)的 “奇點(diǎn)”。文本必須在這一瞬間,從視頻紛繁復(fù)雜的萬千物體中,精準(zhǔn)地 “抓住” 那只 “較小的猴子”。如果在這一步失之毫厘,后續(xù)的流場無論如何精細(xì)演化,都將是謬以千里的徒勞。

      FlowRVS 提出的 邊界偏置采樣(BBS) 正是基于這一物理直覺。它打破了均質(zhì)流的假設(shè),強(qiáng)行扭曲了訓(xùn)練的時(shí)間分布,讓模型在訓(xùn)練初期瘋狂地 “死磕” 起點(diǎn)(Oversampling start point)。實(shí)驗(yàn)數(shù)據(jù)證明了這一直覺的準(zhǔn)確性:僅僅引入 BBS,性能就暴漲了 10 個(gè)點(diǎn)。這說明,對(duì)于收斂任務(wù),“出發(fā)的方向” 遠(yuǎn)比 “路途的修飾” 重要。

      多步不如一步?判別任務(wù)的物理必然

      最后,我們不得不面對(duì)一個(gè)看似矛盾的現(xiàn)象:我們費(fèi)盡周折引入了 ODE 求解器和 Flow Matching,但在最終推理時(shí),竟然發(fā)現(xiàn)與傳統(tǒng)判別模型一樣的 “一步推理(1-step)” 效果反而優(yōu)于精細(xì)的多步求解。

      這并非 Flow Matching 的失敗,恰恰相反,這正是唯一 target 的判別式任務(wù)的物理必然。

      標(biāo)準(zhǔn)的視頻生成是一個(gè)隨文本指令的 “探索” 過程 —— 從一個(gè)噪聲出發(fā),終點(diǎn)是不確定的,模型需要在多步迭代中慢慢 “畫” 出細(xì)節(jié),每一步都充滿了隨機(jī)性與創(chuàng)造性。但 RVOS 截然不同,它是一個(gè)極致的收斂過程。無論輸入視頻多么復(fù)雜,對(duì)于給定的文本指令,目標(biāo)的 Mask 是唯一、固定且確定的(Deterministic)。

      在這種強(qiáng)約束下,F(xiàn)low Matching 訓(xùn)練出的向量場不再需要去 “探索” 路徑。因?yàn)榻K點(diǎn)已經(jīng)鎖死,模型學(xué)到的流場實(shí)際上就是一個(gè)直指終點(diǎn)的 “坍縮” 向量。當(dāng) BBS 策略確保了起點(diǎn)的精準(zhǔn)后,這條從高維視頻到低維 Mask 的軌跡變得筆直而確定。既然方向已經(jīng)如此清晰且唯一,我們自然不需要分多步去小心翼翼地逼近 —— 直接沿著切線邁出一步,就能精準(zhǔn) “撞線”。這正是生成式框架在判別任務(wù)中展現(xiàn)出的獨(dú)特魅力:用生成的手段訓(xùn)練,卻獲得了回歸的極速推理。

      看見 “熵減”:不僅僅是 SOTA

      當(dāng)我們將 FlowRVS 的性能量化時(shí),數(shù)字確實(shí)令人振奮:在最考驗(yàn)動(dòng)作理解的 MeViS 基準(zhǔn)上,F(xiàn)lowRVS 刷新了 SOTA 記錄(51.1 J&F),基于 WAN2.1 T2V 1.3B 的模型即便與那些使用了更大參數(shù)量的模型相比也毫不遜色。更令人驚訝的是它的零樣本(Zero-shot)能力 —— 在從未見過的 Ref-DAVIS17 數(shù)據(jù)集上,僅憑 T2V 底座的通用知識(shí),它就跑出了 73.3 的高分。但數(shù)字背后,F(xiàn)lowRVS 真正的魅力在于其處理視頻時(shí)的 “確定性”。既然我們將 RVOS 視為一個(gè)收斂過程,那么這種物理直覺在實(shí)際場景中究竟帶來了哪些代際優(yōu)勢(shì)?



      1. 穿越迷霧的 “物理直覺”

      傳統(tǒng)的判別式模型往往在逐幀檢測,一旦物體被遮擋或環(huán)境變得混沌(如煙霧、強(qiáng)光、陰影),“檢測框” 往往會(huì)發(fā)生抖動(dòng)甚至丟失。但在 FlowRVS 的視角里,視頻是一個(gè)整體的流場。即便在嚴(yán)重的遮擋(Occlusion)或非剛體形變下,分割 Mask 依然像膠水一樣緊緊吸附在物體表面。這說明模型并非在機(jī)械地匹配像素,而是利用 T2V 底座中蘊(yùn)含的物理規(guī)律,理解了物體的 “恒常性”。

      2. 極速推理的秘密:被拉直的時(shí)空

      得益于對(duì)視頻全局建模的特性,F(xiàn)lowRVS 在超長序列的處理上展現(xiàn)出了傳統(tǒng)模型難以企及的穩(wěn)定性。在長達(dá) 81 幀的超長測試中,F(xiàn)lowRVS 的推理效率幾乎沒有波動(dòng)。更重要的是,它徹底解決了長距離追蹤中的 “軌跡漂移” 難題,在更長幀數(shù)與視頻(200 幀,25s)下依舊能保持讓人驚訝的外推能力。

      這種穩(wěn)定性源自于 Flow Matching 訓(xùn)練出的流場具有極強(qiáng)的方向確定性,模型表現(xiàn)出了一種近乎 “直覺” 的預(yù)測力:即便物體的動(dòng)作超出了訓(xùn)練集的分布范疇(如 “翻跟頭的狗”,“打籃球的人”),它依然能憑借對(duì)物理運(yùn)動(dòng)軌跡的理解,順著流場的方向完成精準(zhǔn)分割 。這種從已知推向未知的泛化紅利,證明了 FlowRVS 捕捉到的是視頻運(yùn)動(dòng)的本質(zhì)規(guī)律,而非簡單的模式記憶。

      萬流歸宗:Flow Matching 的跨模態(tài)大一統(tǒng)

      FlowRVS 的成功,不僅是一個(gè) Vision 任務(wù)的勝利,更是對(duì) Flow Matching 理論普適性的又一次有力實(shí)證。

      無論是 Seedance 2 將音頻律動(dòng)映射為肢體動(dòng)作,還是 Sora 將文本映射為光影像素,亦或是 FlowRVS 將視頻像素映射為語義掩碼,其數(shù)學(xué)本質(zhì)都是一致的:利用向量場(Vector Field)構(gòu)建兩個(gè)概率分布之間的最優(yōu)傳輸(Optimal Transport)路徑。

      在 Flow Matching 的視角下,模態(tài)的壁壘被打破了。Input 可以是噪聲、是視頻、是音頻;Output 可以是圖像、是 Mask、是深度圖,甚至是 3D 動(dòng)作。 FlowRVS 證明了,只要我們能定義好源分布(Source)和目標(biāo)分布(Target),F(xiàn)low Matching 就能在兩者之間架起一座確定性的橋梁。

      這或許預(yù)示著視覺感知的未來:我們不再需要為檢測、分割、生成分別設(shè)計(jì)特異化的架構(gòu)(Encoder-Decoder, R-CNN...),所有的任務(wù),終將被統(tǒng)一在一個(gè)簡潔優(yōu)美的 ODE 方程之中。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      油價(jià)已逼近傷害經(jīng)濟(jì)的水平

      油價(jià)已逼近傷害經(jīng)濟(jì)的水平

      新浪財(cái)經(jīng)
      2026-03-10 00:53:10
      大藤沙月戰(zhàn)勝王曼昱,和教練揮拳慶祝,沒想到曼昱的反應(yīng)居然這樣

      大藤沙月戰(zhàn)勝王曼昱,和教練揮拳慶祝,沒想到曼昱的反應(yīng)居然這樣

      大嘴說臺(tái)球
      2026-03-10 15:48:49
      高市翻車了?日本打出藏了14年的“底牌”,外媒:根本攔不住了!

      高市翻車了?日本打出藏了14年的“底牌”,外媒:根本攔不住了!

      瘋狂小菠蘿
      2026-03-10 14:50:57
      王毅的話管用,沙特態(tài)度180度轉(zhuǎn)變!美國秒懂:中國是四兩撥千斤

      王毅的話管用,沙特態(tài)度180度轉(zhuǎn)變!美國秒懂:中國是四兩撥千斤

      東極妙嚴(yán)
      2026-03-08 15:19:42
      尼克松晚年坦言:他很后悔當(dāng)初訪華,只因毛主席識(shí)破的訪華計(jì)謀!

      尼克松晚年坦言:他很后悔當(dāng)初訪華,只因毛主席識(shí)破的訪華計(jì)謀!

      冰語歷史
      2026-03-07 06:23:39
      新奧迪A6L預(yù)售32.3萬起,比老款便宜10萬塊

      新奧迪A6L預(yù)售32.3萬起,比老款便宜10萬塊

      車動(dòng)態(tài)
      2026-03-10 18:17:16
      “第一軟飯男”去世,伺候美國老婦13年,繼承268億,死后錢給誰

      “第一軟飯男”去世,伺候美國老婦13年,繼承268億,死后錢給誰

      來科點(diǎn)譜
      2026-02-23 07:04:53
      行程有變,特朗普訪華規(guī)格縮水,中方對(duì)美說不,美國先遣隊(duì)已離京

      行程有變,特朗普訪華規(guī)格縮水,中方對(duì)美說不,美國先遣隊(duì)已離京

      科普100克克
      2026-03-10 16:14:17
      騰訊QClaw官網(wǎng)上線:可一鍵部署“龍蝦”,兼容QQ、微信

      騰訊QClaw官網(wǎng)上線:可一鍵部署“龍蝦”,兼容QQ、微信

      PChome電腦之家
      2026-03-09 14:37:39
      第6波反制,中方準(zhǔn)時(shí)索賠,巴政府收到罰單,兩家公司被中國約談

      第6波反制,中方準(zhǔn)時(shí)索賠,巴政府收到罰單,兩家公司被中國約談

      影孖看世界
      2026-03-10 16:56:04
      武漢小區(qū)流浪貓?jiān)饧w投毒,十幾條生命慘死,衛(wèi)健委警方介入調(diào)查

      武漢小區(qū)流浪貓?jiān)饧w投毒,十幾條生命慘死,衛(wèi)健委警方介入調(diào)查

      今朝牛馬
      2026-03-10 16:31:04
      伊朗軍艦在被擊沉前幾分鐘,一水兵致電父親,稱美軍兩次命令棄船

      伊朗軍艦在被擊沉前幾分鐘,一水兵致電父親,稱美軍兩次命令棄船

      看盡人間百態(tài)
      2026-03-09 06:54:40
      賭球+假球+出賣球隊(duì)!被NBA終身禁賽后,他用一場三雙宣告回歸

      賭球+假球+出賣球隊(duì)!被NBA終身禁賽后,他用一場三雙宣告回歸

      球童無忌
      2026-03-10 20:13:59
      碎三觀!一河南網(wǎng)友哭訴長期被妻子身體“冷暴力”,評(píng)論區(qū)炸鍋…

      碎三觀!一河南網(wǎng)友哭訴長期被妻子身體“冷暴力”,評(píng)論區(qū)炸鍋…

      火山詩話
      2026-03-09 05:29:27
      特朗普改口,原油高點(diǎn)大跌30%, 美股直線拉升

      特朗普改口,原油高點(diǎn)大跌30%, 美股直線拉升

      每日經(jīng)濟(jì)新聞
      2026-03-10 08:53:07
      iPhone這幾個(gè)設(shè)置別再開了!關(guān)掉瞬間絲滑,90%人都不知道

      iPhone這幾個(gè)設(shè)置別再開了!關(guān)掉瞬間絲滑,90%人都不知道

      小柱解說游戲
      2026-03-09 04:07:55
      890億美元買600架飛機(jī),特朗普訪華之前,中國要送美國一份大禮?

      890億美元買600架飛機(jī),特朗普訪華之前,中國要送美國一份大禮?

      策前論
      2026-03-09 23:04:19
      震驚!網(wǎng)傳廣東一車一日8次占應(yīng)急車道被扣48分,橫跨贛鄂湘三省

      震驚!網(wǎng)傳廣東一車一日8次占應(yīng)急車道被扣48分,橫跨贛鄂湘三省

      火山詩話
      2026-03-10 17:06:29
      48歲中科院美女博導(dǎo)在中東突然去世:死因披露,給兒子留言曝光

      48歲中科院美女博導(dǎo)在中東突然去世:死因披露,給兒子留言曝光

      博士觀察
      2026-03-09 16:22:08
      火箭最爛雙人組?防守效率191.7!難怪馬刺不要他,雷霆沒看走眼

      火箭最爛雙人組?防守效率191.7!難怪馬刺不要他,雷霆沒看走眼

      你的籃球頻道
      2026-03-10 14:26:18
      2026-03-10 20:39:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12467文章數(shù) 142580關(guān)注度
      往期回顧 全部

      科技要聞

      全民"養(yǎng)蝦"背后:大廠集體下場瘋狂賣Token

      頭條要聞

      特朗普開始找接班人 當(dāng)眾問捐款人怎么看萬斯和魯比奧

      頭條要聞

      特朗普開始找接班人 當(dāng)眾問捐款人怎么看萬斯和魯比奧

      體育要聞

      加蘭沒那么差,但鱸魚會(huì)用嗎?

      娛樂要聞

      肖戰(zhàn)首奪SMG視帝,孫儷四封視后創(chuàng)歷史

      財(cái)經(jīng)要聞

      “龍蝦補(bǔ)貼”密集出爐 最高1000萬!

      汽車要聞

      MG4有SUV衍生 上汽乘用車多款新車規(guī)劃曝光

      態(tài)度原創(chuàng)

      藝術(shù)
      旅游
      本地
      游戲
      軍事航空

      藝術(shù)要聞

      30000畝杏花開了,新疆的春天這么美!

      旅游要聞

      意外邂逅金甲財(cái)神殿的人間煙火,這里可不只一年兩度的“財(cái)神會(huì)”

      本地新聞

      云游中國|候鳥高顏值亮相!沉浸式打卡青海濕地

      PS5驚喜免費(fèi)暢玩老3A!《紅色沙漠》發(fā)售前先來這個(gè)

      軍事要聞

      剛說完戰(zhàn)爭很快結(jié)束 特朗普改口

      無障礙瀏覽 進(jìn)入關(guān)懷版