網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

VideoCoF推出創(chuàng)新視頻編輯技術(shù)，無需Mask實(shí)現(xiàn)高精度時(shí)序推理！

2025-12-23 15:20:39　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

本文第一作者是 UTS 博士生楊向鵬，主要研究方向是視頻生成和世界模型；第二作者是謝集，浙江大學(xué)的四年級(jí)本科生，主要研究方向統(tǒng)一多模態(tài)大模型和視頻生成。通訊作者是吳強(qiáng)教授，主要研究方向?yàn)橛?jì)算機(jī)視覺和模式識(shí)別。

現(xiàn)有的視頻編輯模型往往面臨「魚與熊掌不可兼得」的困境：專家模型精度高但依賴 Mask，通用模型雖免 Mask 但定位不準(zhǔn)。來自悉尼科技大學(xué)和浙江大學(xué)的研究團(tuán)隊(duì)提出了一種全新的視頻編輯框架 VideoCoF，受 LLM「思維鏈」啟發(fā)，通過「看 - 推理 - 編輯」的流程，僅需 50k 訓(xùn)練數(shù)據(jù)，就在多項(xiàng)任務(wù)上取得了 SOTA 效果，并完美支持長(zhǎng)視頻外推！

目前，模型、代碼均已開源，4 步編輯一條視頻，訓(xùn)練數(shù)據(jù) VideoCoF-50k 預(yù)計(jì)本周內(nèi)開源！

論文鏈接： https://arxiv.org/abs/2512.07469
項(xiàng)目主頁： https://videocof.github.io/
代碼 / 模型： https://github.com/knightyxp/VideoCoF
Demo鏈接: https://huggingface.co/spaces/XiangpengYang/VideoCoF

痛點(diǎn)：精度與通用的「兩難困境」

在 AIGC 時(shí)代，視頻編輯已經(jīng)有了長(zhǎng)足進(jìn)步，但仍存在一個(gè)明顯的痛點(diǎn)：

專家模型（Expert Models）：像醫(yī)生做手術(shù)一樣精準(zhǔn)，但往往需要用戶提供繁瑣的 Mask，因此阻礙了自動(dòng)化和統(tǒng)一化。
通用上下文學(xué)習(xí)模型（Unified In-Context Models）：雖然不需要 Mask，但在面對(duì)復(fù)雜的空間關(guān)系（比如「右邊的那個(gè)男孩」）時(shí)，往往「眼神不好」，定位不準(zhǔn)。

能不能既要高精度，又不要 Mask？

VideoCoF 給出了肯定的答案。

核心創(chuàng)新：像人一樣「先思考，后動(dòng)手」

VideoCoF 的核心靈感來自于大語言模型（LLM）中的思維鏈（Chain-of-Thought）。研究團(tuán)隊(duì)認(rèn)為，視頻生成模型也應(yīng)該具備類似的推理能力。

為此，他們提出了Chain of Frames (CoF) 機(jī)制，將視頻編輯過程重構(gòu)為三個(gè)階段：

Seeing（看）：輸入原始視頻。
Reasoning（推理）：模型先預(yù)測(cè)出「推理幀」（Reasoning Frame），即用高亮區(qū)域明確指出「哪里需要編輯」。
Editing（編輯）：基于推理結(jié)果，精準(zhǔn)生成目標(biāo)視頻。

這種顯式的推理過程，讓模型學(xué)會(huì)了主動(dòng)建立編輯指令與畫面區(qū)域的對(duì)應(yīng)關(guān)系，從而實(shí)現(xiàn)了無需 Mask 的高精度編輯。

時(shí)序 RoPE 對(duì)齊，實(shí)現(xiàn)長(zhǎng)視頻外推

除了推理能力，視頻編輯的另一個(gè)難題是長(zhǎng)度限制。很多模型只能編輯短視頻，一旦視頻變長(zhǎng)，動(dòng)作就會(huì)變形或崩壞。

VideoCoF 引入了獨(dú)特的RoPE（旋轉(zhuǎn)位置編碼）對(duì)齊策略：

巧妙的對(duì)齊了原視頻 [1,F] 和編輯視頻 [1,F] 時(shí)間索引，同時(shí)將推理幀的時(shí)間索引設(shè)置為 0，避免了推理幀與編輯幀的索引沖突；
實(shí)現(xiàn)了「訓(xùn)練短視頻（33 幀），推理長(zhǎng)視頻（140 + 幀）」的能力。

這意味著，你用極小的成本訓(xùn)練出的模型，可以在推理時(shí)處理遠(yuǎn)超訓(xùn)練長(zhǎng)度的視頻，且保持動(dòng)作流暢、無紋理突變和偽影。

實(shí)驗(yàn)驗(yàn)證：50k 數(shù)據(jù)「四兩撥千斤」，性能全面 SOTA

除了架構(gòu)設(shè)計(jì)的精妙，VideoCoF 最令人印象深刻的當(dāng)屬其驚人的數(shù)據(jù)效率。

為了驗(yàn)證效果，研究團(tuán)隊(duì)構(gòu)建了一個(gè)包含添加、刪除、替換及風(fēng)格遷移的高質(zhì)量實(shí)例級(jí)數(shù)據(jù)集，并在VideoCoF-Bench上進(jìn)行了嚴(yán)格測(cè)評(píng)。

1.以小博大：50k vs 100 萬

VideoCoF：僅使用 50k (5 萬) 視頻對(duì)進(jìn)行微調(diào)。
基線模型 (ICVE)：依賴龐大的 100 萬視頻預(yù)訓(xùn)練 + 15 萬微調(diào)數(shù)據(jù)。

盡管訓(xùn)練數(shù)據(jù)量?jī)H為基線的1/20，VideoCoF 卻實(shí)現(xiàn)了性能的反超：

指令遵循 (Instruct Follow)：得分高達(dá)8.97(滿分 10)，顯著優(yōu)于 ICVE (7.79) 和 VACE (7.47)。這意味著模型能更精準(zhǔn)地 “聽懂人話”，不會(huì)漏掉指令細(xì)節(jié)。
成功率 (Success Ratio)：達(dá)到了76.36%，大幅領(lǐng)先于商業(yè)模型 Lucy Edit (29.64%) 和 ICVE (57.76%)。

2.為什么「推理」如此重要？（消融實(shí)驗(yàn)）

VideoCoF 的核心在于「先推理，再編輯」。那么，如果去掉推理幀，直接讓模型硬算，效果會(huì)怎樣？

研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)（Ablation Study）。結(jié)果顯示，相比于沒有推理環(huán)節(jié)的Naive Temporal in Context基線：

引入CoF (Chain of Frames)后，指令遵循能力提升了近 1 分，成功率提升了 10% 以上。
引入RoPE 索引解耦后，長(zhǎng)視頻外推的保真度（Preservation）和時(shí)序一致性（CLIP-F）均有顯著提升。

這有力地證明了：顯式的時(shí)序推理（See-Reason-Edit）不僅是錦上添花，更是實(shí)現(xiàn)高精度視頻編輯的關(guān)鍵。

3.推理幀長(zhǎng)什么樣？「五彩斑斕的灰」才是最優(yōu)解

除了「要不要推理」，VideoCoF 團(tuán)隊(duì)還深入研究了「推理幀到底該長(zhǎng)什么樣」，是像分割模型那樣用黑白掩碼？還是像圈圖那樣用紅圈？

在 Table 3 的消融實(shí)驗(yàn)中，團(tuán)隊(duì)對(duì)比了三種形式：

純黑背景 (Black BG)：效果最差，因?yàn)閿U(kuò)散模型往往對(duì)極端的純黑 / 純白像素不敏感。
紅色高亮 (Red Highlight)：效果中規(guī)中矩。
灰色高亮 (Gray Highlight)：表現(xiàn)優(yōu)于紅色。

最終殺器：漸變灰 (Progressive Gray) 。VideoCoF 發(fā)現(xiàn)，推理幀不應(yīng)只是一個(gè)靜態(tài)的「定位圖」，而應(yīng)充當(dāng)從「源視頻」到「編輯視頻」的時(shí)序過渡橋梁。

因此，團(tuán)隊(duì)設(shè)計(jì)了一種透明度漸變（如 0% → 25% → 50% → 75%）的灰色掩碼。這種設(shè)計(jì)不僅明確了「哪里要改」，更給模型一種「變化正在發(fā)生」的動(dòng)態(tài)暗示。

實(shí)驗(yàn)結(jié)果（Table 3）顯示，相比于靜態(tài)的紅 / 黑掩碼，漸變灰設(shè)計(jì)直接將指令遵循得分（Instruct Follow）從 7.5/7.8 拉升到了 8.97，證明了細(xì)節(jié)設(shè)計(jì)對(duì)模型性能的巨大影響。

效果展示：萬物皆可改

VideoCoF 展現(xiàn)了強(qiáng)大的通用編輯能力，無論是增刪改查，還是局部風(fēng)格遷移，都能精準(zhǔn)搞定：

多實(shí)例移除 (Multi-Instance Removal)：「移除左邊穿米色褲子的年輕女性」 —— 指哪打哪，背景自動(dòng)補(bǔ)全，絕不誤傷旁人；
物體添加 (Object Addition)：「在草地上憑空加一只白色的薩摩耶」 —— 從無到有，光影透視完美融合，仿佛它原本就在那里；
多實(shí)例物體替換：無論是給人換一件牛仔外套，還是更換性別年齡，從老頭換成女孩，可以輕松完成；
局部風(fēng)格遷移：給兔子換個(gè)「銅色皮膚」，把路牌從「School」改成「Hospital」，細(xì)節(jié)紋理都能完美保留。

https://mp.weixin.qq.com/s/e0X_0oF46oYJNqyAI3qetQ?click_id=11

總結(jié)

VideoCoF 是一項(xiàng)通過「時(shí)序推理」統(tǒng)一視頻編輯任務(wù)的開創(chuàng)性工作。它不僅解決了無 Mask 編輯的精度問題，還通過高效的數(shù)據(jù)利用（僅 50k 樣本）和巧妙的 RoPE 設(shè)計(jì)，實(shí)現(xiàn)了低成本、高性能、長(zhǎng)視頻支持的視頻編輯。對(duì)于社區(qū)而言，VideoCoF 證明了 Better Reasoning > More Data，為未來的視頻生成與編輯研究提供了新的思路。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.