<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      VideoCoF推出創(chuàng)新視頻編輯技術(shù),無需Mask實(shí)現(xiàn)高精度時(shí)序推理!

      0
      分享至



      本文第一作者是 UTS 博士生楊向鵬,主要研究方向是視頻生成和世界模型;第二作者是謝集,浙江大學(xué)的四年級(jí)本科生,主要研究方向統(tǒng)一多模態(tài)大模型和視頻生成。通訊作者是吳強(qiáng)教授,主要研究方向?yàn)橛?jì)算機(jī)視覺和模式識(shí)別。

      現(xiàn)有的視頻編輯模型往往面臨「魚與熊掌不可兼得」的困境:專家模型精度高但依賴 Mask,通用模型雖免 Mask 但定位不準(zhǔn)。來自悉尼科技大學(xué)和浙江大學(xué)的研究團(tuán)隊(duì)提出了一種全新的視頻編輯框架 VideoCoF,受 LLM「思維鏈」啟發(fā),通過「看 - 推理 - 編輯」的流程,僅需 50k 訓(xùn)練數(shù)據(jù),就在多項(xiàng)任務(wù)上取得了 SOTA 效果,并完美支持長(zhǎng)視頻外推!

      目前,模型、代碼均已開源,4 步編輯一條視頻,訓(xùn)練數(shù)據(jù) VideoCoF-50k 預(yù)計(jì)本周內(nèi)開源!



      • 論文鏈接: https://arxiv.org/abs/2512.07469
      • 項(xiàng)目主頁: https://videocof.github.io/
      • 代碼 / 模型: https://github.com/knightyxp/VideoCoF
      • Demo鏈接: https://huggingface.co/spaces/XiangpengYang/VideoCoF

      痛點(diǎn):精度與通用的「兩難困境」

      在 AIGC 時(shí)代,視頻編輯已經(jīng)有了長(zhǎng)足進(jìn)步,但仍存在一個(gè)明顯的痛點(diǎn):

      • 專家模型(Expert Models):像醫(yī)生做手術(shù)一樣精準(zhǔn),但往往需要用戶提供繁瑣的 Mask,因此阻礙了自動(dòng)化和統(tǒng)一化。
      • 通用上下文學(xué)習(xí)模型(Unified In-Context Models):雖然不需要 Mask,但在面對(duì)復(fù)雜的空間關(guān)系(比如「右邊的那個(gè)男孩」)時(shí),往往「眼神不好」,定位不準(zhǔn)。

      能不能既要高精度,又不要 Mask?

      VideoCoF 給出了肯定的答案。

      核心創(chuàng)新:像人一樣「先思考,后動(dòng)手」

      VideoCoF 的核心靈感來自于大語言模型(LLM)中的思維鏈(Chain-of-Thought)。研究團(tuán)隊(duì)認(rèn)為,視頻生成模型也應(yīng)該具備類似的推理能力。

      為此,他們提出了Chain of Frames (CoF) 機(jī)制,將視頻編輯過程重構(gòu)為三個(gè)階段:

      1. Seeing(看):輸入原始視頻。
      2. Reasoning(推理):模型先預(yù)測(cè)出「推理幀」(Reasoning Frame),即用高亮區(qū)域明確指出「哪里需要編輯」。
      3. Editing(編輯):基于推理結(jié)果,精準(zhǔn)生成目標(biāo)視頻。



      這種顯式的推理過程,讓模型學(xué)會(huì)了主動(dòng)建立編輯指令與畫面區(qū)域的對(duì)應(yīng)關(guān)系,從而實(shí)現(xiàn)了無需 Mask 的高精度編輯。

      時(shí)序 RoPE 對(duì)齊,實(shí)現(xiàn)長(zhǎng)視頻外推



      除了推理能力,視頻編輯的另一個(gè)難題是長(zhǎng)度限制。很多模型只能編輯短視頻,一旦視頻變長(zhǎng),動(dòng)作就會(huì)變形或崩壞。

      VideoCoF 引入了獨(dú)特的RoPE(旋轉(zhuǎn)位置編碼)對(duì)齊策略:

      • 巧妙的對(duì)齊了原視頻 [1,F] 和編輯視頻 [1,F] 時(shí)間索引,同時(shí)將推理幀的時(shí)間索引設(shè)置為 0,避免了推理幀與編輯幀的索引沖突;
      • 實(shí)現(xiàn)了「訓(xùn)練短視頻(33 幀),推理長(zhǎng)視頻(140 + 幀)」 的能力。

      這意味著,你用極小的成本訓(xùn)練出的模型,可以在推理時(shí)處理遠(yuǎn)超訓(xùn)練長(zhǎng)度的視頻,且保持動(dòng)作流暢、無紋理突變和偽影。



      實(shí)驗(yàn)驗(yàn)證:50k 數(shù)據(jù)「四兩撥千斤」,性能全面 SOTA

      除了架構(gòu)設(shè)計(jì)的精妙,VideoCoF 最令人印象深刻的當(dāng)屬其驚人的數(shù)據(jù)效率。

      為了驗(yàn)證效果,研究團(tuán)隊(duì)構(gòu)建了一個(gè)包含添加、刪除、替換及風(fēng)格遷移的高質(zhì)量實(shí)例級(jí)數(shù)據(jù)集,并在VideoCoF-Bench上進(jìn)行了嚴(yán)格測(cè)評(píng)。

      1.以小博大:50k vs 100 萬

      • VideoCoF:僅使用 50k (5 萬) 視頻對(duì)進(jìn)行微調(diào)。
      • 基線模型 (ICVE):依賴龐大的 100 萬 視頻預(yù)訓(xùn)練 + 15 萬 微調(diào)數(shù)據(jù)。

      盡管訓(xùn)練數(shù)據(jù)量?jī)H為基線的1/20,VideoCoF 卻實(shí)現(xiàn)了性能的反超:

      • 指令遵循 (Instruct Follow):得分高達(dá)8.97(滿分 10),顯著優(yōu)于 ICVE (7.79) 和 VACE (7.47)。這意味著模型能更精準(zhǔn)地 “聽懂人話”,不會(huì)漏掉指令細(xì)節(jié)。
      • 成功率 (Success Ratio):達(dá)到了76.36%,大幅領(lǐng)先于商業(yè)模型 Lucy Edit (29.64%) 和 ICVE (57.76%)。



      2.為什么「推理」如此重要?(消融實(shí)驗(yàn))

      VideoCoF 的核心在于「先推理,再編輯」。那么,如果去掉推理幀,直接讓模型硬算,效果會(huì)怎樣?

      研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)(Ablation Study)。結(jié)果顯示,相比于沒有推理環(huán)節(jié)的Naive Temporal in Context基線:

      • 引入CoF (Chain of Frames)后,指令遵循能力提升了近 1 分,成功率提升了 10% 以上。
      • 引入RoPE 索引解耦后,長(zhǎng)視頻外推的保真度(Preservation)和時(shí)序一致性(CLIP-F)均有顯著提升。

      這有力地證明了:顯式的時(shí)序推理(See-Reason-Edit)不僅是錦上添花,更是實(shí)現(xiàn)高精度視頻編輯的關(guān)鍵。

      3.推理幀長(zhǎng)什么樣?「五彩斑斕的灰」才是最優(yōu)解

      除了「要不要推理」,VideoCoF 團(tuán)隊(duì)還深入研究了「推理幀到底該長(zhǎng)什么樣」,是像分割模型那樣用黑白掩碼?還是像圈圖那樣用紅圈?

      在 Table 3 的消融實(shí)驗(yàn)中,團(tuán)隊(duì)對(duì)比了三種形式:

      • 純黑背景 (Black BG):效果最差,因?yàn)閿U(kuò)散模型往往對(duì)極端的純黑 / 純白像素不敏感。
      • 紅色高亮 (Red Highlight):效果中規(guī)中矩。
      • 灰色高亮 (Gray Highlight):表現(xiàn)優(yōu)于紅色。

      最終殺器:漸變灰 (Progressive Gray) 。VideoCoF 發(fā)現(xiàn),推理幀不應(yīng)只是一個(gè)靜態(tài)的「定位圖」,而應(yīng)充當(dāng)從「源視頻」到「編輯視頻」的時(shí)序過渡橋梁。

      因此,團(tuán)隊(duì)設(shè)計(jì)了一種透明度漸變(如 0% → 25% → 50% → 75%)的灰色掩碼。這種設(shè)計(jì)不僅明確了「哪里要改」,更給模型一種「變化正在發(fā)生」的動(dòng)態(tài)暗示。

      實(shí)驗(yàn)結(jié)果(Table 3)顯示,相比于靜態(tài)的紅 / 黑掩碼,漸變灰設(shè)計(jì)直接將指令遵循得分(Instruct Follow)從 7.5/7.8 拉升到了 8.97,證明了細(xì)節(jié)設(shè)計(jì)對(duì)模型性能的巨大影響。





      效果展示:萬物皆可改

      VideoCoF 展現(xiàn)了強(qiáng)大的通用編輯能力,無論是增刪改查,還是局部風(fēng)格遷移,都能精準(zhǔn)搞定:

      1. 多實(shí)例移除 (Multi-Instance Removal):「移除左邊穿米色褲子的年輕女性」 —— 指哪打哪,背景自動(dòng)補(bǔ)全,絕不誤傷旁人;
      2. 物體添加 (Object Addition):「在草地上憑空加一只白色的薩摩耶」 —— 從無到有,光影透視完美融合,仿佛它原本就在那里;
      3. 多實(shí)例物體替換:無論是給人換一件牛仔外套,還是更換性別年齡,從老頭換成女孩, 可以輕松完成;
      4. 局部風(fēng)格遷移:給兔子換個(gè)「銅色皮膚」,把路牌從「School」改成「Hospital」,細(xì)節(jié)紋理都能完美保留。


      https://mp.weixin.qq.com/s/e0X_0oF46oYJNqyAI3qetQ?click_id=11

      總結(jié)

      VideoCoF 是一項(xiàng)通過「時(shí)序推理」統(tǒng)一視頻編輯任務(wù)的開創(chuàng)性工作。它不僅解決了無 Mask 編輯的精度問題,還通過高效的數(shù)據(jù)利用(僅 50k 樣本)和巧妙的 RoPE 設(shè)計(jì),實(shí)現(xiàn)了低成本、高性能、長(zhǎng)視頻支持的視頻編輯。對(duì)于社區(qū)而言,VideoCoF 證明了 Better Reasoning > More Data,為未來的視頻生成與編輯研究提供了新的思路。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      為啥菜薹能成為湖北人冬天最愛的蔬菜“頂流”呢?菜薹好在哪?

      為啥菜薹能成為湖北人冬天最愛的蔬菜“頂流”呢?菜薹好在哪?

      向航說
      2025-12-27 00:05:02
      70歲大媽坦言:到了晚年才明白,最親的人根本不是老伴

      70歲大媽坦言:到了晚年才明白,最親的人根本不是老伴

      惟來
      2025-12-25 14:37:37
      劉興亮 | 極簡(jiǎn)算力發(fā)展史

      劉興亮 | 極簡(jiǎn)算力發(fā)展史

      劉興亮
      2025-12-25 09:37:39
      成功了!彈劾提案通過,賴清德或?qū)⑾屡_(tái),兩岸統(tǒng)一最佳窗口出現(xiàn)?

      成功了!彈劾提案通過,賴清德或?qū)⑾屡_(tái),兩岸統(tǒng)一最佳窗口出現(xiàn)?

      朔方瞭望
      2025-12-26 18:32:40
      一件“不會(huì)再發(fā)生”的事,又站到了普通人的門口!

      一件“不會(huì)再發(fā)生”的事,又站到了普通人的門口!

      走讀新生
      2025-11-30 18:50:02
      被指陰陽打工人,周大福的“金牌牛馬”吊墜火了!網(wǎng)友:老板如送我我也沒意見

      被指陰陽打工人,周大福的“金牌牛馬”吊墜火了!網(wǎng)友:老板如送我我也沒意見

      上觀新聞
      2025-12-26 17:32:08
      商業(yè)航天+人形機(jī)器人:雙賽道共振下的6家深度布局公司

      商業(yè)航天+人形機(jī)器人:雙賽道共振下的6家深度布局公司

      風(fēng)風(fēng)順
      2025-12-27 03:05:03
      1955年授銜主席看到名單中有個(gè)熟悉的名字,大筆一揮:他不是少將

      1955年授銜主席看到名單中有個(gè)熟悉的名字,大筆一揮:他不是少將

      宅家伍菇?jīng)?/span>
      2025-12-07 10:00:04
      2020年,孫小果被執(zhí)行死刑,母親為救他搭進(jìn)去20年刑期,圖什么?

      2020年,孫小果被執(zhí)行死刑,母親為救他搭進(jìn)去20年刑期,圖什么?

      詩意世界
      2025-12-16 11:00:03
      王小華賬號(hào)被封,女兒證實(shí)此事,父親謝廣坤,被推上風(fēng)口浪尖

      王小華賬號(hào)被封,女兒證實(shí)此事,父親謝廣坤,被推上風(fēng)口浪尖

      韓馳
      2025-12-26 22:36:15
      超市里靚麗的風(fēng)景線!!!

      超市里靚麗的風(fēng)景線!!!

      風(fēng)子說個(gè)球
      2025-12-22 15:09:16
      中東再添亂,黃金牛市遠(yuǎn)未結(jié)束!

      中東再添亂,黃金牛市遠(yuǎn)未結(jié)束!

      金投網(wǎng)
      2025-12-26 17:30:32
      余華:人到中年崩潰的真相,不是貧窮,而是你從未為自己活過

      余華:人到中年崩潰的真相,不是貧窮,而是你從未為自己活過

      杏花煙雨江南的碧園
      2025-12-02 14:15:02
      約基奇56+16+15創(chuàng)6大歷史第1神跡,還刷爆紀(jì)錄!愛德華茲被驅(qū)逐

      約基奇56+16+15創(chuàng)6大歷史第1神跡,還刷爆紀(jì)錄!愛德華茲被驅(qū)逐

      一將籃球
      2025-12-26 17:11:11
      姜昆在加州唱紅歌,以別墅泳池作違和伴奏,這回網(wǎng)友不乖紛紛怒斥

      姜昆在加州唱紅歌,以別墅泳池作違和伴奏,這回網(wǎng)友不乖紛紛怒斥

      明話直說
      2025-12-26 09:04:56
      范志毅:國(guó)足2038年有希望

      范志毅:國(guó)足2038年有希望

      新京報(bào)政事兒
      2025-12-26 11:53:52
      海歸光環(huán)徹底消失?49.5萬留學(xué)生涌回國(guó),殘酷真相:企業(yè)只認(rèn)這個(gè)

      海歸光環(huán)徹底消失?49.5萬留學(xué)生涌回國(guó),殘酷真相:企業(yè)只認(rèn)這個(gè)

      夢(mèng)史
      2025-12-23 10:18:20
      比恒大還慘!中國(guó)第二大民企倒了,負(fù)債7500億,創(chuàng)始人被帶走

      比恒大還慘!中國(guó)第二大民企倒了,負(fù)債7500億,創(chuàng)始人被帶走

      芳芳?xì)v史燴
      2025-12-25 20:32:52
      邱彪:我們有針對(duì)徐杰做出重點(diǎn)防守,但最終的結(jié)果顯而易見

      邱彪:我們有針對(duì)徐杰做出重點(diǎn)防守,但最終的結(jié)果顯而易見

      狼叔評(píng)論
      2025-12-26 22:54:02
      吳石案漏網(wǎng)女傭身份不凡,竟是頂級(jí)地下交通員守初心

      吳石案漏網(wǎng)女傭身份不凡,竟是頂級(jí)地下交通員守初心

      嘮叨說歷史
      2025-12-23 20:09:41
      2025-12-27 05:43:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12000文章數(shù) 142521關(guān)注度
      往期回顧 全部

      科技要聞

      收割3000億!拼多多"土辦法"熬死所有巨頭

      頭條要聞

      老人婚宴上被提醒孫女非親生 做鑒定后忍3年忍不了了

      頭條要聞

      老人婚宴上被提醒孫女非親生 做鑒定后忍3年忍不了了

      體育要聞

      開翻航母之后,他決定親手造一艘航母

      娛樂要聞

      王傳君生病后近照變化大,面部浮腫

      財(cái)經(jīng)要聞

      投資巨鱷羅杰斯最新持倉:只留四種資產(chǎn)

      汽車要聞

      兩大CEO試駕 華為乾崑*啟境開啟首款獵裝轎跑路測(cè)

      態(tài)度原創(chuàng)

      家居
      手機(jī)
      藝術(shù)
      本地
      公開課

      家居要聞

      格調(diào)時(shí)尚 智慧品質(zhì)居所

      手機(jī)要聞

      vivo藍(lán)河:以開源和賽事,撬動(dòng)AGI時(shí)代底層技術(shù)生態(tài)

      藝術(shù)要聞

      閆平 2025油畫作品欣賞

      本地新聞

      云游安徽|踏訪池州,讀懂山水間的萬年史書

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 亚洲色大成网站www永久男同| 亚洲成人精品无码| 亚洲第一福利网站在线观看| 精品人妻av区乱码| 亚洲一卡二卡| 超碰资源总站| 99热这里只有精品最新地址获取| 中文字幕亚洲天堂| 内射大片| 饥渴的熟妇张开腿呻吟视频| 欧洲熟妇色xxxx欧美老妇免费 | 又色又爽又黄的视频网站| 天堂人妻熟妇一区二区不卡| 正安县| 亚洲AV自拍| 日本中文一区二区三区亚洲| 色吊丝中文字幕| 97爱色| 精品精品亚洲高清a毛片| 99久热re在线精品99 6热视频| 亚洲精选成人| 欧美老熟妇色XXXXX性| 人人人澡人人肉久久精品| 精品久久人妻av中文字幕| 国产在线精品一区二区中文| 精品人妻久久| 69精品人人人| 欧洲码亚洲码的区别入口| 国模欢欢炮交啪啪150| 国产九九免费视频| 性xxxxbbbb| 91亚洲色图| 日本高清视频wwww色| 两性午夜刺激性视频| 亚洲精品1| 镇远县| 亚洲男人在线| 青青AV| 尤物av无码色av无码| 久久精品国产中国久久| 九区视频免费观看|