<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      1B模型當多鏡頭導演?大連理工&快手可靈開源力作MultiShotMaster

      0
      分享至



      該論文由大連理工大學、快手可靈團隊、香港中文大學聯合完成,第一作者王清和是大連理工大學在讀三年級博士,研究方向為視頻生成,師從盧湖川、賈旭教授,目前在快手可靈團隊實習。個人主頁:https://qinghew.github.io/

      近期,可靈 3.0、Seedance 2.0 等產品的多鏡頭敘事能力相繼爆火,可支持一次生成多個導演級鏡頭,標志著視頻生成領域已經從傳統的單鏡頭生成邁入了多鏡頭視頻生成的時代。然而,對于預算有限的開發者,10B 參數量以上的大模型開發成本較高,100B 以上的大模型更令人望而卻步

      近期,大連理工與快手可靈團隊推出了MultiShotMaster——一個高度可控的多鏡頭視頻生成框架,該論文向研究社區展示了即使在 1B 左右的小參數量級模型上,也可以實現導演級的鏡頭調度和連貫敘事,且支持多圖參考、主體運動控制。



      目前,該論文已錄用至CVPR 2026,基于 Wan 1.3B 和 14B 的多鏡頭模型的訓練和推理代碼已開源:

      • 項目主頁:https://qinghew.github.io/MultiShotMaster/
      • 代碼鏈接:https://github.com/KlingAIResearch/MultiShotMaster
      • 論文鏈接:https://arxiv.org/abs/2512.03041

      開源版 MultiShotMaster 能力展示

      MultiShotMaster-14B 720p 效果



      MultiShotMaster-1.3B 480p 效果

      值得一提的是,開源版 MultiShotMaster 斬獲了AAAI CVM Workshop 競賽冠軍。該競賽由北大等高校舉辦、華為贊助,重點考核世界知識一致性、相機移動一致性、跨鏡頭 ID 一致性三個層面,充分印證了該模型在多鏡頭生成與連貫敘事方面的卓越性能。



      MultiShotMaster 框架

      “單鏡頭” 到 “多鏡頭” 的進化

      MultiShotMaster 首先調整了傳統的單鏡頭文生視頻模型架構,使之能夠生成多鏡頭視頻。

      具體而言,考慮到鏡頭間的內容突變,每個鏡頭需單獨通過 3DVAE 編碼,然后在時序上級聯起來,并在 Temporal Attention 處融合。由于鏡頭之間不僅存在內容突變,還需保證敘事的先后順序,作者提出多鏡頭敘事 RoPE,即基于原始的 3D RoPE 在鏡頭切換處施加相位偏移:



      這顯式地標記了鏡頭邊界且維持了原鏡頭間的敘事順序,讓模型能夠精準識別鏡頭邊界,從而支持用戶自由設定鏡頭的數量和時長。此外,構建了總分式提示詞結構,全局提示詞描述角色外觀、環境及風格,鏡頭級提示詞描述角色交互、場景布局、相機運鏡。在鏡頭級 Cross Attention 中,每個鏡頭的視頻只與全局提示詞、對應鏡頭的提示詞交互,從而防止跨鏡頭信息泄露。



      時空位置感知的參考注入

      用戶通常期望視頻生成模型具有更多的可控性,例如使用參考圖、控制主體運動布局等能力。為此,作者用 VAE 編碼參考圖像,使之與視頻 tokens 落入同一特征空間。

      考慮到 3D-RoPE 會使時空距離更近的 tokens 在 Attention 中增強交互,作者設計了時空位置感知的 RoPE,將指定時空區域的 RoPE 重采樣為更細粒度的 RoPE 分配給參考 tokens。



      在時序注意力中,干凈的參考 tokens 會將視覺信息傳遞給噪聲視頻 tokens 以實現參考圖像(主體/背景)指定時空位置的注入。當用戶期望控制同一主體的運動軌跡時,可以通過復制多次同一角色的 Token 并分配不同的時空 RoPE。

      此外,為了管理上下文信息流,防止不必要的 token 交互,作者設計了多鏡頭-多主體 Attention Mask,允許跨鏡頭的視頻 tokens 交互,限制每個鏡頭的視頻 tokens 僅能與視頻內的參考 tokens 交互。

      值得注意的是,MultiShotMaster 沒有引入外部參數,而是利用、改進視頻生成模型原有的 3D-RoPE,從而實現了可控的多鏡頭視頻生成,支持文本驅動的鏡頭間一致性、可靈活配置的鏡頭數量和時長、運動可控的主體定制化、背景可定制的場景一致性。這一多功能框架為多樣化多鏡頭視頻內容創作提供了新的可能性,使用戶能夠打造高度定制化的視頻敘事。

      MultiShotMaster - 實驗版 1B 模型(384×672)效果

      MultiShotMaster 訓練數據構建流程



      數據構建流程:

      1. 采用鏡頭切換檢測模型 TransNet V2 將長視頻裁切成短片段,使用場景分割模型 SceneSeg 將同一場景內的片段聚合到一起,然后從中采樣多鏡頭視頻。
      2. 引入總分式提示詞結構,使用 Gemini-2.5-Flash 生成全局描述和每個鏡頭的描述。
      3. 整合 YOLOv11、ByteTrack 和 SAM 來檢測、追蹤和分割主體圖像,然后利用 Gemini-2.5-Flash 根據主體外觀合并跨鏡頭的跟蹤結果。
      4. 使用 OmniEraser 獲得干凈的背景參考圖。

      實驗結果

      除了對比現有的 SOTA 多鏡頭視頻生成模型之外,由于目前沒有支持參考圖輸入的多鏡頭視頻生成模型,作者對比了支持參考圖輸入的單鏡頭模型 Phantom、VACE,拼接他們逐個生成的鏡頭用于比較。

      可以看出,在定量和定性的比較中,MultiShotMaster 在鏡頭間一致性、切鏡準確性、敘事連貫性、參考圖一致性上都展現出了卓越的性能

      定性實驗結果:



      定量實驗結果:



      總結

      MultiShotMaster 通過對 RoPE 的創新性改進,實現了高度可控的多鏡頭視頻生成。其引入的多鏡頭敘事 RoPE 與時空位置感知 RoPE,在無需引入額外參數的情況下,實現了對鏡頭邊界、角色一致性及運動軌跡的精細化操控。在僅約 1B 參數的模型規模下即可展現出了卓越的敘事連貫性與跨鏡頭一致性,驗證了其實現導演級控制的巨大潛力。

      同時,自動化的多鏡頭數據標注流程及開源模型也將為社區的研究提供強力支持,有望推動 AI 視頻創作進入一個敘事更連貫、表達更自由的新階段。

      更多細節請參閱原論文。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      房價暴跌、職場內卷、人口下滑:所有亂象,皆為同一根源

      房價暴跌、職場內卷、人口下滑:所有亂象,皆為同一根源

      維納斯的眼淚
      2026-03-05 18:27:10
      全球頂級龍頭,股息率高達12%,社保基金重倉的36股票名單

      全球頂級龍頭,股息率高達12%,社保基金重倉的36股票名單

      鵬哥投研
      2026-03-06 15:15:11
      民用北斗被干擾了?中國船員稱所有系統全都失效,只能用傳統手段

      民用北斗被干擾了?中國船員稱所有系統全都失效,只能用傳統手段

      南權先生
      2026-03-05 15:22:09
      伊朗玫瑰宮遭炸!圓明園之痛重現?英美“文明”面具下的文物之殤

      伊朗玫瑰宮遭炸!圓明園之痛重現?英美“文明”面具下的文物之殤

      眼界看視野
      2026-03-05 09:07:21
      快扔掉!戴一天,輻射量相當于拍117次胸片

      快扔掉!戴一天,輻射量相當于拍117次胸片

      FM93浙江交通之聲
      2025-10-28 00:01:43
      著名相聲演員離世

      著名相聲演員離世

      豆哥記錄
      2026-01-07 11:15:43
      美媒發現不對勁,難怪伊朗導彈這么準,有人用衛星,提供美軍定位

      美媒發現不對勁,難怪伊朗導彈這么準,有人用衛星,提供美軍定位

      健身狂人
      2026-03-07 00:14:06
      西貝大規模關店后 員工工資延遲發放 內部通知被疑催促員工主動離職

      西貝大規模關店后 員工工資延遲發放 內部通知被疑催促員工主動離職

      快科技
      2026-03-06 13:30:06
      暴跌88.6%!收割中產的萬元手表賣不動了?網友:不如華為

      暴跌88.6%!收割中產的萬元手表賣不動了?網友:不如華為

      有范又有料
      2026-03-04 17:39:10
      F1澳洲站首日5大焦點:阿斯頓馬丁陷入危機、法拉利未能延續優勢

      F1澳洲站首日5大焦點:阿斯頓馬丁陷入危機、法拉利未能延續優勢

      體育妞世界
      2026-03-07 00:50:03
      戰爭升級:一噸彈頭砸向特拉維夫,白宮電話打爆,日本蠢蠢欲動

      戰爭升級:一噸彈頭砸向特拉維夫,白宮電話打爆,日本蠢蠢欲動

      井普椿的獨白
      2026-03-06 14:31:46
      菜比肉貴,攤比人多!南寧最貴菜市慘遭「拋棄」

      菜比肉貴,攤比人多!南寧最貴菜市慘遭「拋棄」

      童童聊娛樂啊
      2026-03-06 20:23:51
      全國人大代表劉莉莉:讓家長打印電子作業違背“雙減”初衷,建議學校減少頻繁向家長布置任務

      全國人大代表劉莉莉:讓家長打印電子作業違背“雙減”初衷,建議學校減少頻繁向家長布置任務

      極目新聞
      2026-03-06 20:23:26
      澳洲華男持刀隨機傷人,被警方當場擊斃!曾是精英華裔,淪為“毒男”

      澳洲華男持刀隨機傷人,被警方當場擊斃!曾是精英華裔,淪為“毒男”

      澳洲紅領巾
      2026-03-06 12:58:32
      有色金屬行業資金流出榜:紫金礦業、洛陽鉬業等凈流出資金居前

      有色金屬行業資金流出榜:紫金礦業、洛陽鉬業等凈流出資金居前

      證券時報
      2026-03-06 17:55:33
      全新一代雷克薩斯ES美國售價揭曉:48795美元起,下月登陸國內

      全新一代雷克薩斯ES美國售價揭曉:48795美元起,下月登陸國內

      IT之家
      2026-03-06 18:19:38
      一覺醒來,比亞迪五款新車亮相,4款公布了價格

      一覺醒來,比亞迪五款新車亮相,4款公布了價格

      阿芒娛樂說
      2026-03-06 14:05:12
      1965年,毛主席聽到特大礦產地名后,說:不好聽,我看叫攀枝花吧

      1965年,毛主席聽到特大礦產地名后,說:不好聽,我看叫攀枝花吧

      墨道榮
      2026-03-06 14:55:40
      慎入!韋林頓-席爾瓦傷口特寫:上嘴唇裂開一道深口子

      慎入!韋林頓-席爾瓦傷口特寫:上嘴唇裂開一道深口子

      懂球帝
      2026-03-06 23:12:40
      61歲雪梨自曝被TVB高層性侵,滿臉驚恐:不能說名字,會死人的!

      61歲雪梨自曝被TVB高層性侵,滿臉驚恐:不能說名字,會死人的!

      潮鹿逐夢
      2026-03-05 22:34:12
      2026-03-07 01:47:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12430文章數 142578關注度
      往期回顧 全部

      科技要聞

      獨家|除夕加班、毫無黑料!林俊旸無奈離場

      頭條要聞

      伊朗:決不投降 要伊朗屈服于他們絕對不可能

      頭條要聞

      伊朗:決不投降 要伊朗屈服于他們絕對不可能

      體育要聞

      跑了24年,他終于成為英超“最長的河”

      娛樂要聞

      周杰倫社交媒體曬昆凌,夫妻感情穩定

      財經要聞

      關于經濟、股市等,五部門都說了啥?

      汽車要聞

      逃離ICU,上汽通用“止血”企穩

      態度原創

      房產
      藝術
      旅游
      手機
      公開課

      房產要聞

      傳統學區房熄火?2月海口二手房爆火的板塊竟然是…

      藝術要聞

      驚艷水彩畫!簡約筆觸與透光感讓人嘆服!

      旅游要聞

      避開人潮!三八節赴萬寧溪邊村,賞限定三角花海

      手機要聞

      榮耀600系列曝光:9000mAh+2億像素+超聲波指紋,這波堆料太狠

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版