網易首頁 > 網易號 > 正文申請入駐

1B模型當多鏡頭導演？大連理工&快手可靈開源力作MultiShotMaster

2026-03-06 16:24:06　來源: 機器之心Pro

天津舉報

分享至

該論文由大連理工大學、快手可靈團隊、香港中文大學聯合完成，第一作者王清和是大連理工大學在讀三年級博士，研究方向為視頻生成，師從盧湖川、賈旭教授，目前在快手可靈團隊實習。個人主頁：https://qinghew.github.io/

近期，可靈 3.0、Seedance 2.0 等產品的多鏡頭敘事能力相繼爆火，可支持一次生成多個導演級鏡頭，標志著視頻生成領域已經從傳統的單鏡頭生成邁入了多鏡頭視頻生成的時代。然而，對于預算有限的開發者，10B 參數量以上的大模型開發成本較高，100B 以上的大模型更令人望而卻步。

近期，大連理工與快手可靈團隊推出了MultiShotMaster——一個高度可控的多鏡頭視頻生成框架，該論文向研究社區展示了即使在 1B 左右的小參數量級模型上，也可以實現導演級的鏡頭調度和連貫敘事，且支持多圖參考、主體運動控制。

目前，該論文已錄用至CVPR 2026，基于 Wan 1.3B 和 14B 的多鏡頭模型的訓練和推理代碼已開源：

項目主頁：https://qinghew.github.io/MultiShotMaster/
代碼鏈接：https://github.com/KlingAIResearch/MultiShotMaster
論文鏈接：https://arxiv.org/abs/2512.03041

開源版 MultiShotMaster 能力展示

MultiShotMaster-14B 720p 效果

MultiShotMaster-1.3B 480p 效果

值得一提的是，開源版 MultiShotMaster 斬獲了AAAI CVM Workshop 競賽冠軍。該競賽由北大等高校舉辦、華為贊助，重點考核世界知識一致性、相機移動一致性、跨鏡頭 ID 一致性三個層面，充分印證了該模型在多鏡頭生成與連貫敘事方面的卓越性能。

MultiShotMaster 框架

“單鏡頭” 到 “多鏡頭” 的進化

MultiShotMaster 首先調整了傳統的單鏡頭文生視頻模型架構，使之能夠生成多鏡頭視頻。

具體而言，考慮到鏡頭間的內容突變，每個鏡頭需單獨通過 3DVAE 編碼，然后在時序上級聯起來，并在 Temporal Attention 處融合。由于鏡頭之間不僅存在內容突變，還需保證敘事的先后順序，作者提出多鏡頭敘事 RoPE，即基于原始的 3D RoPE 在鏡頭切換處施加相位偏移：

這顯式地標記了鏡頭邊界且維持了原鏡頭間的敘事順序，讓模型能夠精準識別鏡頭邊界，從而支持用戶自由設定鏡頭的數量和時長。此外，構建了總分式提示詞結構，全局提示詞描述角色外觀、環境及風格，鏡頭級提示詞描述角色交互、場景布局、相機運鏡。在鏡頭級 Cross Attention 中，每個鏡頭的視頻只與全局提示詞、對應鏡頭的提示詞交互，從而防止跨鏡頭信息泄露。

時空位置感知的參考注入

用戶通常期望視頻生成模型具有更多的可控性，例如使用參考圖、控制主體運動布局等能力。為此，作者用 VAE 編碼參考圖像，使之與視頻 tokens 落入同一特征空間。

考慮到 3D-RoPE 會使時空距離更近的 tokens 在 Attention 中增強交互，作者設計了時空位置感知的 RoPE，將指定時空區域的 RoPE 重采樣為更細粒度的 RoPE 分配給參考 tokens。

在時序注意力中，干凈的參考 tokens 會將視覺信息傳遞給噪聲視頻 tokens 以實現參考圖像（主體/背景）指定時空位置的注入。當用戶期望控制同一主體的運動軌跡時，可以通過復制多次同一角色的 Token 并分配不同的時空 RoPE。

此外，為了管理上下文信息流，防止不必要的 token 交互，作者設計了多鏡頭-多主體 Attention Mask，允許跨鏡頭的視頻 tokens 交互，限制每個鏡頭的視頻 tokens 僅能與視頻內的參考 tokens 交互。

值得注意的是，MultiShotMaster 沒有引入外部參數，而是利用、改進視頻生成模型原有的 3D-RoPE，從而實現了可控的多鏡頭視頻生成，支持文本驅動的鏡頭間一致性、可靈活配置的鏡頭數量和時長、運動可控的主體定制化、背景可定制的場景一致性。這一多功能框架為多樣化多鏡頭視頻內容創作提供了新的可能性，使用戶能夠打造高度定制化的視頻敘事。

MultiShotMaster - 實驗版 1B 模型（384×672）效果

MultiShotMaster 訓練數據構建流程

數據構建流程：

采用鏡頭切換檢測模型 TransNet V2 將長視頻裁切成短片段，使用場景分割模型 SceneSeg 將同一場景內的片段聚合到一起，然后從中采樣多鏡頭視頻。
引入總分式提示詞結構，使用 Gemini-2.5-Flash 生成全局描述和每個鏡頭的描述。
整合 YOLOv11、ByteTrack 和 SAM 來檢測、追蹤和分割主體圖像，然后利用 Gemini-2.5-Flash 根據主體外觀合并跨鏡頭的跟蹤結果。
使用 OmniEraser 獲得干凈的背景參考圖。

實驗結果

除了對比現有的 SOTA 多鏡頭視頻生成模型之外，由于目前沒有支持參考圖輸入的多鏡頭視頻生成模型，作者對比了支持參考圖輸入的單鏡頭模型 Phantom、VACE，拼接他們逐個生成的鏡頭用于比較。

可以看出，在定量和定性的比較中，MultiShotMaster 在鏡頭間一致性、切鏡準確性、敘事連貫性、參考圖一致性上都展現出了卓越的性能。

定性實驗結果：

定量實驗結果：

總結

MultiShotMaster 通過對 RoPE 的創新性改進，實現了高度可控的多鏡頭視頻生成。其引入的多鏡頭敘事 RoPE 與時空位置感知 RoPE，在無需引入額外參數的情況下，實現了對鏡頭邊界、角色一致性及運動軌跡的精細化操控。在僅約 1B 參數的模型規模下即可展現出了卓越的敘事連貫性與跨鏡頭一致性，驗證了其實現導演級控制的巨大潛力。

同時，自動化的多鏡頭數據標注流程及開源模型也將為社區的研究提供強力支持，有望推動 AI 視頻創作進入一個敘事更連貫、表達更自由的新階段。

更多細節請參閱原論文。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.