網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

CVPR 2026 | 從「單幀」到「分鏡」：STAGE重新定義AI電影敘事

2026-03-23 12:58:08　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

從 Sora，可靈到 seedance 2.0，AI 視頻生成的浪潮正席卷而來，其驚人的視覺質(zhì)量讓人嘆為觀止。然而，當(dāng)我們嘗試用它創(chuàng)作一個(gè)真正的 “故事” 時(shí)，一個(gè)普遍的瓶頸浮出水面：連貫性。

為了攻克這一難題，我們提出了 STAGE，一個(gè)以 “電影分鏡” 為核心的全新敘事生成框架。它不再預(yù)測(cè)孤立的關(guān)鍵幀，而是直接生成每個(gè)鏡頭的 “起始 - 結(jié)束幀對(duì)”，為多鏡頭視頻的創(chuàng)作提供了前所未有的結(jié)構(gòu)化控制力。

目前，該論文已錄用至CVPR 2026，相關(guān)數(shù)據(jù)集和模型訓(xùn)練訓(xùn)練和推理代碼將逐步開源：

論文標(biāo)題：STAGE: Storyboard-Anchored Generation for Cinematic Multi-shot Narrative
作者單位：北京郵電大學(xué)、北京大學(xué)、北京智源人工智能研究院
代碼鏈接：https://github.com/escapistmost/Storyboard-Anchored-Generation

一、前言：AI 視頻生成，從 “做動(dòng)圖” 到 “拍電影” 還差多遠(yuǎn)？

究其原因，一個(gè)好故事并非一堆漂亮鏡頭的簡(jiǎn)單拼接，而是一個(gè)有結(jié)構(gòu)、有邏輯的敘事整體。

目前，主流的多鏡頭視頻生成方法大致分為兩派：

端到端 “一鏡到底”：計(jì)算成本極高，且過程像 “開盲盒”，難以控制，稍有不慎就滿盤皆輸。
關(guān)鍵幀 “分步走”：先生成幾個(gè)關(guān)鍵畫面作為 “路標(biāo)”，再讓視頻模型去 “腦補(bǔ)” 中間過程。這種方法更靈活，但問題也隨之而來。

這些方法生成的視頻，常常在鏡頭切換時(shí)出現(xiàn) “災(zāi)難性” 的斷裂：前一秒主角還穿著紅衣，后一秒就換了顏色；或者一個(gè)流暢的開箱動(dòng)作，在特寫鏡頭里卻變成了 “瞬移”（如下圖中的戒指盒）。這些 “穿幫鏡頭” 的根源在于，模型只知道每個(gè)鏡頭 “大概長(zhǎng)啥樣”，卻不懂得鏡頭與鏡頭之間該如何 “銜接”。

現(xiàn)有方法（上）在鏡頭切換時(shí)常出現(xiàn)動(dòng)作不連貫、物體不一致的問題。STAGE（下）通過預(yù)測(cè)結(jié)構(gòu)化的 “分鏡”，實(shí)現(xiàn)了電影級(jí)的平滑過渡。

問題的本質(zhì)是：我們一直在讓 AI “畫單幀”，而不是 “拍分鏡”。一個(gè)真正的導(dǎo)演，腦海里不僅有高潮畫面，更有每個(gè)鏡頭的起與承、轉(zhuǎn)與合。

二、核心洞察：用 “起始 - 結(jié)束幀對(duì)” 重構(gòu)敘事骨架

多鏡頭敘事的關(guān)鍵，不應(yīng)是幾個(gè)孤立的、稀疏的關(guān)鍵幀，而應(yīng)是一個(gè)結(jié)構(gòu)化的電影分鏡 (Storyboard)。基于此，我們提出了一個(gè)創(chuàng)新性的想法：

將關(guān)鍵幀生成任務(wù)，重新定義為 “起始 - 結(jié)束幀對(duì) (Start-End Frame Pairs)” 的預(yù)測(cè)任務(wù)。

也就是說，對(duì)于每一個(gè)鏡頭，我們不再只預(yù)測(cè)一個(gè)代表性的畫面，而是直接預(yù)測(cè)出它的 “第一幀” 和 “最后一幀”。這個(gè)看似簡(jiǎn)單的改變，卻帶來了三大優(yōu)勢(shì)：

長(zhǎng)程敘事有 “骨架”：所有鏡頭的起始 / 結(jié)束幀串聯(lián)起來，形成了一個(gè)穩(wěn)固的視覺骨架，確保了角色、場(chǎng)景在整個(gè)故事中的長(zhǎng)期一致性。
鏡頭內(nèi)部有 “航向”：一個(gè)鏡頭的起始幀和結(jié)束幀，明確定義了該鏡頭內(nèi)部的動(dòng)態(tài)變化，無(wú)論是人物走位還是鏡頭推拉，都有了清晰的起點(diǎn)和終點(diǎn)。
鏡頭銜接有 “電影感”：上一個(gè)鏡頭的 “結(jié)束幀” 和下一個(gè)鏡頭的 “起始幀” 之間的關(guān)系，直接對(duì) “轉(zhuǎn)場(chǎng)” 這一電影語(yǔ)言進(jìn)行建模，讓 “剪輯點(diǎn)” 變得平滑而有邏輯。

正是基于這一觀察，設(shè)計(jì)了全新的多鏡頭敘事生成工作流 ——STAGE(SToryboard-AnchoredGEneration)。

三、技術(shù)核心：STEP2，一個(gè)懂得 “拍分鏡” 的 AI 導(dǎo)演

STAGE 工作流的核心，是我們提出的起始 - 結(jié)束幀對(duì)預(yù)測(cè)模型 ——STEP2 (STart-End frame-Pair Prediction model)。它就像一位 AI 導(dǎo)演，能將文字劇本精準(zhǔn)地翻譯成一系列可執(zhí)行的視覺分鏡。

為了讓這位 “AI 導(dǎo)演” 足夠?qū)I(yè)，我們?yōu)樗鋫淞巳蠓▽殻?/p>

1. 多鏡頭記憶包 (Multi-shot Memory Pack)：過目不忘，確保角色不 “穿越”

為了在生成第 N 個(gè)鏡頭時(shí)還記得第一個(gè)鏡頭里主角長(zhǎng)什么樣，我們?cè)O(shè)計(jì)了一個(gè)高效的記憶壓縮機(jī)制。它能將所有歷史鏡頭的視覺信息壓縮成一個(gè)緊湊的 “記憶包”，在保證長(zhǎng)期一致性的同時(shí)，避免了巨大的計(jì)算開銷。

2. 雙重編碼策略 (Dual-Encoding Strategy)：運(yùn)鏡連貫，確保動(dòng)作不 “瞬移”

為了保證單個(gè)鏡頭內(nèi)部的邏輯自洽（例如，一個(gè)平滑的推鏡頭），我們將一個(gè)鏡頭的起始幀和結(jié)束幀 “捆綁” 在一起進(jìn)行聯(lián)合編碼。這讓模型在生成之初就對(duì)整個(gè)鏡頭的動(dòng)態(tài)了然于胸。

3. 兩階段訓(xùn)練方案 (Two-stage Training Scheme)：從 “會(huì)拍” 到 “拍得好”

光會(huì)拍還不夠，還要有 “品味”。我們借鑒了電影學(xué)院的教學(xué)模式：第一階段（SFT 監(jiān)督微調(diào)）：先讓模型在海量的電影片段上學(xué)習(xí)基礎(chǔ)的鏡頭語(yǔ)言，做到 “會(huì)拍”。第二階段（DPO 偏好對(duì)齊）：再用人類精選的 “好 / 壞” 鏡頭轉(zhuǎn)場(chǎng)案例進(jìn)行 “閱片” 訓(xùn)練，讓模型學(xué)會(huì)什么是 “高級(jí)的、電影感的” 轉(zhuǎn)場(chǎng)，最終實(shí)現(xiàn) “拍得好”。

四、數(shù)據(jù)基石：讓模型學(xué)會(huì) “分鏡” 的起點(diǎn)

要讓 AI 學(xué)會(huì)電影語(yǔ)言，一本好的 “教科書” 必不可少。然而，現(xiàn)有數(shù)據(jù)集都只關(guān)注單幀，無(wú)法滿足我們對(duì) “分鏡” 和 “轉(zhuǎn)場(chǎng)” 的訓(xùn)練需求。為此，我們構(gòu)建了大規(guī)模的 ConStoryBoard 數(shù)據(jù)集。我們從公開電影中篩選了 10 萬(wàn)個(gè)高質(zhì)量多鏡頭片段，并為每個(gè)鏡頭都進(jìn)行了精細(xì)化標(biāo)注，包括：起始 - 結(jié)束幀對(duì)，故事進(jìn)展描述，鏡頭尺度、機(jī)位、運(yùn)鏡等電影學(xué)屬性。更進(jìn)一步，我們還從中人工挑選出最優(yōu)的轉(zhuǎn)場(chǎng)案例，構(gòu)建了包含人類偏好的子集 ConStoryBoard-HP，專門用于第二階段的 “品味” 訓(xùn)練。

五、實(shí)驗(yàn)結(jié)果：不僅更連貫，還更懂 “電影感”

我們將 STAGE 與多種 SOTA 多鏡頭生成方法進(jìn)行了全面對(duì)比。

視覺對(duì)比

在 “火車上的女人” 這一主題下，其他方法出現(xiàn)了場(chǎng)景不一致（CineTrans）、風(fēng)格失真（StoryDiffusion）、動(dòng)作斷裂（VideoGen-of-Thought）等問題。STAGE 則完美保持了人物和環(huán)境的一致性，并實(shí)現(xiàn)了流暢的敘事。

定量指標(biāo)

動(dòng)態(tài)展示

六、意義與展望：讓 AI 學(xué)會(huì)用鏡頭講故事

這項(xiàng)工作傳遞了一個(gè)清晰的信號(hào)：多鏡頭視頻生成的未來，在于結(jié)構(gòu)化的敘事控制，而不僅僅是像素的堆砌。通過引入 “分鏡” 這一電影工業(yè)的核心概念，STAGE 為 AI 視頻生成開辟了一條從 “技術(shù)炫技” 邁向 “藝術(shù)創(chuàng)作” 的新路徑。它讓模型不再是一個(gè)只會(huì)畫畫的 “美工”，而更像一個(gè)懂得如何用鏡頭組織故事的 “導(dǎo)演”。

我們相信，當(dāng) AI 真正開始學(xué)會(huì) “拍電影”，而不僅僅是 “做動(dòng)圖” 時(shí)，一個(gè)由 AI 輔助創(chuàng)作的、真正屬于每個(gè)人的電影時(shí)代，才算真正到來。

更多細(xì)節(jié)請(qǐng)參閱原論文。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.