![]()
近年來,隨著 Sora、Seedance 等文本到視頻(T2V)擴散模型的飛速發(fā)展,AI 視頻生成在視覺保真度與動態(tài)表現(xiàn)上已取得突破性進(jìn)展。特別是近期備受矚目的 Seedance 2.0,展現(xiàn)出了極其強大的多鏡頭敘事與復(fù)雜分鏡控制能力。 僅需一段文本提示,生成模型即可合成具備高度物理規(guī)律與電影級質(zhì)感的視頻片段。
然而,當(dāng)我們審視當(dāng)前的開源視頻擴散模型時,一個嚴(yán)峻的技術(shù)瓶頸依然存在:在卓越的單場景生成效果背后,它們大多針對 “單事件” 生成進(jìn)行優(yōu)化,難以駕馭包含多個連續(xù)動作或復(fù)雜場景切換的時序敘事。 面對包含明確時序遞進(jìn)的復(fù)雜指令時,開源模型的指令依從性往往面臨巨大挑戰(zhàn)。
當(dāng)模型處理 “多事件” 的提示詞時,由于缺乏顯式的幀級時間約束,往往會表現(xiàn)出顯著的性能衰退。具體而言,模型極易產(chǎn)生語義特征糾纏,導(dǎo)致多個動作在時空維度發(fā)生違背物理常識的重疊與坍縮;亦或是出現(xiàn)事件遺漏,完全忽略提示詞中的部分關(guān)鍵動作,從而徹底破壞預(yù)期的敘事邏輯。
![]()
圖注:在無時序控制的基線模型中,多個動作特征在時空維度發(fā)生嚴(yán)重坍縮,而采用了 SwitchCraft 框架后,系統(tǒng)成功實現(xiàn)了細(xì)粒度的對齊,人物動作演進(jìn)清晰分明,指令依從性得到了顯著提升。
為突破這一多事件視頻生成的技術(shù)壁壘,西湖大學(xué) AGI 實驗室的研究團(tuán)隊提出了一種全新的免訓(xùn)練多事件視頻生成框架SwitchCraft。該框架創(chuàng)新性地引入了底層注意力控制機制,在不更新任何基礎(chǔ)大模型參數(shù)的前提下,實現(xiàn)了對視頻注意力的精準(zhǔn)時序引導(dǎo)。它不僅確保了復(fù)雜動作的按序生成,同時維持了極高的視覺保真度與主體一致性。
目前,該研究成果已成功入選計算機視覺頂級會議CVPR 2026。項目代碼與演示主頁均已開源。
![]()
第一作者為在西湖大學(xué) AGI 實驗室訪問的大三本科生徐千尋,指導(dǎo)老師為西湖大學(xué) AGI 實驗室助理教授張馳。
![]()
- 論文標(biāo)題:SwitchCraft: Training-Free Multi-Event Video Generation with Attention Controls
- 論文鏈接:https://arxiv.org/abs/2602.23956
- 項目地址:https://switchcraft-project.github.io
- Github:https://github.com/Westlake-AGI-Lab/SwitchCraft
技術(shù)痛點:多事件視頻生成的底層困境
要理解 SwitchCraft 的學(xué)術(shù)貢獻(xiàn),首先需要剖析現(xiàn)有視頻擴散模型在處理 “多事件” 任務(wù)時的底層缺陷。
在當(dāng)前的視頻生成架構(gòu)(如基于 Diffusion Transformer 的擴散模型)中,文本提示詞的特征通常通過交叉注意力機制(Cross-Attention)在整個時間軸上被均勻分布與注入。模型缺乏一種內(nèi)在機制來建立 “特定時間段” 與 “特定文本事件” 之間的強映射關(guān)系。這導(dǎo)致不同時間維度的語義特征在全局幀中發(fā)生嚴(yán)重的特征泄漏,最終呈現(xiàn)出動作的異常疊加或?qū)傩缘腻e誤融合。
此前,業(yè)界嘗試的替代方案通常是 “分段生成與拼接”,即強行將長文本拆分為多個獨立子事件,分別生成視頻后再進(jìn)行組合。然而,這種自回歸或基于拼接的方法會引發(fā)致命的主體特征退化:在場景或動作切換時,視頻極易出現(xiàn)生硬的跳切,核心主體的外觀特征及背景環(huán)境往往無法在轉(zhuǎn)場前后保持時空一致性。
如何不拆分生成、不破壞時序連貫性的前提下,引導(dǎo)模型精準(zhǔn)響應(yīng)復(fù)雜的時間線索?這正是 SwitchCraft 致力于解決的核心挑戰(zhàn)。
方法概述:精準(zhǔn)注意力時序控制
![]()
SwitchCraft 的核心創(chuàng)新在于:通過直接干預(yù)底層模型的注意力響應(yīng)模式,實現(xiàn)隱幀級別的語義解耦。
作為一個免訓(xùn)練框架,SwitchCraft 具備極高的泛化性與實用性。它無需消耗高昂的計算資源對現(xiàn)有的視頻大模型進(jìn)行重新訓(xùn)練或微調(diào),即可作為即插即用的模塊集成至現(xiàn)有流水線中。該框架主要由兩大核心組件構(gòu)成:
貢獻(xiàn)一:事件對齊的查詢引導(dǎo) (Event-Aligned Query Steering, EAQS)
在主流的視頻擴散模型中,視覺生成高度依賴于交叉注意力機制:即通過隱幀提取的視覺查詢向量(Visual Queries)去匹配文本提示詞的鍵特征(Textual Keys)。EAQS 模塊直接介入這一底層計算過程,以實現(xiàn)時序上的語義隔離。
- 時序綁定與事件劃分: EAQS 首先接收全局文本提示,每個獨立事件對應(yīng)的錨點(Anchor Tokens),以及用戶設(shè)定的事件時間邊界。EAQS 會根據(jù)用戶設(shè)定的時間跨度,將視頻幀劃分為不同的事件區(qū)間。對于任意一個具體的生成幀(例如:第 0~2 秒),系統(tǒng)會自動將當(dāng)前應(yīng)當(dāng)發(fā)生的動作(如 “走路”)定義為激活事件(Active Event),而將該時間段外發(fā)生的動作(如 2~4 秒的 “轉(zhuǎn)身”、4~5 秒的 “招手”)定義為非激活事件(Inactive Events)。
- 查詢向量的精準(zhǔn)偏移: 在特定時間段隱幀序列的去噪過程中,EAQS 會在特征維度上對模型的視覺查詢向量施加定向的偏移(Steering)。其核心邏輯非常明確:在當(dāng)前幀,強制視覺查詢向量向 “激活事件” 的特征靠近(增強注意力),同時主動將其從所有 “非激活事件” 的特征處推開(抑制注意力)。
- 解耦效果: 通過這種嚴(yán)格按時間窗口觸發(fā)的 “一拉一推” 機制,EAQS 從根本上阻斷了特征糾纏與跨時序的語義泄漏,確保未發(fā)生的動作絕不會提前 “搶戲”。
貢獻(xiàn)二:自適應(yīng)強度平衡求解器 (Auto-Balance Strength Solver, ABSS)
在擴散模型中,對交叉注意力圖施加過度的外部干預(yù),易破壞模型預(yù)訓(xùn)練所建立的原始特征分布,從而導(dǎo)致生成的畫面出現(xiàn)偽影、結(jié)構(gòu)扭曲或視覺質(zhì)量急劇下降。此外,由于不同提示詞的語義復(fù)雜度與動作生成難度存在顯著差異,固定的超參數(shù)無法泛化至多樣化的生成任務(wù)中。
為解決這一魯棒性問題,自動得到最優(yōu)的 “推”“拉” 強度,研究團(tuán)隊設(shè)計了具備閉環(huán)調(diào)節(jié)機制的 ABSS 模塊:
- 主導(dǎo)方向提取與缺口(Margin Deficit)量化: 在每一個去噪步中,ABSS 首先利用奇異值分解(SVD)提取出 “目標(biāo)事件” 與各 “干擾事件” 在潛空間中的主導(dǎo)方向,并分別計算當(dāng)前視覺查詢向量在這些方向上的對齊得分 ;基于此,系統(tǒng)會精準(zhǔn)鎖定得分最高的 “最強干擾事件”,通過計算其得分超越目標(biāo)事件的部分,嚴(yán)格量化出當(dāng)前亟需彌補的 “邊距缺口” 。
- 動態(tài)求解最優(yōu)強度: 基于評估結(jié)果,ABSS 會自適應(yīng)地求解出當(dāng)前幀與當(dāng)前去噪步下的最優(yōu)干預(yù)強度。該機制通過精確的數(shù)學(xué)約束,確保施加的注意力引導(dǎo)既能精準(zhǔn)驅(qū)動動作發(fā)生,又不會過度偏離基礎(chǔ)模型原本的視覺特征分布。
- 實現(xiàn)動態(tài)最優(yōu)平衡: 這一自適應(yīng)調(diào)節(jié)機制徹底消除了繁瑣的手動調(diào)參痛點。它從算法層面保證了 SwitchCraft 能夠在 “最大化多事件時序?qū)R度” 與 “嚴(yán)格維持基礎(chǔ)模型高視覺保真度” 之間,取得動態(tài)的最優(yōu)平衡。
實驗亮點:高一致性的多事件連貫敘事
得益于上述兩大核心機制的協(xié)同作用,SwitchCraft 在多事件視頻生成任務(wù)中展現(xiàn)出了卓越的控制性能:
![]()
提示詞:一個男人抬起一只手臂,然后抓了抓頭,然后向前跑去
![]()
提示詞:一個人在走路,然后跑步,然后起跳。
![]()
提示詞:一輛越野車駛過沙丘,然后穿過森林小徑,然后在雪地小路上行駛。
![]()
提示詞:一個學(xué)生筆直地坐在書桌前打開筆記本電腦,然后開始打字,然后向后靠并伸展雙臂。
此外,SwitchCraft 在場景切換上還展現(xiàn)出了一項獨特的優(yōu)勢:創(chuàng)意遮擋轉(zhuǎn)場(Creative Occluding Transitions)。不同于現(xiàn)有基線模型在轉(zhuǎn)場時極易產(chǎn)生的殘影或主體突變,該框架能夠巧妙利用環(huán)境遮擋關(guān)系生成創(chuàng)意的無縫運鏡。它不僅實現(xiàn)了前后異構(gòu)場景的平滑融合,更在全過程中完美鎖定了核心主體的身份特征一致性。
![]()
對比多種現(xiàn)有的視頻生成與時序控制基線方法(如 MEVG、DiTCtrl、LongLive 等),SwitchCraft 在多事件文本對齊度、視覺保真度與運動平滑度等方面均表現(xiàn)突出,綜合客觀評測指標(biāo)穩(wěn)居領(lǐng)先水平 。
![]()
此外,團(tuán)隊在消融實驗中發(fā)現(xiàn),SwitchCraft 的各項核心機制缺一不可。在 EAQS 模塊中,若打破 “推拉” 協(xié)同(僅保留單向的 “增強” 或 “抑制”),生成的視頻將面臨動作遺漏或跨時序特征泄漏;而在 ABSS 模塊中,若放棄自適應(yīng)機制(采用固定的注意力干預(yù)強度或移除 SVD 主導(dǎo)方向提取),則會導(dǎo)致畫面視覺保真度出現(xiàn)斷崖式下跌,文本對齊準(zhǔn)確率也會顯著降低。這充分證明了 “一推一拉” 的時序注意力調(diào)度與 “動態(tài)自適應(yīng)求解” 必須相輔相成,二者的完美配合正是模型能夠在 “高保真視覺質(zhì)量” 與 “精準(zhǔn)多事件控制” 之間取得動態(tài)最優(yōu)平衡的關(guān)鍵所在。
結(jié)語
SwitchCraft 展示了復(fù)雜視頻生成的新思路:無需微調(diào)的精準(zhǔn)時序注意力控制。我們期待這一即插即用的框架在長篇視頻敘事、動態(tài)分鏡等領(lǐng)域落地,并與開源社區(qū)共同探索更多可能。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.