<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      AI視頻不再串戲:免訓(xùn)練精準(zhǔn)控制多段動作,SwitchCraft一招破解

      0
      分享至



      近年來,隨著 Sora、Seedance 等文本到視頻(T2V)擴散模型的飛速發(fā)展,AI 視頻生成在視覺保真度與動態(tài)表現(xiàn)上已取得突破性進(jìn)展。特別是近期備受矚目的 Seedance 2.0,展現(xiàn)出了極其強大的多鏡頭敘事與復(fù)雜分鏡控制能力。 僅需一段文本提示,生成模型即可合成具備高度物理規(guī)律與電影級質(zhì)感的視頻片段。

      然而,當(dāng)我們審視當(dāng)前的開源視頻擴散模型時,一個嚴(yán)峻的技術(shù)瓶頸依然存在:在卓越的單場景生成效果背后,它們大多針對 “單事件” 生成進(jìn)行優(yōu)化,難以駕馭包含多個連續(xù)動作或復(fù)雜場景切換的時序敘事。 面對包含明確時序遞進(jìn)的復(fù)雜指令時,開源模型的指令依從性往往面臨巨大挑戰(zhàn)。

      當(dāng)模型處理 “多事件” 的提示詞時,由于缺乏顯式的幀級時間約束,往往會表現(xiàn)出顯著的性能衰退。具體而言,模型極易產(chǎn)生語義特征糾纏,導(dǎo)致多個動作在時空維度發(fā)生違背物理常識的重疊與坍縮;亦或是出現(xiàn)事件遺漏,完全忽略提示詞中的部分關(guān)鍵動作,從而徹底破壞預(yù)期的敘事邏輯。



      圖注:在無時序控制的基線模型中,多個動作特征在時空維度發(fā)生嚴(yán)重坍縮,而采用了 SwitchCraft 框架后,系統(tǒng)成功實現(xiàn)了細(xì)粒度的對齊,人物動作演進(jìn)清晰分明,指令依從性得到了顯著提升。

      為突破這一多事件視頻生成的技術(shù)壁壘,西湖大學(xué) AGI 實驗室的研究團(tuán)隊提出了一種全新的免訓(xùn)練多事件視頻生成框架SwitchCraft。該框架創(chuàng)新性地引入了底層注意力控制機制,在不更新任何基礎(chǔ)大模型參數(shù)的前提下,實現(xiàn)了對視頻注意力的精準(zhǔn)時序引導(dǎo)。它不僅確保了復(fù)雜動作的按序生成,同時維持了極高的視覺保真度與主體一致性。

      目前,該研究成果已成功入選計算機視覺頂級會議CVPR 2026。項目代碼與演示主頁均已開源。



      第一作者為在西湖大學(xué) AGI 實驗室訪問的大三本科生徐千尋,指導(dǎo)老師為西湖大學(xué) AGI 實驗室助理教授張馳。



      • 論文標(biāo)題:SwitchCraft: Training-Free Multi-Event Video Generation with Attention Controls
      • 論文鏈接:https://arxiv.org/abs/2602.23956
      • 項目地址:https://switchcraft-project.github.io
      • Github:https://github.com/Westlake-AGI-Lab/SwitchCraft

      技術(shù)痛點:多事件視頻生成的底層困境

      要理解 SwitchCraft 的學(xué)術(shù)貢獻(xiàn),首先需要剖析現(xiàn)有視頻擴散模型在處理 “多事件” 任務(wù)時的底層缺陷。

      在當(dāng)前的視頻生成架構(gòu)(如基于 Diffusion Transformer 的擴散模型)中,文本提示詞的特征通常通過交叉注意力機制(Cross-Attention)在整個時間軸上被均勻分布與注入。模型缺乏一種內(nèi)在機制來建立 “特定時間段” 與 “特定文本事件” 之間的強映射關(guān)系。這導(dǎo)致不同時間維度的語義特征在全局幀中發(fā)生嚴(yán)重的特征泄漏,最終呈現(xiàn)出動作的異常疊加或?qū)傩缘腻e誤融合。

      此前,業(yè)界嘗試的替代方案通常是 “分段生成與拼接”,即強行將長文本拆分為多個獨立子事件,分別生成視頻后再進(jìn)行組合。然而,這種自回歸或基于拼接的方法會引發(fā)致命的主體特征退化:在場景或動作切換時,視頻極易出現(xiàn)生硬的跳切,核心主體的外觀特征及背景環(huán)境往往無法在轉(zhuǎn)場前后保持時空一致性。

      如何不拆分生成、不破壞時序連貫性的前提下,引導(dǎo)模型精準(zhǔn)響應(yīng)復(fù)雜的時間線索?這正是 SwitchCraft 致力于解決的核心挑戰(zhàn)。

      方法概述:精準(zhǔn)注意力時序控制



      SwitchCraft 的核心創(chuàng)新在于:通過直接干預(yù)底層模型的注意力響應(yīng)模式,實現(xiàn)隱幀級別的語義解耦。

      作為一個免訓(xùn)練框架,SwitchCraft 具備極高的泛化性與實用性。它無需消耗高昂的計算資源對現(xiàn)有的視頻大模型進(jìn)行重新訓(xùn)練或微調(diào),即可作為即插即用的模塊集成至現(xiàn)有流水線中。該框架主要由兩大核心組件構(gòu)成:

      貢獻(xiàn)一:事件對齊的查詢引導(dǎo) (Event-Aligned Query Steering, EAQS)

      在主流的視頻擴散模型中,視覺生成高度依賴于交叉注意力機制:即通過隱幀提取的視覺查詢向量(Visual Queries)去匹配文本提示詞的鍵特征(Textual Keys)。EAQS 模塊直接介入這一底層計算過程,以實現(xiàn)時序上的語義隔離。

      • 時序綁定與事件劃分: EAQS 首先接收全局文本提示,每個獨立事件對應(yīng)的錨點(Anchor Tokens),以及用戶設(shè)定的事件時間邊界。EAQS 會根據(jù)用戶設(shè)定的時間跨度,將視頻幀劃分為不同的事件區(qū)間。對于任意一個具體的生成幀(例如:第 0~2 秒),系統(tǒng)會自動將當(dāng)前應(yīng)當(dāng)發(fā)生的動作(如 “走路”)定義為激活事件(Active Event),而將該時間段外發(fā)生的動作(如 2~4 秒的 “轉(zhuǎn)身”、4~5 秒的 “招手”)定義為非激活事件(Inactive Events)。
      • 查詢向量的精準(zhǔn)偏移: 在特定時間段隱幀序列的去噪過程中,EAQS 會在特征維度上對模型的視覺查詢向量施加定向的偏移(Steering)。其核心邏輯非常明確:在當(dāng)前幀,強制視覺查詢向量向 “激活事件” 的特征靠近(增強注意力),同時主動將其從所有 “非激活事件” 的特征處推開(抑制注意力)。
      • 解耦效果: 通過這種嚴(yán)格按時間窗口觸發(fā)的 “一拉一推” 機制,EAQS 從根本上阻斷了特征糾纏與跨時序的語義泄漏,確保未發(fā)生的動作絕不會提前 “搶戲”。

      貢獻(xiàn)二:自適應(yīng)強度平衡求解器 (Auto-Balance Strength Solver, ABSS)

      在擴散模型中,對交叉注意力圖施加過度的外部干預(yù),易破壞模型預(yù)訓(xùn)練所建立的原始特征分布,從而導(dǎo)致生成的畫面出現(xiàn)偽影、結(jié)構(gòu)扭曲或視覺質(zhì)量急劇下降。此外,由于不同提示詞的語義復(fù)雜度與動作生成難度存在顯著差異,固定的超參數(shù)無法泛化至多樣化的生成任務(wù)中。

      為解決這一魯棒性問題,自動得到最優(yōu)的 “推”“拉” 強度,研究團(tuán)隊設(shè)計了具備閉環(huán)調(diào)節(jié)機制的 ABSS 模塊:

      • 主導(dǎo)方向提取與缺口(Margin Deficit)量化: 在每一個去噪步中,ABSS 首先利用奇異值分解(SVD)提取出 “目標(biāo)事件” 與各 “干擾事件” 在潛空間中的主導(dǎo)方向,并分別計算當(dāng)前視覺查詢向量在這些方向上的對齊得分 ;基于此,系統(tǒng)會精準(zhǔn)鎖定得分最高的 “最強干擾事件”,通過計算其得分超越目標(biāo)事件的部分,嚴(yán)格量化出當(dāng)前亟需彌補的 “邊距缺口” 。
      • 動態(tài)求解最優(yōu)強度: 基于評估結(jié)果,ABSS 會自適應(yīng)地求解出當(dāng)前幀與當(dāng)前去噪步下的最優(yōu)干預(yù)強度。該機制通過精確的數(shù)學(xué)約束,確保施加的注意力引導(dǎo)既能精準(zhǔn)驅(qū)動動作發(fā)生,又不會過度偏離基礎(chǔ)模型原本的視覺特征分布。
      • 實現(xiàn)動態(tài)最優(yōu)平衡: 這一自適應(yīng)調(diào)節(jié)機制徹底消除了繁瑣的手動調(diào)參痛點。它從算法層面保證了 SwitchCraft 能夠在 “最大化多事件時序?qū)R度” 與 “嚴(yán)格維持基礎(chǔ)模型高視覺保真度” 之間,取得動態(tài)的最優(yōu)平衡。

      實驗亮點:高一致性的多事件連貫敘事

      得益于上述兩大核心機制的協(xié)同作用,SwitchCraft 在多事件視頻生成任務(wù)中展現(xiàn)出了卓越的控制性能:



      提示詞:一個男人抬起一只手臂,然后抓了抓頭,然后向前跑去



      提示詞:一個人在走路,然后跑步,然后起跳。



      提示詞:一輛越野車駛過沙丘,然后穿過森林小徑,然后在雪地小路上行駛。



      提示詞:一個學(xué)生筆直地坐在書桌前打開筆記本電腦,然后開始打字,然后向后靠并伸展雙臂。

      此外,SwitchCraft 在場景切換上還展現(xiàn)出了一項獨特的優(yōu)勢:創(chuàng)意遮擋轉(zhuǎn)場(Creative Occluding Transitions)。不同于現(xiàn)有基線模型在轉(zhuǎn)場時極易產(chǎn)生的殘影或主體突變,該框架能夠巧妙利用環(huán)境遮擋關(guān)系生成創(chuàng)意的無縫運鏡。它不僅實現(xiàn)了前后異構(gòu)場景的平滑融合,更在全過程中完美鎖定了核心主體的身份特征一致性。



      對比多種現(xiàn)有的視頻生成與時序控制基線方法(如 MEVG、DiTCtrl、LongLive 等),SwitchCraft 在多事件文本對齊度、視覺保真度與運動平滑度等方面均表現(xiàn)突出,綜合客觀評測指標(biāo)穩(wěn)居領(lǐng)先水平 。



      此外,團(tuán)隊在消融實驗中發(fā)現(xiàn),SwitchCraft 的各項核心機制缺一不可。在 EAQS 模塊中,若打破 “推拉” 協(xié)同(僅保留單向的 “增強” 或 “抑制”),生成的視頻將面臨動作遺漏或跨時序特征泄漏;而在 ABSS 模塊中,若放棄自適應(yīng)機制(采用固定的注意力干預(yù)強度或移除 SVD 主導(dǎo)方向提取),則會導(dǎo)致畫面視覺保真度出現(xiàn)斷崖式下跌,文本對齊準(zhǔn)確率也會顯著降低。這充分證明了 “一推一拉” 的時序注意力調(diào)度與 “動態(tài)自適應(yīng)求解” 必須相輔相成,二者的完美配合正是模型能夠在 “高保真視覺質(zhì)量” 與 “精準(zhǔn)多事件控制” 之間取得動態(tài)最優(yōu)平衡的關(guān)鍵所在。

      結(jié)語

      SwitchCraft 展示了復(fù)雜視頻生成的新思路:無需微調(diào)的精準(zhǔn)時序注意力控制。我們期待這一即插即用的框架在長篇視頻敘事、動態(tài)分鏡等領(lǐng)域落地,并與開源社區(qū)共同探索更多可能。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      張近東資產(chǎn)清零,張朝陽手握百億現(xiàn)金:兩種人生,一個忠告

      張近東資產(chǎn)清零,張朝陽手握百億現(xiàn)金:兩種人生,一個忠告

      老特有話說
      2026-03-26 14:31:44
      46歲童蕾近況曝光,帶女兒回農(nóng)村住平房,親自種菜日子十分勤儉

      46歲童蕾近況曝光,帶女兒回農(nóng)村住平房,親自種菜日子十分勤儉

      科學(xué)發(fā)掘
      2026-03-26 17:46:48
      細(xì)思極恐!小玥兒正臉爆火!長發(fā)神似大S,這是來替媽媽大S來復(fù)仇的

      細(xì)思極恐!小玥兒正臉爆火!長發(fā)神似大S,這是來替媽媽大S來復(fù)仇的

      八卦王者
      2026-03-06 11:37:14
      岳云鵬現(xiàn)身上海,氣場跟以前完全不一樣了,助理當(dāng)街抽煙也不避諱

      岳云鵬現(xiàn)身上海,氣場跟以前完全不一樣了,助理當(dāng)街抽煙也不避諱

      仙味少女心
      2026-03-24 16:47:29
      200億美元收益!NBA推進(jìn)兩大計劃 每隊老板至少分到6.5億美元

      200億美元收益!NBA推進(jìn)兩大計劃 每隊老板至少分到6.5億美元

      羅說NBA
      2026-03-26 06:21:27
      張雪峰離世1天后,才發(fā)現(xiàn)女兒名字取得暗藏深意,字字都有來頭

      張雪峰離世1天后,才發(fā)現(xiàn)女兒名字取得暗藏深意,字字都有來頭

      朗威談星座
      2026-03-25 17:12:14
      廣汽集團(tuán),你瘋了嗎?

      廣汽集團(tuán),你瘋了嗎?

      汽車K線
      2026-03-26 09:20:19
      華裔女賭神趙蘇茜:曾橫掃美國賭場,一局贏下400萬,33歲遭焚尸

      華裔女賭神趙蘇茜:曾橫掃美國賭場,一局贏下400萬,33歲遭焚尸

      嘆為觀止易
      2026-03-24 16:45:26
      46 歲張柏芝三亞生圖流出,肚子上的軟肉,打了整個內(nèi)娛的臉

      46 歲張柏芝三亞生圖流出,肚子上的軟肉,打了整個內(nèi)娛的臉

      橙星文娛
      2026-03-26 13:40:27
      近期,一名中國男子去泰國玩,花6000泰銖找21歲女孩,悲劇發(fā)生了

      近期,一名中國男子去泰國玩,花6000泰銖找21歲女孩,悲劇發(fā)生了

      鯨探所長
      2026-03-01 14:38:25
      不信川普,更別信伊朗

      不信川普,更別信伊朗

      新浪財經(jīng)
      2026-03-26 16:21:30
      長征謎案揭開,白崇禧在湘江邊網(wǎng)開一面,李宗仁晚年一句話說破

      長征謎案揭開,白崇禧在湘江邊網(wǎng)開一面,李宗仁晚年一句話說破

      云端小院
      2026-03-24 09:05:49
      封神戰(zhàn)在即!德約出戰(zhàn)蒙特卡洛,沖擊史無前例三圈“金大師”!

      封神戰(zhàn)在即!德約出戰(zhàn)蒙特卡洛,沖擊史無前例三圈“金大師”!

      田先生籃球
      2026-03-26 13:33:00
      三分命中率64.1%,斷層全聯(lián)盟第一!郭士強該給他一個國家隊名額

      三分命中率64.1%,斷層全聯(lián)盟第一!郭士強該給他一個國家隊名額

      弄月公子
      2026-03-26 11:03:13
      重慶警方通報“一小區(qū)有人高空撒錢”:系涉詐嫌犯拋撒贓款

      重慶警方通報“一小區(qū)有人高空撒錢”:系涉詐嫌犯拋撒贓款

      澎湃新聞
      2026-03-26 21:39:03
      網(wǎng)紅“留幾手”調(diào)侃張雪峰去世被禁止關(guān)注,就該讓毫無口德的大V失去舞臺

      網(wǎng)紅“留幾手”調(diào)侃張雪峰去世被禁止關(guān)注,就該讓毫無口德的大V失去舞臺

      極目新聞
      2026-03-26 16:43:13
      家電三巨頭差距斷崖:美的凈利潤385億,海爾187億,格力令人意外

      家電三巨頭差距斷崖:美的凈利潤385億,海爾187億,格力令人意外

      有范又有料
      2026-03-24 10:59:07
      315曝光10個最毒食黑名單!第8個你幾乎天天在吃,看完脊背發(fā)涼

      315曝光10個最毒食黑名單!第8個你幾乎天天在吃,看完脊背發(fā)涼

      現(xiàn)代小青青慕慕
      2026-03-24 08:13:54
      紀(jì)實:浙江幼師幼兒園潛伏22年,警察曝光真實身份,家長很后怕

      紀(jì)實:浙江幼師幼兒園潛伏22年,警察曝光真實身份,家長很后怕

      談史論天地
      2026-03-01 09:49:38
      日媒曝光強闖我駐日使館不法之徒照片;案發(fā)前行動軌跡公布:乘坐新干線到達(dá)東京,在網(wǎng)吧過夜,現(xiàn)場發(fā)現(xiàn)的刀具,其稱是在車站附近購買

      日媒曝光強闖我駐日使館不法之徒照片;案發(fā)前行動軌跡公布:乘坐新干線到達(dá)東京,在網(wǎng)吧過夜,現(xiàn)場發(fā)現(xiàn)的刀具,其稱是在車站附近購買

      大風(fēng)新聞
      2026-03-26 12:13:02
      2026-03-26 23:43:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12608文章數(shù) 142594關(guān)注度
      往期回顧 全部

      科技要聞

      美團(tuán)發(fā)布外賣大戰(zhàn)后成績單:虧損超200億

      頭條要聞

      張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

      頭條要聞

      張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

      體育要聞

      申京努力了,然而杜蘭特啊

      娛樂要聞

      劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

      財經(jīng)要聞

      油價"馴服"特朗普?一到100美元就TACO

      汽車要聞

      一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

      態(tài)度原創(chuàng)

      本地
      旅游
      游戲
      手機
      家居

      本地新聞

      救命,這只醬板鴨已經(jīng)在我手機復(fù)仇了一萬遍

      旅游要聞

      3月26日最佳情報|郊野公園楊柳依依,櫻花爛漫醉游人!恭喜

      "死亡擱淺"外骨骼來了!小島工作室轉(zhuǎn)發(fā)聯(lián)名 原度拉滿

      手機要聞

      OPPO K15 Pro 系列定檔,嵐影呼吸燈搭配金屬中框

      家居要聞

      傍海而居 靜觀蝴蝶海

      無障礙瀏覽 進(jìn)入關(guān)懷版