<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      伊利諾伊大學與谷歌:AI如何讓視頻合成像"拆積木再拼裝"一樣自然

      0
      分享至


      這項由伊利諾伊大學香檳分校的歐茲古爾·卡拉(Ozgur Kara)與谷歌團隊(包括陳宇佳、楊明軒、朱文勝、杜川等研究人員)共同完成的突破性研究,發(fā)表于2025年11月的《計算機視覺與模式識別》(CVPR)會議。感興趣的讀者可以通過論文編號arXiv:2511.20809v1查詢完整研究內容。

      如果說現(xiàn)在的視頻制作就像在廚房里做菜,那傳統(tǒng)方法就是把所有食材混在一鍋里燉煮,很難控制每種味道。而這項研究提出的"分離然后合并"(Split-then-Merge,簡稱StM)技術,就像是教會了AI先把每種食材分別處理好,然后再巧妙地組合在一起,做出既保持原味又和諧統(tǒng)一的美食。

      這項研究要解決的核心問題其實我們在日常生活中經常遇到:當你想把一個視頻中的人物或動物"搬到"另一個完全不同的場景中時,如何讓這種合成看起來既自然又符合物理常識?比如,把一只在森林里奔跑的小豬放到紐約街頭或者月球表面,不僅要讓小豬的動作保持原樣,還要讓它看起來真的屬于那個新環(huán)境——有合適的陰影、符合場景的光線,甚至要"知道"應該在人行道上跑而不是懸浮在空中。

      過去的視頻合成方法就像用膠水簡單地把兩張照片貼在一起——要么只能處理靜態(tài)圖片然后試圖"想象"出動作,要么就是生硬地復制粘貼,完全不考慮新環(huán)境的特點。研究團隊通過大量實驗發(fā)現(xiàn),即使是最先進的現(xiàn)有方法也存在嚴重缺陷:有些會讓黑天鵝莫名其妙變成白天鵝,有些會把本該在水中游泳的天鵝放到陸地上,還有些干脆忽略了原始視頻中的精彩動作。

      一、革命性的"先拆解后組裝"理念

      研究團隊的核心洞察就像一個經驗豐富的廚師發(fā)現(xiàn)的秘訣:要做出完美的菜肴,最好的方法不是從零開始創(chuàng)造,而是先學會如何分解已有的美味佳肴,理解每種食材的作用,然后掌握重新組合的藝術。

      StM技術的工作原理可以想象成這樣一個過程:當你面對一段視頻時,系統(tǒng)首先像一個精準的外科醫(yī)生一樣,將視頻"手術式"地分解成兩個獨立的層次——前景層(比如視頻中的主要角色)和背景層(比如場景環(huán)境)。這個分解過程完全自動化,就像有一雙無形的巧手能夠精確地從蛋糕中取出每一顆葡萄干,而不損壞蛋糕本身的結構。

      這種分解不是簡單的剪切粘貼,而是一個智能化的理解過程。系統(tǒng)會自動識別視頻中的運動主體,比如一只奔跑的獵豹或一個跳舞的人,然后用先進的AI算法為這個主體生成精確的遮罩。同時,它還會智能地"修復"前景被移除后留下的空白區(qū)域,就像PS高手能夠無痕地刪除照片中的路人一樣。最后,系統(tǒng)還會為整個視頻生成一段描述性的文字說明。

      更令人驚嘆的是,這個過程可以處理大規(guī)模的視頻數(shù)據(jù)集,完全不需要人工標注或手動干預。研究團隊利用這種方法處理了超過5萬個視頻片段,創(chuàng)建了迄今為止最大規(guī)模的多層視頻數(shù)據(jù)集——StM-50K。這就像建立了一個巨大的"視頻食材庫",為后續(xù)的合成工作提供了豐富的素材基礎。

      二、智能合成器:掌握"重新組裝"的藝術

      有了分解好的"食材",下一步就是學會如何重新組裝。研究團隊開發(fā)的合成器(Composer)就像一位經驗豐富的調酒師,能夠將不同來源的"原料"調配成既保持各自特色又和諧統(tǒng)一的"雞尾酒"。

      合成器的工作原理建立在先進的擴散變換器(Diffusion Transformer)架構之上,但研究團隊對其進行了三個關鍵的創(chuàng)新改進。

      首先是多層條件融合技術。傳統(tǒng)的視頻生成方法往往只關注單一輸入源,而這里采用的策略更像是一個三維拼圖游戲。系統(tǒng)同時考慮三個視頻輸入:原始的完整視頻、背景場景視頻,以及經過特殊處理的前景視頻。這些不同的信息在模型內部通過巧妙的通道級連接方式進行融合,確保每一個像素點都能同時"看到"所有相關的上下文信息。這就像一個指揮家能夠同時聽到交響樂團中每一種樂器的聲音,然后協(xié)調它們產生和諧的音樂。

      其次是變換感知的數(shù)據(jù)增強策略。為了防止AI走"捷徑"——比如簡單地記住物體應該放在畫面的固定位置——研究團隊設計了一套"訓練障礙課程"。在訓練過程中,系統(tǒng)會隨機對前景物體進行各種變換:水平翻轉、隨機裁剪、縮放調整,甚至改變顏色屬性。這迫使模型不能依賴簡單的位置記憶,而必須真正理解物體與環(huán)境之間的關系。這就像訓練一個廚師,不是讓他死記硬背菜譜,而是讓他在各種不同的廚房條件下都能做出美味的菜肴。

      第三個創(chuàng)新是身份保持損失函數(shù)。傳統(tǒng)的訓練方法對畫面的每個區(qū)域都一視同仁,但這往往導致前景物體的特征在合成過程中被"稀釋"或改變。新的方法就像給不同區(qū)域分配了不同的"重要性權重":對于前景區(qū)域,重點確保物體的外觀和動作特征得到完整保留;對于背景區(qū)域,則重點關注與前景的和諧融合。這種精細化的控制機制確保了最終結果既保持了原始素材的真實性,又實現(xiàn)了自然的視覺融合。

      三、突破傳統(tǒng)方法的技術壁壘

      為了真正理解這項技術的先進性,我們需要看看它與現(xiàn)有方法的根本區(qū)別。

      傳統(tǒng)的視頻合成方法主要分為兩大類,都存在顯著局限性。第一類是"圖片轉視頻"的級聯(lián)方法,這些方法的工作流程就像先畫一張靜態(tài)的設計圖,然后試圖根據(jù)想象為它添加動畫效果。比如,它們會先將兩個視頻的第一幀進行圖像合成,得到一張靜態(tài)圖片,然后使用圖像到視頻的生成模型來"猜測"應該如何讓這張圖片動起來。這種方法的問題就像讓一個從來沒見過跑步的人描述奔跑的動作——因為完全丟失了原始視頻中的運動信息,生成的動畫往往僵硬不自然,或者與原始動作相去甚遠。

      第二類方法雖然能處理完整的視頻輸入,但卻像一個不懂物理常識的搬運工。這些方法可能會機械地將一只天鵝放到草地上,完全不理解天鵝應該在水中;或者在處理過程中改變物體的基本特征,讓黑天鵝變成白天鵝。更有甚者,一些方法在生成過程中會產生運動和外觀的"漂移",就像復印機復印多次后圖像逐漸模糊失真一樣。

      研究團隊通過大量對比實驗驗證了StM技術的優(yōu)越性。在定量評估中,他們使用了四個關鍵指標來衡量合成質量:身份保持度(衡量前景和背景的外觀一致性)、語義動作對齊度(評估前景動作的保真度)、背景運動對齊度(評估相機和場景動態(tài)的保持程度)以及文本對齊度(衡量結果與描述文本的匹配程度)。

      結果顯示,StM在幾乎所有關鍵指標上都顯著優(yōu)于現(xiàn)有方法。特別在運動保持方面,傳統(tǒng)的圖像轉視頻方法由于丟失了原始運動信息,在背景運動對齊度上的得分普遍在74到279之間,而StM的得分僅為16.36,數(shù)值越低表示性能越好。這意味著StM能夠近乎完美地保持原始視頻的相機運動和場景動態(tài)。

      四、讓AI理解"常識":情境感知能力的培養(yǎng)

      StM技術最令人印象深刻的特性之一就是它的"情境感知"能力,這就像培養(yǎng)一個AI助手不僅知道如何執(zhí)行任務,還能理解什么樣的執(zhí)行方式是合理的。

      這種能力的培養(yǎng)主要通過變換感知訓練實現(xiàn)。在傳統(tǒng)訓練方法中,AI往往會學會一些看似聰明實則偷懶的"捷徑"。比如,如果訓練數(shù)據(jù)中的動物總是出現(xiàn)在畫面中央,AI可能就會簡單地記住"把動物放在中間就對了",而不是真正理解動物與環(huán)境的關系。

      為了打破這種惰性學習,研究團隊設計了一套"刻意練習"方案。在訓練過程中,系統(tǒng)會故意對前景物體進行各種隨機變換:有時水平翻轉,有時隨機裁剪,有時調整尺寸,有時改變色調。這就像訓練一個象棋選手,不是讓他只記住開局定式,而是讓他在各種不同的棋局中都能找到最佳走法。

      通過這種訓練方式,AI逐漸學會了真正的"情境理解"。當它看到一只天鵝時,不是機械地將其放置在固定位置,而是會根據(jù)背景環(huán)境做出合理判斷:如果背景是湖泊,就讓天鵝在水中優(yōu)雅游弋;如果背景是草地,就可能讓天鵝在陸地上行走。同樣,當處理一輛汽車時,AI會自然地讓它行駛在道路上而不是漂浮在空中,并且會根據(jù)環(huán)境光線調整車體的陰影和反射。

      這種情境感知能力在實際應用中表現(xiàn)得淋漓盡致。比如,在一個展示案例中,系統(tǒng)成功將一只在森林中奔跑的小豬合成到三個完全不同的環(huán)境中:鄉(xiāng)村道路、紐約街頭和月球表面。在每種情況下,小豬不僅保持了原有的奔跑動作,還展現(xiàn)出了與新環(huán)境相適應的細節(jié):在鄉(xiāng)村道路上有自然的泥土陰影,在紐約街頭有城市光線的反射效果,在月球表面則呈現(xiàn)出低重力環(huán)境下的特殊運動感覺。

      五、從數(shù)據(jù)沙漠到綠洲:StM-50K數(shù)據(jù)集的創(chuàng)建

      傳統(tǒng)的視頻合成研究面臨一個嚴重問題:缺乏高質量的訓練數(shù)據(jù)。這就像想要開辦一所烹飪學校,卻沒有足夠的食材供學生練習。大多數(shù)現(xiàn)有數(shù)據(jù)集要么規(guī)模太小,要么需要大量人工標注,這極大地限制了AI模型的學習能力。

      研究團隊的解決方案就像發(fā)明了一臺自動化的"食材處理機"。他們開發(fā)的分解器(Decomposer)能夠自動處理大規(guī)模的無標注視頻數(shù)據(jù),將其轉換成適合訓練的多層格式。這個過程包含幾個精巧的步驟。

      首先,系統(tǒng)使用先進的視頻-語言模型為每個視頻生成描述性文本標題,這就像為每道菜品寫一份詳細的菜單說明。然后,運動分割模型會自動識別和提取視頻中的主要運動主體,生成精確的前景遮罩。這個過程不是簡單的物體檢測,而是基于運動模式的智能分析,能夠準確區(qū)分真正重要的前景元素。

      最后,也是最具挑戰(zhàn)性的步驟,是背景修復。當前景被移除后,原始視頻中會留下"空洞",就像從拼圖中取走幾塊后留下的空白區(qū)域。系統(tǒng)使用最先進的視頻修復算法來填補這些空白,不是簡單地用周圍的像素進行模糊填充,而是智能地推測和重建被遮擋的背景內容。這個過程需要理解場景的幾何結構、紋理模式和時間連續(xù)性,確保修復后的背景看起來既自然又連貫。

      通過這套自動化流程,研究團隊處理了來自多個數(shù)據(jù)源的視頻:對于Panda-70M和Animal Kingdom等未標注的大規(guī)模數(shù)據(jù)集,應用完整的分解流程;對于YouTube-VOS和LVOS等已有標注的數(shù)據(jù)集,則利用現(xiàn)有的前景遮罩信息,重點進行背景修復和文本生成。最終創(chuàng)建的StM-50K數(shù)據(jù)集包含約5萬個視頻片段,每個片段都包含完整的四層信息:原始視頻、前景視頻、前景遮罩和背景視頻,以及對應的文本描述。

      六、訓練智慧:身份保持與和諧融合的平衡藝術

      訓練一個能夠完美平衡身份保持和環(huán)境融合的AI模型,就像教一位演員既要保持自己的表演風格,又要完美融入不同的戲劇場景。這需要一套精巧的訓練策略。

      傳統(tǒng)的訓練方法通常采用"一刀切"的損失函數(shù),對畫面的每個區(qū)域給予相同的重視程度。但這種方法在視頻合成任務中容易產生問題:如果過分強調整體和諧,前景物體的獨特特征可能被削弱或改變;如果過分保持前景身份,整體畫面可能看起來不協(xié)調,像是簡單的拼貼作品。

      研究團隊設計的身份保持損失函數(shù)就像一個精明的導演,能夠同時關注演員的個人表現(xiàn)和整體戲劇效果。這個函數(shù)將畫面分為兩個區(qū)域:前景區(qū)域和背景區(qū)域,并為每個區(qū)域設置不同的優(yōu)化目標。

      對于前景區(qū)域,損失函數(shù)主要關注身份一致性,確保合成后的物體在外觀、動作和特征方面與原始前景高度一致。這就像確保一位明星演員無論出現(xiàn)在哪個場景中,都能保持其獨特的表演風格和人格魅力。同時,系統(tǒng)還會特別關注動作的連續(xù)性和自然性,防止在合成過程中出現(xiàn)動作扭曲或不協(xié)調的情況。

      對于背景區(qū)域,損失函數(shù)則重點關注融合的自然性。這包括光照的一致性、陰影的合理性、以及前景與背景之間的交互效果。比如,如果一個人在沙灘上行走,系統(tǒng)不僅要保持這個人的步態(tài)特征,還要確保腳印、陰影和光線反射等細節(jié)都符合沙灘環(huán)境的特點。

      更重要的是,這兩個損失項之間的權重是可調節(jié)的,允許根據(jù)具體應用場景的需求進行微調。當應用重點是角色表演時,可以增加前景損失的權重;當應用重點是場景融合時,可以增加背景損失的權重。這種靈活性使得StM技術能夠適應各種不同的創(chuàng)作需求。

      七、全面驗證:從算法評估到人類感知

      為了全面驗證StM技術的有效性,研究團隊設計了一套多維度的評估體系,就像為一款新產品設計全面的質量檢測方案。

      定量評估部分采用了四個核心指標。身份保持度通過計算原始輸入層與分離輸出層之間的ViCLIP嵌入相似性來衡量,分別評估前景和背景的視覺身份一致性。語義動作對齊度使用Video Swin模型分析前景的動作概率分布,通過KL散度來衡量輸入和輸出動作的一致性。背景運動對齊度通過光流場的均方誤差來評估相機運動和場景動態(tài)的保持程度。文本對齊度則衡量最終合成視頻與指導文本之間的語義匹配程度。

      在所有定量指標中,StM都展現(xiàn)出了顯著優(yōu)勢。特別值得注意的是在運動保持方面的表現(xiàn):傳統(tǒng)的圖像轉視頻方法由于缺失原始運動信息,在背景運動對齊度上的得分通常在74-279之間,而StM僅為16.36,這意味著它能夠近乎完美地保持原始視頻的動態(tài)特征。

      定性評估則采用了人類用戶研究和大型視覺語言模型評估相結合的方法。研究團隊在Prolific平臺招募了50名評估者,對隨機選擇的25個測試樣本進行成對比較。評估者需要根據(jù)五個維度對StM與各基線方法進行比較:前景和背景的身份保持度、前景和背景的運動對齊度、前景與背景的和諧性,以及整體視覺質量。

      用戶研究的結果令人印象深刻。在大多數(shù)比較中,StM的勝率都超過了70%,在某些維度上甚至達到90%以上。特別是在運動保持和身份一致性方面,StM顯示出壓倒性的優(yōu)勢,這驗證了其核心設計理念的有效性。

      為了進一步確保評估的客觀性和規(guī)模化,研究團隊還使用了Gemini 2.5 Pro作為自動化評審,對完整的測試數(shù)據(jù)集進行評估。有趣的是,AI評審的結果與人類評估者高度一致,這不僅驗證了StM技術的優(yōu)越性,也表明了評估方法的可靠性。

      八、深入解析:關鍵組件的作用機制

      為了更好地理解StM技術的有效性,研究團隊進行了詳細的消融研究,就像拆解一臺精密儀器來了解每個零件的作用。

      首先是變換感知數(shù)據(jù)增強的作用。當移除這個組件時,模型傾向于學習"復制粘貼"的捷徑策略,雖然在前景身份保持方面得分很高(90.39),但這實際上是一種虛假的優(yōu)勢,因為模型只是機械地記住了前景物體的位置,而沒有真正學會合成。這種捷徑學習在背景運動對齊度上表現(xiàn)較差(18.59),說明模型無法很好地處理動態(tài)環(huán)境。

      其次是身份保持損失函數(shù)的重要性。當移除這個組件時,雖然變換感知增強迫使模型進行真正的合成,但缺乏精細化的區(qū)域權重控制,導致前景身份保持度下降到82.01,背景運動對齊度也惡化到23.75。這表明精細化的損失函數(shù)設計對于平衡不同目標確實至關重要。

      完整的StM模型結合了兩個組件的優(yōu)勢:通過變換感知增強避免了捷徑學習,通過身份保持損失實現(xiàn)了最佳的平衡點。雖然在某些單一指標上可能不是絕對最優(yōu),但在綜合性能上達到了最佳的平衡,這正是實際應用中最需要的特質。

      九、實際應用展示:從概念到現(xiàn)實

      研究團隊通過大量的實際案例展示了StM技術的強大能力和廣泛適用性。這些案例就像一系列精彩的魔術表演,每一個都展現(xiàn)出技術的不同側面。

      在一個令人印象深刻的案例中,系統(tǒng)成功地將一只在草地上奔跑的山羊合成到了三個截然不同的環(huán)境中:森林小徑、城市街道和海灘。在每種環(huán)境下,山羊不僅保持了原有的奔跑姿態(tài)和速度節(jié)奏,還展現(xiàn)出了與環(huán)境相匹配的細節(jié)效果。在森林環(huán)境中,陽光透過樹葉在山羊身上形成斑駁的光影;在城市環(huán)境中,建筑物的反射光線讓山羊的毛色呈現(xiàn)出不同的色調;在海灘環(huán)境中,海風似乎吹拂著山羊的毛發(fā),整體畫面充滿了海邊特有的明亮氛圍。

      另一個展示情境感知能力的精彩案例是船只的合成。當將一艘小船從平靜的湖面合成到波濤洶涌的海面時,系統(tǒng)不僅調整了船只的姿態(tài)以匹配海浪的起伏,還巧妙地修改了船身在水中的深度和周圍水花的形態(tài)。這種細致入微的調整體現(xiàn)了系統(tǒng)對物理規(guī)律的深度理解,就像一個經驗豐富的電影特效師能夠準確把握不同環(huán)境下物體的表現(xiàn)方式。

      在動物合成方面,系統(tǒng)展現(xiàn)了對生物行為的精確理解。當將一只天鵝從陸地環(huán)境合成到水面環(huán)境時,系統(tǒng)不僅改變了天鵝的姿態(tài)——從陸地行走姿勢轉為水面游泳姿勢——還添加了水波紋理、倒影效果和符合水面環(huán)境的光線反射。這種變化不是簡單的圖像疊加,而是基于對天鵝自然行為的深度理解。

      人物合成案例則展示了系統(tǒng)處理復雜人體動作的能力。在一個網球運動員的合成案例中,系統(tǒng)將一個在室內練習場揮拍的運動員成功合成到了戶外草地球場。不僅運動員的揮拍動作得到了完美保持,連細微的身體重心轉移、肌肉緊張狀態(tài)都保持了原有的真實感。同時,系統(tǒng)還根據(jù)戶外環(huán)境的特點調整了光照效果,添加了草地上的陰影,甚至考慮了風力對運動員服裝的影響。

      十、技術實現(xiàn)與計算效率

      StM技術的另一個重要優(yōu)勢在于其高效的計算架構設計,這就像設計一臺既強大又節(jié)能的機器。

      在訓練階段,研究團隊采用了基于CogVideoX-I2V模型的架構,這是一個已經在大規(guī)模數(shù)據(jù)上預訓練的強大基礎模型。通過遷移學習的方式,StM在這個穩(wěn)固基礎上添加了專門的組件,而不是從零開始構建整個系統(tǒng)。這種設計策略大大減少了訓練所需的計算資源和時間。

      訓練過程在16張NVIDIA H100 GPU上進行,總批次大小為64,使用了混合精度訓練技術來進一步提高效率。整個訓練過程需要2萬次迭代,相比從頭訓練一個視頻生成模型,這個訓練周期相對較短。訓練采用了AdamW優(yōu)化器,配合余弦學習率調度策略,確保了訓練過程的穩(wěn)定性和收斂性。

      在推理階段,StM的計算效率表現(xiàn)尤為突出。由于系統(tǒng)嚴格保持了基礎模型的架構,僅在輸入階段添加了輕量級的投影層,因此推理過程的計算復雜度與原始I2V模型幾乎相同。這意味著用戶能夠以接近傳統(tǒng)圖像到視頻生成的速度獲得更高質量的視頻合成結果。

      唯一的額外計算開銷來自于對多個視頻層的編碼過程,但這是一次性的預處理步驟,在實際的迭代去噪過程中不會產生額外負擔。這種設計使得StM技術具有很強的實用性,可以在相對普通的硬件條件下實現(xiàn)高質量的視頻合成。

      十一、局限性與未來發(fā)展方向

      正如任何突破性技術都有其發(fā)展邊界,StM技術也存在一些當前階段的局限性,這為未來的研究指明了方向。

      最主要的局限來自于設計理念上的權衡。StM技術被設計為優(yōu)先保持輸入視頻的運動和外觀特征,這有時會以犧牲對文本描述的嚴格遵循為代價。在定量評估中可以看到,純文本驅動的基線方法在文本對齊度上得分更高,而StM在這個指標上相對較低。這反映了一個根本性的設計選擇:是優(yōu)先保持視覺輸入的真實性,還是優(yōu)先滿足文本描述的要求?

      研究團隊選擇了前者,認為在大多數(shù)實際應用場景中,用戶更希望保持原始視頻素材的特色和魅力,而不是完全按照文本描述重新創(chuàng)造內容。但這確實意味著,在某些特別強調語義控制的應用中,StM可能需要進一步的改進。

      另一個局限性來自于對分解器質量的依賴。StM的整體性能在很大程度上依賴于運動分割和視頻修復等預處理步驟的質量。如果分解器在提取前景遮罩時出現(xiàn)錯誤,或者在背景修復時產生瑕疵,這些問題會被傳遞到最終的合成結果中。雖然合成器具有一定的容錯能力,但它無法完全補償前期處理中的重大錯誤。

      從計算資源的角度來看,雖然推理階段相對高效,但訓練階段仍然需要相當規(guī)模的計算資源。變換感知訓練管道需要同時處理多個視頻輸入的編碼,這在訓練階段會產生較大的內存和計算開銷。對于資源受限的研究團隊或個人開發(fā)者,這可能構成一定的門檻。

      展望未來,研究團隊指出了幾個有前景的發(fā)展方向。首先是探索動態(tài)權重平衡機制,能夠根據(jù)具體應用場景自動調整視覺保真度和語義控制之間的平衡。其次是改進分解器的魯棒性,特別是在處理復雜場景和多主體視頻時的表現(xiàn)。最后是探索更加高效的訓練策略,可能通過知識蒸餾或參數(shù)高效微調技術來降低訓練成本。

      歸根結底,這項由伊利諾伊大學香檳分校與谷歌聯(lián)合開展的研究為視頻合成領域帶來了一個全新的解決方案。StM技術就像是視頻制作工具箱中的一把精密瑞士軍刀,不僅能夠處理復雜的合成任務,還能保持結果的自然性和真實感。更重要的是,它開創(chuàng)了一種全新的思路:通過大規(guī)模自動化的數(shù)據(jù)處理來解決訓練數(shù)據(jù)稀缺的問題,這種方法論很可能會影響整個AI視頻生成領域的發(fā)展方向。

      雖然技術還有改進空間,但StM已經展現(xiàn)出了在電影制作、廣告創(chuàng)意、教育內容制作等領域的巨大應用潛力。隨著技術的不斷完善和計算資源的普及,我們有理由期待看到更多基于這種"分離然后合并"理念的創(chuàng)新應用,讓視頻創(chuàng)作變得更加靈活、高效和富有創(chuàng)意。

      Q&A

      Q1:Split-then-Merge技術相比傳統(tǒng)視頻合成有什么優(yōu)勢?

      A:StM技術最大的優(yōu)勢是能夠同時保持原始視頻的動作特征和實現(xiàn)智能的環(huán)境適應。傳統(tǒng)方法要么只能處理靜態(tài)圖像然后"猜測"動作,要么機械地復制粘貼而忽略物理常識。StM就像一個既懂得保持角色本色又能融入新環(huán)境的演員,能讓一只在森林奔跑的小豬自然地適應紐約街頭或月球表面,既保持原有動作又有合適的陰影和光照效果。

      Q2:StM-50K數(shù)據(jù)集是怎么創(chuàng)建的?

      A:研究團隊開發(fā)了一套完全自動化的"分解器",就像一臺智能的視頻處理機。它能自動將普通視頻分解成前景主體、背景場景和文字描述三個部分,無需人工標注。系統(tǒng)先用AI識別視頻中的運動主體并生成精確遮罩,然后智能修復背景中的空白區(qū)域,最后生成描述文本。通過處理5萬個視頻片段,創(chuàng)建了目前最大規(guī)模的多層視頻數(shù)據(jù)集。

      Q3:普通用戶什么時候能用上這種視頻合成技術?

      A:目前StM還是研究階段的技術,但其核心理念和方法已經為商業(yè)化應用奠定了基礎。考慮到技術的計算效率較高,推理速度接近傳統(tǒng)方法,預計在硬件進一步普及和算法優(yōu)化后,可能會首先出現(xiàn)在專業(yè)視頻制作軟件中,然后逐步普及到消費級應用。不過具體的商業(yè)化時間表還需要看產業(yè)界的技術轉化進度。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      “新疆棉”事件5年后,那個丑態(tài)百出的“反華妖女”,如今怎樣了

      “新疆棉”事件5年后,那個丑態(tài)百出的“反華妖女”,如今怎樣了

      博覽歷史
      2025-09-10 20:25:07
      不同品牌奧司他韋售價差70倍

      不同品牌奧司他韋售價差70倍

      大象新聞
      2025-12-12 21:57:01
      香港神秘男子花600萬港幣求購5套大埔火災房,稱不在乎破壞程度及死亡事件!港府:災前入住才能獲補助和安置

      香港神秘男子花600萬港幣求購5套大埔火災房,稱不在乎破壞程度及死亡事件!港府:災前入住才能獲補助和安置

      澳門月刊
      2025-12-12 09:28:45
      五月天經紀人8字回懟朱孝天,狠狠替F4出了口惡氣,大S沒說謊

      五月天經紀人8字回懟朱孝天,狠狠替F4出了口惡氣,大S沒說謊

      老范談史
      2025-12-10 19:22:28
      2026養(yǎng)老金調整信號落地,不按工齡漲么,答案在這幾個關鍵信號里

      2026養(yǎng)老金調整信號落地,不按工齡漲么,答案在這幾個關鍵信號里

      陳博世財經
      2025-12-12 14:21:46
      增設兩個車站,佛穗莞城際鐵路新進展

      增設兩個車站,佛穗莞城際鐵路新進展

      南方都市報
      2025-12-09 11:22:08
      中國首例五胞胎終于長大了,父親因勞累去世,母親直言后悔生下他們

      中國首例五胞胎終于長大了,父親因勞累去世,母親直言后悔生下他們

      等風來育兒聯(lián)盟
      2025-08-01 12:21:35
      全紅嬋擔心的事還是發(fā)生,老家別墅剛封頂,爸媽就走上大衣哥老路

      全紅嬋擔心的事還是發(fā)生,老家別墅剛封頂,爸媽就走上大衣哥老路

      以茶帶書
      2025-11-21 12:08:09
      WTT總決賽12月13日賽程緊湊!混雙半決賽+決賽!女單半決賽開打

      WTT總決賽12月13日賽程緊湊!混雙半決賽+決賽!女單半決賽開打

      郝小小看體育
      2025-12-13 05:21:07
      放棄中國國籍投靠日本,結果日本不收中國不要,成為夾縫中的黑戶

      放棄中國國籍投靠日本,結果日本不收中國不要,成為夾縫中的黑戶

      牛牛叨史
      2025-12-13 02:23:07
      樊振東與小朱大夢的友情,真摯而暖心

      樊振東與小朱大夢的友情,真摯而暖心

      眼界看視野
      2025-12-12 20:58:53
      西甲變天:姆巴佩重返世界第1 皇馬妖星暴漲3000萬 貝林跌至1.6億

      西甲變天:姆巴佩重返世界第1 皇馬妖星暴漲3000萬 貝林跌至1.6億

      風過鄉(xiāng)
      2025-12-12 20:54:43
      曼聯(lián)冬窗簽中場計劃曝光,或嘗試壓哨租加拉格爾!三大首選皆沒戲

      曼聯(lián)冬窗簽中場計劃曝光,或嘗試壓哨租加拉格爾!三大首選皆沒戲

      羅米的曼聯(lián)博客
      2025-12-13 11:02:12
      “我剛收到莫斯科的消息……”武契奇與馮德萊恩低語被意外錄下,后者打斷談話

      “我剛收到莫斯科的消息……”武契奇與馮德萊恩低語被意外錄下,后者打斷談話

      環(huán)球網資訊
      2025-12-12 10:54:53
      女孩曬出已故父親合影,沒想到卻是網友先繃不住了:這不是……

      女孩曬出已故父親合影,沒想到卻是網友先繃不住了:這不是……

      譚老師地理大課堂
      2025-12-11 22:20:25
      一年兩次分紅股息率5%,股價從94元跌到35元,市盈率僅7倍

      一年兩次分紅股息率5%,股價從94元跌到35元,市盈率僅7倍

      投資觀
      2025-12-13 07:10:03
      外賣時代將被終結?一個全新行業(yè)正悄悄取代外賣,你準備好了嗎?

      外賣時代將被終結?一個全新行業(yè)正悄悄取代外賣,你準備好了嗎?

      貓叔東山再起
      2025-12-10 10:05:04
      在國安局維修電臺18年,退役前夜發(fā)現(xiàn)一臺廢機有神秘信號!

      在國安局維修電臺18年,退役前夜發(fā)現(xiàn)一臺廢機有神秘信號!

      千秋文化
      2025-12-08 10:53:53
      說說大V九邊為何如此感嘆“《芳華》又火了”

      說說大V九邊為何如此感嘆“《芳華》又火了”

      人格志
      2025-12-06 00:06:19
      每天這樣跪趴10分鐘,內分泌正常了,肩頸腰背都不痛了!

      每天這樣跪趴10分鐘,內分泌正常了,肩頸腰背都不痛了!

      瑜伽解剖學
      2025-11-26 16:19:27
      2025-12-13 12:04:49
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業(yè)世界
      6531文章數(shù) 542關注度
      往期回顧 全部

      科技要聞

      比亞迪、小鵬、北汽,集體表態(tài)

      頭條要聞

      央媒談美新國安報告:時隔8年 美國提到中國的語氣變了

      頭條要聞

      央媒談美新國安報告:時隔8年 美國提到中國的語氣變了

      體育要聞

      有了風騷白人禿頭,忘掉談了10年的前任

      娛樂要聞

      保劍鋒方回應爭議,否認出軌贈送香水

      財經要聞

      鎂信健康闖關港交所:被指竊取商業(yè)秘密

      汽車要聞

      表面風平浪靜 內里翻天覆地!試駕銀河星艦7 EM-i

      態(tài)度原創(chuàng)

      游戲
      本地
      房產
      公開課
      軍事航空

      《生化危機9》里昂保時捷座駕車牌號竟藏匿彩蛋

      本地新聞

      云游安徽|阜陽三朝風骨,傳承千年墨香

      房產要聞

      每日狂增1300+企業(yè)!封關在即,海南徹底爆發(fā)!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      俄烏“和平計劃”磋商頓巴斯成焦點

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 无码人妻精品一区二区三区温州| 国产精品爽爽久久久久久蜜臀| 99精品久久毛片a片| 亚洲30p| 亚洲电影在线观看| 欧美午夜精品一区二区三区电影| 无码熟妇人妻av在线影片| 乱女乱妇熟女熟妇综合网| 五月婷女| 少妇激情av一区二区| 嗯91色色| 日韩精品无码不卡无码| 久久精品亚洲中文无东京热| 欧美激情猛片xxxⅹ大3| 曰本丰满熟妇xxxx性| 国产av夜夜欢一区二区三区| 婷婷开心激情综合五月天| 亚洲天堂伊人久久a成人| 亚洲永久精品ww47| 亚洲最大免费色情网| 亚洲黄色成人网| 奉新县| 国产乱子伦一区二区三区四区五区| 国产高清一区二区三区视频| 富婆如狼似虎找黑人老外| 秋霞电影网| 第一宅男AV导航| 色综合久久中文| 国产精品免费看久久久| 中文字幕亚洲一区二区va在线| 九九免费精品视频| 午夜dv内射一区二区| 国产欧美日韩va另类在线播放| 欧美激情在线播放| 91视频观看| 亚洲中文字幕在线观看| 日逼| 亚洲成人不卡| 又大又长粗又爽又黄少妇视频| 最新亚洲人成无码网站欣赏网 | 人妻精品久久久久中文字幕19|