<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      計算所 x 上交大論文:只用雙人數(shù)據(jù),也能生成多人動畫丨CVPR 2026

      0
      分享至


      MultiAnimate:利用身份編碼與空間關(guān)系建模提升互動生成穩(wěn)定性。

      作者丨鄭佳美

      編輯丨岑 峰

      在視覺生成領(lǐng)域,從圖像生成到視頻生成,研究的核心問題正逐漸從“能否生成內(nèi)容”轉(zhuǎn)向“能否生成可控且結(jié)構(gòu)正確的內(nèi)容”。

      尤其是在人物動畫生成任務(wù)中,研究人員不僅希望模型能夠生成具有真實感的畫面,還希望生成過程能夠受到精確控制,例如通過輸入人物圖像與動作姿態(tài)序列,使模型自動生成連續(xù)的人物動畫。在這一方向上,姿態(tài)驅(qū)動的人物圖像動畫已經(jīng)取得了顯著進展。然而,這些方法大多集中于單人物場景,當(dāng)生成對象擴展到多人物時,問題的復(fù)雜度會顯著增加。

      而在在多人物動畫生成過程中,模型不僅需要保持每個人物外觀的穩(wěn)定性,還必須在動態(tài)過程中正確建立人物與動作之間的對應(yīng)關(guān)系,并處理人物之間的空間交互。如果模型無法持續(xù)區(qū)分不同人物,生成結(jié)果就容易出現(xiàn)身份混淆、動作錯位或空間關(guān)系不合理等問題。因此,如何在復(fù)雜互動過程中保持人物身份一致,并同時建模多人物之間的空間關(guān)系,已經(jīng)成為多人物視頻生成研究中的關(guān)鍵挑戰(zhàn)。

      在這樣的研究背景下,來自中國科學(xué)院計算技術(shù)研究所與上海交通大學(xué)等機構(gòu)的研究團隊提出了一種新的多人物動畫生成框架,并發(fā)表了題為《MultiAnimate: Pose-Guided Image Animation Made Extensible》的研究工作。這項研究通過引入人物身份標(biāo)識機制以及基于人物掩碼的空間關(guān)系建模方法,使生成模型能夠在多人物互動過程中持續(xù)區(qū)分不同個體,并保持人物外觀與動作的一致性。

      值得注意的是,這個方法在訓(xùn)練階段只使用雙人數(shù)據(jù),卻能夠在推理階段擴展到三人甚至更多人物的動畫生成任務(wù),為多人物視頻生成提供了一種具有良好擴展性的解決思路。


      01


      從雙人到多人:模型生成能力的驗證

      從實驗的整體來看,MultiAnimate 在多人物動畫生成任務(wù)中明顯優(yōu)于現(xiàn)有方法,并且具有很強的擴展能力和泛化能力。

      研究人員首先在 Swing Dance 數(shù)據(jù)集上測試模型性能。這個數(shù)據(jù)集包含大量雙人舞蹈視頻,人物之間的互動非常復(fù)雜,例如旋轉(zhuǎn)、交換位置以及身體接觸等。實驗結(jié)果顯示,MultiAnimate 生成的視頻在視覺上更加真實,人物動作與輸入姿態(tài)更加一致,視頻幀之間的連續(xù)性更好,同時人物身份保持更加穩(wěn)定。

      相比之下,其他方法在復(fù)雜交互場景中容易出現(xiàn)多種問題。例如,當(dāng)兩個人旋轉(zhuǎn)或靠近時,模型容易出現(xiàn)身份混亂的現(xiàn)象,人物外觀可能被混淆,甚至出現(xiàn)衣服突然交換的情況。當(dāng)兩個人互相遮擋時,一些模型會產(chǎn)生遮擋錯誤,導(dǎo)致身體部位生成不正確,例如手臂位置異常。

      此外,在復(fù)雜動作過程中,一些方法還會導(dǎo)致背景質(zhì)量下降,出現(xiàn)背景模糊或者抖動的現(xiàn)象。而 MultiAnimate 在整個視頻生成過程中能夠保持每個人的外觀一致,動作順序合理,人物之間的空間關(guān)系穩(wěn)定,這說明該方法在理解多人物空間關(guān)系方面具有更強的能力。


      研究團隊還在 Gen-dataset 上對模型進行了測試。這個數(shù)據(jù)集由視頻生成模型自動生成,包含兩人或三人場景,并且具有不同背景環(huán)境和不同動作組合。實驗結(jié)果表明,即使模型沒有專門在該數(shù)據(jù)集上進行訓(xùn)練,仍然能夠生成質(zhì)量較高的視頻。

      具體表現(xiàn)為動作控制準(zhǔn)確,人物外觀保持一致,并且視頻在時間維度上具有良好的連續(xù)性。不過研究人員也發(fā)現(xiàn),由于場景更加復(fù)雜,在某些視覺感知指標(biāo)上優(yōu)勢略小,這說明模型在更加復(fù)雜環(huán)境中的表現(xiàn)仍然存在進一步提升的空間。


      在泛化能力測試中,研究團隊使用來自社交媒體的視頻作為測試數(shù)據(jù),這些視頻包含三人舞蹈、四人舞蹈以及最多七人同時參與的舞蹈場景。這些數(shù)據(jù)完全沒有參與模型訓(xùn)練。

      實驗結(jié)果發(fā)現(xiàn),即使模型只使用兩個人的視頻進行訓(xùn)練,仍然能夠生成三人動畫以及更多人物參與的互動動畫,并且可以正確區(qū)分不同人物,保持每個人物的身份一致,同時能夠正確生成多人物之間的空間關(guān)系。這說明模型具有很強的擴展能力,也意味著訓(xùn)練人數(shù)與最終生成人數(shù)并不完全一致,模型能夠推廣到更加復(fù)雜的多人物場景。


      此外,研究還展示了大量生成視頻的畫面對比結(jié)果。可視化分析發(fā)現(xiàn),一些已有方法例如 MimicMotion 和 DisPose 在動畫生成初期就可能出現(xiàn)人物身份混亂的情況,例如人物衣服顏色突然發(fā)生變化,或者兩個角色在交換位置之后身份發(fā)生混淆。

      還有一些方法例如 UniAnimate-DiT 和 VACE 在簡單動作階段表現(xiàn)較好,但在復(fù)雜的人物互動之后仍然容易出現(xiàn)身份交換以及遮擋錯誤等問題。相比之下,MultiAnimate 在整個視頻生成過程中都能夠保持人物身份穩(wěn)定,動作生成合理,并且人物之間的空間關(guān)系正確,因此在視覺效果上明顯優(yōu)于其他方法。

      02


      MultiAnimate 的構(gòu)建與驗證路徑

      為了得到上述實驗結(jié)果,研究人員先是于數(shù)據(jù)準(zhǔn)備階段,在實驗中使用了三類數(shù)據(jù)。第一類是 Swing Dance 數(shù)據(jù)集,這是一個雙人舞蹈視頻數(shù)據(jù)集,總時長約為 30 小時,包含 680 對舞者。

      數(shù)據(jù)中存在大量旋轉(zhuǎn)動作、人物互動動作以及頻繁的人物遮擋現(xiàn)象,因此非常適合用于訓(xùn)練模型理解多人物之間的空間關(guān)系。在訓(xùn)練過程中,模型通過這些視頻學(xué)習(xí)兩個人如何進行互動,如何在動作過程中保持人物身份一致,以及在人物相互遮擋時如何正確處理空間關(guān)系。

      第二類數(shù)據(jù)是 Gen-dataset 數(shù)據(jù)集,研究團隊利用視頻生成模型 Wan2.2 自動生成了 2079 個視頻,每個視頻長度約為 5 秒。這些視頻包含兩人或三人的場景,并具有不同的背景環(huán)境和不同的動作組合。使用這一數(shù)據(jù)集的目的主要有兩個,一是增加訓(xùn)練場景的多樣性,二是提高模型的泛化能力。

      第三類數(shù)據(jù)來自社交媒體平臺 TikTok 的舞蹈視頻,這些視頻中通常包含三到七個人同時跳舞,動作復(fù)雜且場景多樣。這部分?jǐn)?shù)據(jù)只用于測試模型性能,并不參與訓(xùn)練,主要用于驗證模型是否能夠推廣到更多人物的場景。


      在模型訓(xùn)練之前,研究人員還對視頻數(shù)據(jù)進行了預(yù)處理。預(yù)處理主要包括兩個步驟。第一步是姿態(tài)提取,研究人員使用人體姿態(tài)檢測模型提取人物的骨架信息,這些骨架信息可以表示人物的手臂位置、腿部位置以及整體身體姿態(tài)。

      通過這些骨架序列,模型能夠根據(jù)姿態(tài)信息驅(qū)動人物動作生成。第二步是人物掩碼提取,研究人員使用視頻分割方法生成每個人物的追蹤掩碼。掩碼能夠表示在每一幀圖像中哪些像素屬于人物 A,哪些像素屬于人物 B,從而使模型能夠區(qū)分不同的人物。


      模型訓(xùn)練過程分為兩個階段。在第一階段訓(xùn)練中,研究人員使用 Swing Dance 數(shù)據(jù)集對模型進行訓(xùn)練,訓(xùn)練目標(biāo)是讓模型學(xué)習(xí)雙人之間的互動關(guān)系。訓(xùn)練設(shè)置為大約 40 個訓(xùn)練周期,總訓(xùn)練步數(shù)約為 7000 步,每個GPU的 batch size 為 1,訓(xùn)練過程中使用兩張 A100 GPU。在這一階段訓(xùn)練完成后,模型最多可以支持三個人的動畫生成。

      第二階段訓(xùn)練是在第一階段的基礎(chǔ)上繼續(xù)進行,研究人員加入 Gen-dataset 數(shù)據(jù)集進行訓(xùn)練,其主要目的是提高模型對不同場景環(huán)境的適應(yīng)能力。第二階段訓(xùn)練約進行 3 個周期,總訓(xùn)練步數(shù)約為 2400 步。除此之外,研究團隊還訓(xùn)練了一個擴展版本模型,這一模型可以支持最多七個人的動畫生成。擴展模型仍然使用雙人數(shù)據(jù)進行訓(xùn)練,但通過新的訓(xùn)練策略使模型能夠?qū)W習(xí)區(qū)分更多人物,該模型訓(xùn)練了 24 個周期。

      在對比實驗中,研究人員將 MultiAnimate 與多個已有模型進行了比較,包括 UniAnimate-DiT、MimicMotion、DisPose 和 VACE。實驗主要比較視頻質(zhì)量、動作生成的準(zhǔn)確性、人物身份一致性以及視頻時間連續(xù)性等方面。實驗結(jié)果顯示,MultiAnimate 在幾乎所有指標(biāo)上都優(yōu)于這些方法。

      此外,研究團隊還進行了消融實驗,用于驗證各個模塊設(shè)計是否有效。消融實驗主要測試了兩種設(shè)計。第一種是基于人物掩碼的 Mask-driven 設(shè)計,如果去掉這一設(shè)計,模型在生成視頻時容易出現(xiàn)人物身份混亂以及空間關(guān)系錯誤的問題。

      實驗結(jié)果說明,掩碼設(shè)計能夠幫助模型更好地理解人物之間的位置關(guān)系。第二種是 Identifier 模塊設(shè)計,其中包括 Identifier Assigner 和 Identifier Adapter 兩個模塊,這兩個模塊的作用是為每個人物分配唯一的身份標(biāo)識。如果去掉這兩個模塊,模型在多人物場景中容易出現(xiàn)身份交換和動作混亂的現(xiàn)象。實驗結(jié)果表明,這兩個模塊能夠顯著提升模型在多人物動畫生成中的穩(wěn)定性。


      03


      突破多人物動畫生成的關(guān)鍵瓶頸

      總的來說,這項研究的實驗意義主要體現(xiàn)在三個方面。首先,在多人物動畫生成任務(wù)中,傳統(tǒng)方法大多只針對單人物動畫進行研究,當(dāng)場景中出現(xiàn)多人時,模型往往容易出現(xiàn)身份混亂、動作錯誤以及空間關(guān)系不正確等問題。針對這一情況,研究團隊提出了 MultiAnimate 方法,通過身份標(biāo)識機制、人物掩碼以及空間關(guān)系建模,使模型能夠在生成視頻時正確區(qū)分不同人物,并保持人物之間的空間關(guān)系,從而提升了多人物動畫生成的穩(wěn)定性和準(zhǔn)確性。

      其次,在人物數(shù)量的擴展能力方面,傳統(tǒng)方法通常需要按照固定人數(shù)進行訓(xùn)練,例如兩人模型只能生成兩人動畫,如果需要生成更多人物的動畫,就需要重新收集數(shù)據(jù)并重新訓(xùn)練模型。而在這一研究中,研究人員發(fā)現(xiàn),只使用兩人數(shù)據(jù)進行訓(xùn)練,模型仍然可以生成三人甚至更多人物參與的動畫,這說明模型在多人物場景中的擴展能力得到了明顯提升。

      最后,在數(shù)據(jù)利用效率方面,收集包含多人物互動的視頻數(shù)據(jù)往往成本較高,因此獲取大規(guī)模多人物數(shù)據(jù)集比較困難。研究結(jié)果表明,只需要少量雙人數(shù)據(jù),就能夠訓(xùn)練出支持多人物動畫生成的模型,這在實際應(yīng)用中具有重要價值。

      04


      MultiAnimate 背后的科研工作者

      論文的通訊作者為安竹林,現(xiàn)為中國科學(xué)院計算技術(shù)研究所的副研究員,同時也是博士生導(dǎo)師,長期從事人工智能和計算機視覺相關(guān)研究工作。他在中國科學(xué)院獲得博士學(xué)位后,一直在該研究機構(gòu)從事科研與人才培養(yǎng)工作。

      研究方向方面,安竹林的研究主要集中在神經(jīng)網(wǎng)絡(luò)加速和計算機視覺兩個領(lǐng)域。他的研究關(guān)注如何提高深度學(xué)習(xí)模型的效率,以及如何將深度學(xué)習(xí)技術(shù)應(yīng)用到視覺理解和視覺生成任務(wù)中,例如圖像識別、視頻分析以及視覺模型優(yōu)化等問題。

      在研究成果方面,安竹林及其研究團隊圍繞深度學(xué)習(xí)模型效率和視覺任務(wù)展開了多項研究。另一些研究則關(guān)注視覺任務(wù)中的模型設(shè)計與性能提升,通過改進算法方法來提高圖像識別或視覺理解的效果。這些研究不僅推動了計算機視覺技術(shù)的發(fā)展,也為深度學(xué)習(xí)模型在實際場景中的應(yīng)用提供了重要技術(shù)基礎(chǔ)。


      參考鏈接:https://oldoc.github.io/

      論文的另一位通訊作者為劉松華,目前任職于上海交通大學(xué)人工智能學(xué)院,擔(dān)任助理教授,主要從事計算機視覺與人工智能相關(guān)研究。在進入高校任教之前,他曾在新加坡國立大學(xué)完成博士學(xué)位,研究方向集中在深度學(xué)習(xí)與視覺生成等領(lǐng)域。

      在研究方向方面,劉松華的工作主要集中在計算機視覺和機器學(xué)習(xí)領(lǐng)域,重點關(guān)注視覺生成模型、數(shù)據(jù)蒸餾、模型適配以及深度學(xué)習(xí)模型效率提升等問題。這些研究內(nèi)容主要圍繞如何提高生成模型的質(zhì)量、效率以及在實際場景中的應(yīng)用能力展開。

      在學(xué)術(shù)成果方面,他在人工智能和計算機視覺領(lǐng)域發(fā)表了多篇學(xué)術(shù)論文,相關(guān)研究成果被多個國際重要學(xué)術(shù)會議收錄。同時,他還參與提出了多種視覺生成與圖像處理方法,例如利用神經(jīng)網(wǎng)絡(luò)自動生成繪畫筆觸的繪畫生成方法,以及通過改進注意力機制提升圖像風(fēng)格遷移效果的方法。這些研究成果在圖像生成、藝術(shù)風(fēng)格遷移以及視覺內(nèi)容生成等方向具有一定影響。


      參考鏈接: https://huage001.github.io/

      未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載!

      公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      《浪姐》宋妍霏遭疑「墊屁股」 霸氣曬白眼照回?fù)簦荷訇P(guān)注人的臀

      《浪姐》宋妍霏遭疑「墊屁股」 霸氣曬白眼照回?fù)簦荷訇P(guān)注人的臀

      ETtoday星光云
      2026-03-27 10:38:09
      馬杜羅下場敲警鐘!俄羅斯立死規(guī):敢抓普京、拘俄公民,直接出兵

      馬杜羅下場敲警鐘!俄羅斯立死規(guī):敢抓普京、拘俄公民,直接出兵

      溫讀史
      2026-03-27 17:46:44
      重磅!伊朗已回復(fù)15點停火協(xié)議,最關(guān)鍵的48小時來了

      重磅!伊朗已回復(fù)15點停火協(xié)議,最關(guān)鍵的48小時來了

      風(fēng)風(fēng)順
      2026-03-27 03:15:05
      TA:馬奎爾團隊不清楚曼聯(lián)的想法;他已吸取教訓(xùn)不再帶傷上陣

      TA:馬奎爾團隊不清楚曼聯(lián)的想法;他已吸取教訓(xùn)不再帶傷上陣

      懂球帝
      2026-03-27 17:08:17
      瞞天過海40年!李嘉誠成最大贏家,日產(chǎn)百萬桶,把石油全賣給中國

      瞞天過海40年!李嘉誠成最大贏家,日產(chǎn)百萬桶,把石油全賣給中國

      阿鳧愛吐槽
      2026-03-24 00:54:18
      出大事了,美國突然倒向烏克蘭,俄方亮明態(tài)度,歐盟反應(yīng)令人意外

      出大事了,美國突然倒向烏克蘭,俄方亮明態(tài)度,歐盟反應(yīng)令人意外

      興史興談
      2026-03-26 18:35:42
      富人圈子里選兒媳鐵律:美貌和文憑都是浮云,這3個品質(zhì)缺一不可

      富人圈子里選兒媳鐵律:美貌和文憑都是浮云,這3個品質(zhì)缺一不可

      千秋文化
      2026-02-15 20:12:48
      剛剛,廣東一地下冰雹!最新提醒

      剛剛,廣東一地下冰雹!最新提醒

      南方都市報
      2026-03-27 16:52:26
      馬英九與蕭旭岑對線后,國民黨大佬集體表態(tài),非常不簡單

      馬英九與蕭旭岑對線后,國民黨大佬集體表態(tài),非常不簡單

      甜檸聊史
      2026-03-27 18:01:09
      國家在全力反腐,人民解放軍除統(tǒng)一大業(yè)之外,還暗藏著哪些硬仗?

      國家在全力反腐,人民解放軍除統(tǒng)一大業(yè)之外,還暗藏著哪些硬仗?

      李昕言溫度空間
      2026-03-26 19:48:46
      太尷尬!美國政壇傳得沸沸揚揚:特朗普或迎“十年來首度缺席”

      太尷尬!美國政壇傳得沸沸揚揚:特朗普或迎“十年來首度缺席”

      王姐懶人家常菜
      2026-03-27 17:37:46
      會猝死的不只是人!

      會猝死的不只是人!

      走讀新生
      2026-03-26 13:20:32
      島內(nèi)突傳重磅信號!統(tǒng)一藍(lán)圖落地,美國改口,賴清德窮途末路

      島內(nèi)突傳重磅信號!統(tǒng)一藍(lán)圖落地,美國改口,賴清德窮途末路

      觀星賞月
      2026-03-27 17:26:41
      炸鍋!名宿開罵:英格蘭 4 大廢物不配入選,巨星落選有貓膩

      炸鍋!名宿開罵:英格蘭 4 大廢物不配入選,巨星落選有貓膩

      奶蓋熊本熊
      2026-03-27 05:35:00
      "仁義"好兄弟出手!伊朗終等到最大強援,特朗普萬沒料到的事發(fā)生

      "仁義"好兄弟出手!伊朗終等到最大強援,特朗普萬沒料到的事發(fā)生

      小舟談歷史
      2026-03-27 14:05:57
      風(fēng)向徹底變了!西方媒體集體改口:中國,無需再向世界證明什么

      風(fēng)向徹底變了!西方媒體集體改口:中國,無需再向世界證明什么

      聞識
      2026-03-27 11:32:15
      TOP14位身高170以上的女神,有顏有燈有演技

      TOP14位身高170以上的女神,有顏有燈有演技

      素然追光
      2026-01-02 02:45:02
      難以置信!因為腳氣太重,一網(wǎng)友囤一大堆鞋子天天輪換,引發(fā)熱議

      難以置信!因為腳氣太重,一網(wǎng)友囤一大堆鞋子天天輪換,引發(fā)熱議

      火山詩話
      2026-03-27 10:06:14
      央視直播乒乓時間表:3月27日CCTV5轉(zhuǎn)播國乒!附國乒世界杯新消息

      央視直播乒乓時間表:3月27日CCTV5轉(zhuǎn)播國乒!附國乒世界杯新消息

      皮皮觀天下
      2026-03-27 11:57:20
      伊朗點名美國兩大軟肋,若敢動地面部隊,先讓阿聯(lián)酋巴林變火海

      伊朗點名美國兩大軟肋,若敢動地面部隊,先讓阿聯(lián)酋巴林變火海

      書紀(jì)文譚
      2026-03-27 17:47:44
      2026-03-27 18:55:00
      AI科技評論 incentive-icons
      AI科技評論
      點評學(xué)術(shù),服務(wù)AI
      7151文章數(shù) 20742關(guān)注度
      往期回顧 全部

      科技要聞

      楊植麟張鵬夏立雪羅福莉,聊龍蝦、聊漲價

      頭條要聞

      美方稱在美軍事基地裝爆炸物的男子逃往中國 中方回應(yīng)

      頭條要聞

      美方稱在美軍事基地裝爆炸物的男子逃往中國 中方回應(yīng)

      體育要聞

      邵佳一:足球就像一場馬拉松

      娛樂要聞

      張雪峰靈堂內(nèi)景曝光,四周擺滿了鮮花

      財經(jīng)要聞

      我在小吃培訓(xùn)機構(gòu)學(xué)習(xí)“科技與狠活”

      汽車要聞

      與眾08,金標(biāo)大眾不能輸?shù)囊粦?zhàn)

      態(tài)度原創(chuàng)

      旅游
      健康
      家居
      藝術(shù)
      公開課

      旅游要聞

      春滿京城 | 日壇玉蘭,紅墻一隅的春日清雅

      干細(xì)胞抗衰4大誤區(qū),90%的人都中招

      家居要聞

      曲線華爾茲 現(xiàn)代簡約

      藝術(shù)要聞

      張大千:形成于未畫之先,神留于既畫之后

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版