<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      騰訊 ARC Lab 胡文博:“如何實現(xiàn)三維感知的視頻世界模型,這非常值得探索”|GAIR 2025

      0
      分享至


      我們正在努力創(chuàng)建一個具備三維感知能力的視頻世界模型。

      作者丨齊鋮湧

      編輯丨馬曉寧


      世界模型的研究尚處于起步階段,共識尚未形成,有關(guān)該領(lǐng)域的研究形成了無數(shù)支流,過去一年多,Sora為代表的視頻生成模型,成為繼大語言模型(LLM)后新的學(xué)術(shù)熱點。本質(zhì)上講,當(dāng)下火爆的視頻生成模型,是一種世界模型,其核心目的是生成一段逼真、連貫的視頻。

      要達(dá)到這樣的目的,模型必須在一定程度上理解這個世界的運作方式(比如水往低處流、物體碰撞后的運動、人的合理動作等)。

      胡文博正是世界模型研究領(lǐng)域近兩年的絕對新銳。

      在剛剛結(jié)束的 GAIR 2025,騰訊ARC Lab高級研究員胡文博,在雷峰網(wǎng)舉辦的GAIR大會現(xiàn)場帶來了非常有見解的演講:《邁向三維感知的視頻世界模型》(Towards 3D-aware Video World Models )。

      以下是具體內(nèi)容,AI科技評論做了不改變原意的編輯和整理。

      感謝邀請和介紹,我今天分享的題目是《邁向三維感知的視頻世界模型》(Towards 3D-aware Video World Models)。

      之所以講這個,是因為Sora在2024年初出來時,給大家?guī)砗艽笳鸷场1热缢傻囊曨l,雖然看起來是二維的,但已經(jīng)具備一定的3D一致性。不過從我們做三維重建的角度看,比如嘗試把它重建出來,會發(fā)現(xiàn)墻面與地面的垂直性、平整度等都還不夠好。


      基于這個觀察,領(lǐng)域內(nèi)認(rèn)為視頻擴散模型有潛力作為世界模型的一種表示方式,但視頻本身仍是二維的,而我們的世界是三維的。

      所以我們思考:如何實現(xiàn)一個具備三維感知能力的視頻世界模型?

      為了實現(xiàn)這種三維感知,我們主要做了兩方面工作,今天重點講第二方面。

      第一方面是如何從二維觀測中重建三維信息,這部分和前面彭老師講的內(nèi)容比較接近。第二方面是如何將重建得到的三維信息融入到生成過程中,使二維空間的視頻擴散模型具備三維感知特性。

      我先簡單介紹一下第一方面的工作:如何在開放世界環(huán)境中,從二維視頻中重建三維信息。

      我們做了一系列工作,例如video depth (DepthCrafter)(2024年10月掛在arXiv上,現(xiàn)在效果可能已經(jīng)不是最新的了)。


      除了video depth (DepthCrafter),我們進一步思考:既然video depth還是2.5維的信息,能否直接從視頻中估計點云。這就是GeometryCrafter,有了點云,我們就能做類似4D重建的任務(wù),把各幀融合到同一坐標(biāo)系中。


      再進一步,我們還估計了運動信息,這部分我們最新的工作叫Holi4D,可以從單目視頻中重建運動。最后一塊是表面法線估計NormalCrafter,與前幾項相比,法線包含更多高頻細(xì)節(jié),因為它是位置的一階偏導(dǎo)數(shù)。基于法線我們可以做重打光、材質(zhì)編輯等任務(wù)。

      總的來說,目前從任意開放世界二維視頻中重建三維信息的技術(shù)已經(jīng)發(fā)展得不錯,我們能得到比較好的三維重建結(jié)果了。

      接下來重點講第二方面:如何將三維信息用在視頻擴散過程中,使模型具備三維感知能力。我們首先探索了靜態(tài)場景下的生成任務(wù):輸入一張單圖,希望模型能根據(jù)任意指定的相機位姿,生成對應(yīng)的觀測圖像。這樣我們就能像玩游戲一樣,通過控制相機,實現(xiàn)對靜態(tài)場景的探索。

      這個工作叫ViewCrafter,2024年10月公開,后來被PAMI接收。


      方法上,我們借助重建能力:給定一張圖,先重建出一個粗糙的三維點云,形成場景的“骨架”。然后基于這個點云進行漫游渲染,渲染結(jié)果雖然粗糙(可能有空洞),但視角變換關(guān)系非常準(zhǔn)確。

      這些空洞正好由擅長內(nèi)容生成的視頻擴散模型來填補。我們將渲染的點云作為條件,控制視頻擴散過程,從而生成既逼真又符合指定視角變換的圖像。

      更重要的是,生成的新圖像可以反過來用于多視角重建,更新點云,從而實現(xiàn)迭代式、更大范圍的場景探索。這其實與世界模型中的記憶機制相關(guān):三維點云作為一種記憶,通過新探索內(nèi)容更新點云,再從中查詢信息作為條件,支持更遠(yuǎn)的探索。


      我們展示一些結(jié)果:左側(cè)是指定的相機軌跡,右側(cè)是從單圖出發(fā)生成的探索結(jié)果。

      效果還不錯,不僅支持單圖輸入,也支持稀疏多視圖輸入。從兩張圖出發(fā)的話,探索范圍會大很多。探索得到的多視圖圖像可以直接用于重建三維高斯?jié)姙R模型(3D Gaussian Splatting),實現(xiàn)實時渲染。


      剛才講的是靜態(tài)場景探索,接下來是如何對動態(tài)場景進行探索。這是我們發(fā)表在ICCV 2025上的Oral工作TrajectoryCrafter。


      核心思想是:用戶輸入一段單目視頻(它是四維世界的二維投影),模型應(yīng)允許用戶對其背后的四維世界進行探索,即同時指定相機位姿和時間點,生成對應(yīng)的動態(tài)觀測。

      方法延續(xù)之前的思路:核心是如何將重建的三維信息注入生成過程。輸入是一段視頻,我們通過視頻重建方法將其提升為三維空間中的動態(tài)點云。然后像ViewCrafter一樣,基于指定位姿渲染點云。

      不同之處在于,動態(tài)探索對生成質(zhì)量要求更高,因此我們除了注入點云信息外,還將原始視頻(質(zhì)量最高)也作為條件注入擴散模型,從而在精準(zhǔn)控制相機位姿的同時實現(xiàn)高質(zhì)量生成。



      結(jié)果展示:左側(cè)是原始動態(tài)視頻,右側(cè)是依據(jù)新指定相機位姿生成的動態(tài)視頻。例如左上角第一個例子,甚至可以繞到人物背后觀看,光影反射效果也不錯。



      模型還能實現(xiàn)“子彈時間”特效:固定時間點,旋轉(zhuǎn)相機。另外也能模擬“Dolly Zoom”特效(電影常用手法:邊推移相機邊調(diào)整焦距,使主體大小不變而背景變化),我們的模型可以從原始固定相機視頻出發(fā),同時修改相機內(nèi)參和外參,復(fù)現(xiàn)這種效果。

      以上兩個工作分別實現(xiàn)了對靜態(tài)和動態(tài)場景的探索。

      對于世界模型,除了探索,下一步是實現(xiàn)交互:如何對場景中多個物體進行交互?這是我們最新工作VerseCrafter(即將公開)。


      仍從單圖輸入出發(fā),重建幾何信息,并將可移動物體用高斯球標(biāo)注出來。相機和物體軌跡可在Blender中編輯:用戶可以交互式設(shè)計相機和每個物體的運動軌跡。然后,我們的模型能根據(jù)這些交互結(jié)果,生成逼真的觀測視頻。也就是說,相機和所有物體的運動都是可交互的。


      實現(xiàn)方案上,我們構(gòu)建了一個“4D控制視頻世界模型”:從單圖出發(fā),基于重建和分割方法,重建出部分三維場景,并標(biāo)注可移動物體。這樣就在Blender中得到一個粗糙的、可交互的三維(或四維)世界。雖然粗糙,但易于交互。交互結(jié)果作為條件,輸入到我們設(shè)計的視頻擴散模型中,生成最終逼真的觀測。


      這個方案的關(guān)鍵在于如何構(gòu)建訓(xùn)練數(shù)據(jù)。我們建立了一套完整的訓(xùn)練數(shù)據(jù)標(biāo)注流程,核心基于重建算法和視覺語言模型(VLM)進行標(biāo)注與過濾。最終我們獲得了約35K個高質(zhì)量視頻片段的數(shù)據(jù)集。



      基于這個模型,我們可以做很多事情:固定相機只移動物體、固定物體只移動相機、同時移動相機和物體。我們對比了現(xiàn)有方案,很多方法只能處理特定類別(如僅限人體),而我們的方法在運動符合度和生成質(zhì)量上都有不錯表現(xiàn)。我們還測試了多玩家聯(lián)機探索場景的能力:用兩個人各自拍攝的照片作為Player A和Player B的視角,讓他們在同一個場景中同時探索與交互,模型能分別生成各自的視角視頻。


      總結(jié)一下,今天主要關(guān)注第二方面——三維感知視頻世界模型,但這部分非常依賴第一方面的開放世界三維重建技術(shù)(包括深度、點云、運動、法線等重建)。

      在三維感知視頻世界模型方面,我們實現(xiàn)了靜態(tài)場景探索模型、動態(tài)場景探索模型,以及支持在四維場景中同時進行探索與交互的模型。

      這就是今天想和大家分享的內(nèi)容,謝謝。

      未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載!

      公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      廣州男子因狗吠亂拉投毒致寵物狗死亡,法院最終判決

      廣州男子因狗吠亂拉投毒致寵物狗死亡,法院最終判決

      愛下廚的阿釃
      2026-02-06 17:10:03
      中國農(nóng)業(yè)銀行河北省分行原黨委委員、副行長陳元良被開除黨籍

      中國農(nóng)業(yè)銀行河北省分行原黨委委員、副行長陳元良被開除黨籍

      澎湃新聞
      2026-02-06 15:45:06
      體面分手!哈登聲明揭露真相:我從未申請離隊,只是看不到未來

      體面分手!哈登聲明揭露真相:我從未申請離隊,只是看不到未來

      鍵侃籃球
      2026-02-07 02:19:56
      馬未都:我身價至少100億,但這點錢,跟我母親比,我就是個貧農(nóng)

      馬未都:我身價至少100億,但這點錢,跟我母親比,我就是個貧農(nóng)

      忠于法紀(jì)
      2026-01-15 22:08:28
      成功了!中國向世界宣布重大科技成果

      成功了!中國向世界宣布重大科技成果

      元爸體育
      2026-02-04 16:44:45
      第一批獨生子女的扎心現(xiàn)實:父母去世后,成了舉目無親的“孤兒”

      第一批獨生子女的扎心現(xiàn)實:父母去世后,成了舉目無親的“孤兒”

      千秋文化
      2026-02-01 20:31:47
      第三次世界大戰(zhàn)導(dǎo)火索如果中國攔截了美國的

      第三次世界大戰(zhàn)導(dǎo)火索如果中國攔截了美國的

      林子說事
      2026-02-07 00:57:11
      霍金也被愛潑斯坦檔案害慘了,都癱瘓成這樣,真的還能玩女人嗎?

      霍金也被愛潑斯坦檔案害慘了,都癱瘓成這樣,真的還能玩女人嗎?

      我心縱橫天地間
      2026-02-05 19:14:54
      終于有人管管美國了!美國遇到大麻煩,美國:中美兩國需要攜手

      終于有人管管美國了!美國遇到大麻煩,美國:中美兩國需要攜手

      福建平子
      2026-01-28 10:52:25
      媒體人:申花吸金能力在中超第一檔,胸前廣告贊助額每年兩億元

      媒體人:申花吸金能力在中超第一檔,胸前廣告贊助額每年兩億元

      懂球帝
      2026-02-07 01:04:18
      11歲玥兒罕見穿黑衣現(xiàn)身,眼神哀傷克制:她其實什么都懂

      11歲玥兒罕見穿黑衣現(xiàn)身,眼神哀傷克制:她其實什么都懂

      橙星文娛
      2026-02-05 17:06:04
      逆行救出51人的劉海洋轉(zhuǎn)院至長沙,病房里向女兒重述救援過程:這就是爸爸的警察故事

      逆行救出51人的劉海洋轉(zhuǎn)院至長沙,病房里向女兒重述救援過程:這就是爸爸的警察故事

      瀟湘晨報
      2026-02-06 14:57:30
      賴清德喊話大陸對話,提出兩岸有三大共同敵人,國臺辦:有個前提

      賴清德喊話大陸對話,提出兩岸有三大共同敵人,國臺辦:有個前提

      午夜搭車a
      2026-02-07 02:23:47
      最新任命!查爾斯宣布由威廉王子代替,哈里王子不得不“妥協(xié)”

      最新任命!查爾斯宣布由威廉王子代替,哈里王子不得不“妥協(xié)”

      夜深愛雜談
      2026-02-06 17:37:17
      大反轉(zhuǎn)!向嫣然醫(yī)院捐款429.2萬元?李亞鵬哽咽:感謝董宇輝!

      大反轉(zhuǎn)!向嫣然醫(yī)院捐款429.2萬元?李亞鵬哽咽:感謝董宇輝!

      小娛樂悠悠
      2026-02-06 09:09:39
      樊振東球隊三天內(nèi)三位實力隊友接連宣布離隊,冠軍陣容解體。

      樊振東球隊三天內(nèi)三位實力隊友接連宣布離隊,冠軍陣容解體。

      章民解說體育
      2026-02-06 04:33:53
      正式復(fù)出!WTA多哈1000簽表:鄭欽文首秀對手出爐,或戰(zhàn)萊巴金娜

      正式復(fù)出!WTA多哈1000簽表:鄭欽文首秀對手出爐,或戰(zhàn)萊巴金娜

      大秦壁虎白話體育
      2026-02-06 20:51:54
      訪華回國后,斯塔默日子不好過,被逼到公開道歉,首相當(dāng)不成了?

      訪華回國后,斯塔默日子不好過,被逼到公開道歉,首相當(dāng)不成了?

      燦若銀爛
      2026-02-07 03:20:27
      中央定調(diào),延遲退休實施后,每晚1年退休,養(yǎng)老金能增加6%嗎?

      中央定調(diào),延遲退休實施后,每晚1年退休,養(yǎng)老金能增加6%嗎?

      另子維愛讀史
      2026-02-05 17:45:59
      戲子誤國!離春節(jié)不到20天,4位明星相繼塌房,一個比一個荒唐

      戲子誤國!離春節(jié)不到20天,4位明星相繼塌房,一個比一個荒唐

      往史過眼云煙
      2026-02-06 16:40:38
      2026-02-07 04:16:49
      AI科技評論 incentive-icons
      AI科技評論
      點評學(xué)術(shù),服務(wù)AI
      7071文章數(shù) 20728關(guān)注度
      往期回顧 全部

      科技要聞

      獨角獸版圖巨變:SpaceX奔萬億 中美差在哪

      頭條要聞

      電動車行業(yè)"老三"沖刺上市 分股東2億克扣員工社保3億

      頭條要聞

      電動車行業(yè)"老三"沖刺上市 分股東2億克扣員工社保3億

      體育要聞

      西甲射手榜第2,身價不到姆巴佩1/40

      娛樂要聞

      微博之夜搶C風(fēng)波 楊冪工作室9字討說法

      財經(jīng)要聞

      愛爾眼科董事長旗下7家精神病院騙保

      汽車要聞

      寶馬"本命年"關(guān)鍵詞:20款新車與"新世代"耐力賽

      態(tài)度原創(chuàng)

      健康
      本地
      藝術(shù)
      教育
      手機

      轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

      本地新聞

      圍觀了北京第一屆黑色羽絨服大賽,我笑瘋了

      藝術(shù)要聞

      這顏色太美,不看太可惜!

      教育要聞

      為什么留學(xué)機構(gòu)沒有好的老師?

      手機要聞

      榮耀600被曝光:6.57英寸+9000mAh±電池,友商拿什么打!

      無障礙瀏覽 進入關(guān)懷版