<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      一個模型統一4D世界生成與重建,港科大One4D框架來了

      0
      分享至



      本文第一作者密振興,香港科技大學計算機科學與技術學院人工智能方向博士生,研究方向是多模態理解與生成,視頻生成和世界模型,目前正在尋找工業界全職職位。

      一、背景介紹

      近年來,視頻擴散模型在 “真實感、動態性、可控性” 上進展飛快,但它們大多仍停留在純 RGB 空間。模型能生成好看的視頻,卻缺少對三維幾何的顯式建模。這讓許多世界模型(world model)導向的應用(空間推理、具身智能、機器人、自動駕駛仿真等)難以落地,因為這些任務不僅需要像素,還需要完整地模擬 4D 世界。

      來自香港科技大學(HKUST)的研究團隊提出 One4D,一個統一的 4D 生成與 4D 重建框架。One4D 構造了一個同步輸出多模態的視頻擴散模型,能夠用一個模型同步輸出 RGB 視頻與 Pointmap(XYZ)幾何視頻,并支持從單張圖像到 4D 生成、從稀疏幀到 4D 生成 + 重建、以及從完整視頻到 4D 重建等多種任務形態。



      • 論文標題:One4D: Unified 4D Generation and Reconstruction via Decoupled LoRA Control
      • 論文地址:https://arxiv.org/abs/2511.18922
      • Github:https://github.com/MiZhenxing/One4D
      • 項目主頁:https://mizhenxing.github.io/One4D

      二、One4D 算法設計

      One4D 的核心目標是用強大的視頻生成模型(比如Wan Video)統一 4D 生成與 4D 重建,輸出對齊的 RGB 和幾何多模態結果。論文亮點有:

      1. 多模態輸出:RGB + Pointmap;

      2. DLC:解耦 LoRA 控制,穩住 RGB 同時學幾何對齊;

      3. UMC:統一掩碼條件,一套模型覆蓋生成和重建任務。

      具體來說,One4D 將動態 4D 場景表示為兩種同步的輸出模態。(1) RGB frames(外觀);(2) Pointmaps(XYZ),即與 RGB 視頻對齊的 3 通道幾何視頻,每個像素存 XYZ 值,可進一步導出 Depth 并結合后處理估計相機軌跡,最終可視化為 4D 點云和相機。

      并且,One4D 在一個框架內支持三種輸入:單張圖到 4D 生成,稀疏視頻幀到 4D 生成 + 重建,完整視頻到 4D 重建。

      1. DLC:解耦 LoRA 控制

      在基于視頻擴散模型的 “RGB + 幾何” 多模態聯合建模里,一個常見做法是把模態在通道維拼接。但在低資源微調時,這會導致嚴重的跨模態干擾,幾何學不好,基礎模型的 RGB 質量也容易被拖垮。而將兩個模態在長寬維度拼接,共享參數,也會導致跨模態干擾,幾何精度不高,而且與 RGB 無法保持對齊。

      One4D 提出 Decoupled LoRA Control(DLC) 來專門解決這個問題,設計目標包括:

      (1) 低資源微調也盡量保住底座視頻模型的強先驗;(2) 解耦 RGB 與幾何生成,減少互相干擾;(3) 仍要保留必要的跨模態通信,確保像素級對齊一致。

      具體做法是:

      1. 為 RGB 與 Pointmap 分別掛載模態專屬 LoRA,并且形成兩條解耦計算分支,共享凍結的 base 參數,但 forward 分開跑。確保兩個模態能夠相對獨立。

      2. 再用少量 zero-init 的 control links 連接對應層,讓兩個模態從 0 開始逐步學會互相控制,從而實現精確的像素級對齊。



      從直觀上理解 DLC 的設計, RGB 分支努力保持視頻美學與運動先驗,幾何分支專心擬合幾何視頻的分布,少量控制連接負責對齊同步。這也正是 One4D 強調的多模態輸出同步生成的關鍵。

      2. UMC:統一掩碼條件

      為了使用同一個視頻模型統一 4D 的生成和重建,One4D 基于Wan Video的多任務框架,提出了 Unified Masked Conditioning(UMC),把不同類型的條件如單幀、稀疏幀、全視頻,統一打包成一個條件視頻,缺失幀用 0 填充,并使用一個 mask 張量指定哪些幀需要生成。單張圖對應純生成,稀疏幀對應混合生成 + 重建,全視頻對應純重建。在UMC的具體實現上,RGB 分支的條件視頻通過 VAE 編碼之后,連接到 RGB 的 latent states 上。而 XYZ 分支不直接使用這個條件視頻,控制信號是通過 DLC 從 RGB 傳遞給 XYZ,這保證了 XYZ 分支能夠更好地去適應新模態。UMC 的設計讓 One4D 具備一個非常實用的能力,同一個擴散骨干,同時做 4D 生成和 4D 重建。One4D 模型不需要為不同任務改結構,只需改變輸入幀的稀疏度,就可以在不同生成與重建任務之間平滑切換。



      3. 訓練數據

      訓練 One4D,需要獲得大規模 “外觀 - 幾何” 配對數據。One4D 的數據構建遵循兩個原則:幾何要準、分布要真實。因此我們采用合成數據 + 真實數據混合策略。

      合成數據通過游戲引擎渲染動態場景,天然提供每幀的幾何真值,用于為 Pointmap(XYZ)提供穩定監督,幫助模型學到可靠的時序幾何一致性。

      真實數據,收集自公開視頻數據的真實場景視頻,以覆蓋復雜光照、材質、運動模式。由于真實視頻通常缺少幾何真值,我們使用現有的 4D 重建方法 Geo4D 生成幾何標注,從而把真實世界外觀分布引入訓練。

      這套數據策略帶來的直接收益是,合成數據提供幾何精度與穩定性,真實數據提供視覺多樣性與真實分布,從而讓 One4D 在保持視頻質感的同時,也能輸出可用、對齊、時序一致的 4D 幾何結果。One4D 使用 34K 條視頻在 8 張 NVIDIA H800 GPU 上訓練 5500 步,就得到了很好的效果。

      三、實驗結果

      1. 單圖到 4D 生成

      論文將 One4D 與 4DNeX 做了單圖到 4D 的對比,評價指標有:

      用戶偏好(User study):在一致性、動態性、美學、深度質量、整體 4D 連貫性等維度上,One4D 全面領先。



      VBench:動態性(Dynamic)顯著提升(55.7 vs 25.6),同時 I2V consistency 仍保持可比水平。



      這些結果支持了 One4D 的優勢,輸出的多模態結果有更真實的 RGB 動態、更干凈的深度、更完整連貫的 4D 點云與相機軌跡。在不犧牲 RGB 視頻質量的前提下,仍然能學到準確、細粒度的 4D 幾何結構。更多對比視頻請移步項目主頁:https://mizhenxing.github.io/One4D



      2. 完整視頻到 4D 重建

      One4D 并不只在 4D 生成任務上優勢顯著,它還是一個重建模型,在完整視頻 4D 重建上也保持了不錯的性能。在深度重建評測數據集 Sintel 和 Bonn 上,One4D 的表現明顯超過一些只做重建的方法如 MonST3R 和 CUT3R。即使我們的方法使用 Geo4D 構造了訓練數據,它也取得了與只做重建的 Geo4D 相近的效果。更多對比視頻請移步項目主頁:https://mizhenxing.github.io/One4D





      在相機軌跡評估數據集 Sintel 和 TUM 上,One4D 的相機估計能力也保持了可用精度,充分證明了 One4D 統一重建與生成的能力。



      3. 稀疏視頻幀到 4D 生成

      在稀疏視頻幀設置下,One4D 的輸入僅是首尾幀以及少量中間幀,此時模型需要生成缺失 RGB 幀并補全完整幾何序列。實驗證明,即使在極稀疏條件下,One4D 仍能得到合理的 4D 結構。這意味著 One4D 不止能做重建,而是真正具備生成動態 4D 場景的能力。



      四、總結

      One4D 讓視頻擴散模型不再只會生成 RGB,而是能夠同步生成外觀(RGB)與幾何(Pointmap / 深度 / 相機軌跡),在同一套框架中統一了 4D 生成和重建任務。它通過 UMC 與 DLC 解決了多任務切換與多模態聯合訓練中最關鍵的穩定性與對齊問題。One4D 推動視頻生成走向生成可用于理解與交互的 4D 世界,為下一代世界模型與多模態內容創作提供了更實用的基礎能力。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      漁村逆襲?“電詐惡魔”陳志老婆是四川人,150億比特幣沾滿血淚

      漁村逆襲?“電詐惡魔”陳志老婆是四川人,150億比特幣沾滿血淚

      豆腐腦觀察局
      2025-11-17 06:50:03
      郎平做夢也沒想到,曾獲5連冠女排隊長楊錫蘭,今會在瑞士當保安

      郎平做夢也沒想到,曾獲5連冠女排隊長楊錫蘭,今會在瑞士當保安

      青史樓蘭
      2025-12-31 09:14:30
      白銀大漲7%,創歷史新高

      白銀大漲7%,創歷史新高

      每日經濟新聞
      2026-01-13 07:36:26
      伊朗外長:伊朗不尋求戰爭,但已做好戰爭準備

      伊朗外長:伊朗不尋求戰爭,但已做好戰爭準備

      新華社
      2026-01-12 16:51:04
      索馬里風云突變,中方反應迅速調整行程,王毅外長過門不入

      索馬里風云突變,中方反應迅速調整行程,王毅外長過門不入

      阿器談史
      2026-01-13 12:16:06
      不差錢!中超最貴鋒線誕生:總價值4500萬,高居聯賽第一!

      不差錢!中超最貴鋒線誕生:總價值4500萬,高居聯賽第一!

      國足風云
      2026-01-13 09:51:57
      公司上司請領導吃飯叫我結賬,賬單顯示1萬5,我想都不想直接走人

      公司上司請領導吃飯叫我結賬,賬單顯示1萬5,我想都不想直接走人

      白云故事
      2025-04-17 11:25:03
      董卓巔峰時陣容有多牛?麾下兩個頂級謀士、三位元帥、十余名猛將

      董卓巔峰時陣容有多牛?麾下兩個頂級謀士、三位元帥、十余名猛將

      銘記歷史呀
      2025-12-16 18:54:04
      陳星旭的帥氣被低估了,飛機上遇到他被他的顏值震撼,當場路轉粉

      陳星旭的帥氣被低估了,飛機上遇到他被他的顏值震撼,當場路轉粉

      情感大頭說說
      2026-01-13 00:31:48
      天道:低級人活在情緒里,中級人活在價值里,高級人活在覺醒里

      天道:低級人活在情緒里,中級人活在價值里,高級人活在覺醒里

      洞見
      2026-01-09 21:19:55
      攜程大面積誤發離職通知引發爭議,員工回應

      攜程大面積誤發離職通知引發爭議,員工回應

      大象新聞
      2026-01-12 20:13:09
      尼克松訪華時留意到 “打倒美帝國主義” 的標語,毛主席用風趣的話語化解尷尬,尼克松聽后爽朗大笑

      尼克松訪華時留意到 “打倒美帝國主義” 的標語,毛主席用風趣的話語化解尷尬,尼克松聽后爽朗大笑

      清風鑒史
      2025-12-20 18:40:22
      她不愿意被潛規則,演了近百部戲觀眾卻叫不出她名字,42歲仍單身

      她不愿意被潛規則,演了近百部戲觀眾卻叫不出她名字,42歲仍單身

      丁丁鯉史紀
      2025-12-27 16:10:28
      6800元買的古錢幣,多年后同一家機構鑒定變“假貨”?男子起訴賣家和鑒定機構,法院判決公布→

      6800元買的古錢幣,多年后同一家機構鑒定變“假貨”?男子起訴賣家和鑒定機構,法院判決公布→

      封面新聞
      2026-01-13 00:37:07
      章澤天首播選址劉嘉玲2.6億豪宅,60歲嘉玲姐氣場全開

      章澤天首播選址劉嘉玲2.6億豪宅,60歲嘉玲姐氣場全開

      老腘的世界視角
      2026-01-13 08:42:10
      警惕!國內高層滲透的間諜,已經轉向身份普通的保潔員、外賣員等

      警惕!國內高層滲透的間諜,已經轉向身份普通的保潔員、外賣員等

      扶蘇聊歷史
      2026-01-11 08:25:03
      “世界第一烈酒”的崛起之路,對我國酒企有何啟示?

      “世界第一烈酒”的崛起之路,對我國酒企有何啟示?

      虎嗅APP
      2026-01-13 01:45:13
      國乒新教練班子空留兩崗位是最大看點 馬龍樊振東或以雙重身份回歸

      國乒新教練班子空留兩崗位是最大看點 馬龍樊振東或以雙重身份回歸

      勁爆體壇
      2026-01-12 19:22:18
      伊朗抗議者親手擊斃下令射殺群眾的伊朗軍官

      伊朗抗議者親手擊斃下令射殺群眾的伊朗軍官

      桂系007
      2026-01-12 00:31:50
      劉浩存 內娛165最強比例王

      劉浩存 內娛165最強比例王

      草莓解說體育
      2026-01-13 11:26:17
      2026-01-13 13:12:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12105文章數 142535關注度
      往期回顧 全部

      科技要聞

      每年10億美元!谷歌大模型注入Siri

      頭條要聞

      印度企業未能獲得中國技術 叫停大項目

      頭條要聞

      印度企業未能獲得中國技術 叫停大項目

      體育要聞

      阿隆索得知下課后先是驚訝 然后表示如釋重負

      娛樂要聞

      周杰倫以球員身份參加澳網,C位海報公開

      財經要聞

      中國一口氣申報20萬顆衛星,意味著什么?

      汽車要聞

      限時9.99萬元起 2026款啟辰大V DD-i虎鯨上市

      態度原創

      時尚
      健康
      藝術
      親子
      公開課

      走過那個夏天,甜茶終于站上金球獎之巔

      血常規3項異常,是身體警報!

      藝術要聞

      書法爭議再起:拙與妍孰優孰劣引發熱議

      親子要聞

      2026年“博學杯”全國幼兒閱讀大會西南區域賽在彌勒圓滿落幕!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日韩二区| 金乡县| 金典亚洲经典av| A片A级毛片| 久久婷婷成人综合色综合| 人妻少妇无码视频| 亚洲精品成人无码熟妇在线| 亚洲欧美日韩成人在线| av无码天一区二区一三区| 洗澡被公强奷30分钟视频| 国产太嫩了在线观看| 日韩无码综合| 欧美深度肠交惨叫| 毛片av在线尤物一区二区| 91视频在线观看视频| 欧美乱大交xxxxx潮喷l头像| 日韩777| 亚洲国产精品无码av| 免费看欧美成人a片无码| 精品视频无码一区二区三区| 国产精品久久久久久妇女| jizz免费| 99久久精品午夜一区二区| 国产一区二区不卡在线| 午夜精品久久久久久久无码软件 | 亚洲乱色一区二区三区丝袜| 久久无码人妻热线精品| 久久精品国产乱子伦多人| 精品人妻伦九区久久aaa片69| 亚洲第1色电影。| 夜夜嗨av| 伊人一区| 亚洲国产成人一区二区| 国产精品亚洲综合色区丝瓜| 国产又黄又爽又不遮挡视频| 欧美做受视频播放| 无码AV无码免费一区二区| 久久久久人妻精品区一| 新绛县| 狠狠婷婷综合久久久久久| 疏勒县|