<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      3D版ControlNet突破多模態控制,實現高精度3D資產生成

      0
      分享至



      近年來,3D 原生生成模型在游戲、影視和設計領域的資產創建中展現出強大潛力。然而,大多數現有方法仍主要依賴圖像作為條件輸入,缺乏細粒度、多模態的控制能力,限制了其在實際生產流程中的應用。

      為解決這一瓶頸,騰訊混元團隊推出了混元 3D-Omni,一個基于 Hunyuan3D 2.1 構建的統一多模態可控 3D 生成框架。該框架不僅支持圖像作為輸入,還可接受點云、體素、邊界框與骨骼姿態等多種控制信號,實現對生成物體幾何結構、拓撲與姿態的精細控制。



      • 技術報告:Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D Assets
      • 研發團隊:Tencent Hunyuan3D Team, 2025.
      • 混元 3D 主頁:https://3d.hunyuan.tencent.com
      • 代碼下載:https://github.com/Tencent-Hunyuan/Hunyuan3D-Omni
      • 權重下載:https://huggingface.co/tencent/Hunyuan3D-Omni
      • 報告鏈接:https://arxiv.org/pdf/2509.21245

      一、背景與挑戰

      隨著 3D 數據規模不斷擴大,基于原生 3D 表示(如點云、體素)的生成模型逐漸成為主流。這類方法通常結合 3D 變分自編碼器(VAE)與潛在擴散模型(LDM),能夠高效生成高質量 3D 模型。例如,Hunyuan3D 2.1 借助 VecSet 表示和 Diffusion Transformer(DiT),實現了從單圖像到 3D 模型的快速生成。

      然而,僅依賴圖像輸入存在諸多局限:

      • 單視角圖像易受圖像遮擋、光照或視角干擾,生成結果缺乏幾何準確性;
      • 難以精細控制生成對象的比例、姿態和結構細節;
      • 無法適應多模態輸入(如深度圖、LiDAR 點云、骨架動作等),限制了在實際場景中的使用。

      二、Hunyuan3D Omni 的核心創新



      圖 1:混元 3D-Omni 可支持多種模態作為控制條件,實現精細化 3D 資產生成

      混元 3D-Omni 是一個支持多種控制條件的 3D 資產創建系統。它通過兩個關鍵性的創新來推動尖端 3D 生成技術的發展: 其一,采用輕量化的統一控制編碼器,實現多種控制條件的統一支持;其二,引入漸進式難度感知訓練策略,提升模型對多模態融合的魯棒性。

      作為業界首個統一多種條件控制的 3D 生成模型,混元 3D-Omni 可融合多達四類控制條件,顯著提升生成結果的可控性及質量。同時該系統將完整開放推理代碼以及權重,加速可控 3D 生成模型在學術領域研究以及工業落地部署。創新點總結如下:

      1. 多模態控制信號統一處理

      Hunyuan3D-Omni 引入了四種控制信號:

      • 骨骼姿態(Skeleton):用于角色動作控制;
      • 邊界框(Bounding Box):調整生成對象在標準空間中的長寬高比例;
      • 點云(Point Cloud):提供幾何結構先驗,增強細節還原;
      • 體素(Voxel):稀疏幾何提示,改善比例與結構一致性。

      2. 輕量化統一控制編碼器

      所有控制信號被統一表示為點云形式,并通過一個共享的控制編碼器提取特征。該編碼器對不同模態條件進行區分,避免控制目標之間的混淆。最終的控制特征與圖像 DINO 特征拼接,作為 DiT 的聯合輸入。

      3. 漸進式難度感知訓練策略

      在訓練過程中,模型隨機選擇一種控制條件,并偏向采樣難度較高的信號(如骨骼姿態),同時降低簡單信號(如點云)的權重。這種策略提升了模型對多模態融合的魯棒性,也能優雅處理輸入缺失的情況。

      三、關鍵實現方法



      圖 2:混元 3D-Omni 模型框架圖

      混元 3D-Omni 的模型架構建立在混元 3D 2.1的基礎之上,通過引入統一的多模態控制編碼機制,實現了對點云、體素、邊界框和骨骼等多種控制信號的高效融合與處理。其整體框架延續了基于 VecSet 表示的 3D VAE 與 3D 擴散模型結合的主干結構,但在條件控制機制上進行了重要創新。

      模型首先使用 3D VAE 將輸入點云 (含坐標和法向信息)編碼為潛在表示。解碼器則從潛在表示重建符號距離函數(SDF)場,并通過等值面提取得到顯式網格輸出。在擴散階段,模型采用基于流匹配的 3D Latent Diffusion Model(LDM)。

      混元 3D-Omni 的核心創新在于設計了統一控制編碼器(Unified Control Encoder),用于處理四種不同類型的控制信號:

      1. 骨骼條件控制采用 3D 骨骼起點坐標表示姿態,通過隨機采樣不同動作幀構建訓練對,實現對生成模型姿態的靈活控制;
      2. 邊界框條件將長寬比例轉化為標準空間中的八個頂點坐標,通過對渲染圖像或點云施加隨機擾動,提升模型對比例控制的泛化能力;
      3. 點云支持多種輸入來源(如深度相機、LiDAR 或重建模型),并引入隨機丟棄與噪聲擾動以模擬真實場景;
      4. 體素則通過將點云量化到 [0,16]^3 網格中,再映射至 [-1,1]^3 空間,形成稀疏幾何提示。

      所有控制信號均被統一表示為點云形式。編碼器首先對輸入點云進行位置編碼,然后通過線性層提取特征,并疊加可學習的模態標識嵌入以區分不同控制類型,最終控制特征與圖像特征拼接形成聯合條件,輸入至 DiT 模塊參與去噪過程。

      為提升模型對多模態信號的魯棒性,訓練過程中采用難度感知采樣策略:1)每批次隨機選擇一種控制模態;2)對難度較高的信號(如骨骼姿態)賦予更高采樣概率,對簡單信號(如點云)進行降權重處理;3)支持部分控制信號缺失的容錯訓練。

      四、實驗結果



      圖 3:骨骼控制人物姿態

      骨骼控制條件的核心目標在于調整輸入圖像的姿態特征,該功能主要應用于角色類物體的生成過程中。如圖 3 所示,在以骨骼條件作為額外輸入的前提下,我們的 Omni 模型能夠生成高質量且與目標姿態精確對應的角色幾何形體,包括 A 姿態、單手抬起姿態以及雙手上舉姿態等多種姿態。我們采用了多種風格的角色圖像作為條件輸入,其中包括從 3D 角色數據渲染得到的圖像,以及通過生成式模型合成的圖像。

      值得注意的是,無論輸入風格如何變化,我們的 Omni 模型均能持續生成具有精細幾何細節的人體網格,且生成結果與輸入骨架保持嚴格對齊,未出現任何畸變。



      圖 4:邊界框控制不同比例



      圖 5:邊界框控制解決單圖生成 “紙片” 問題

      邊界框控制信號能夠自由調節生成物體的長寬比例。如圖 4 所示,在相同圖像條件下,不同尺寸的邊界框成功調控了生成模型的尺寸。需要特別指出的是,這種尺寸調控并非簡單的線性拉伸:當沙發長度增加時,模型會自動生成額外的支撐腿結構;凱旋門模型在比例調整后同樣保持合理的建筑形態。這證明邊界框控制能觸發生成網絡的智能幾何重構能力。

      更為重要的是,如圖 5 的對比實驗所示,當僅用單視角圖像作為條件生成 “紙片物體” 這類失敗情況下,注入邊界框信號能夠提供線索,成功生成正確的 3D 資產。



      圖 6:點云控制補充三維信息

      針對點云控制,我們展示了兩種設置下的生成結果:僅使用圖像輸入,以及圖像結合點云控制輸入。對于后者,我們進一步考慮了三種點云輸入類型:完整點云、深度圖像生成的表面點云以及掃描獲得的噪聲點云。

      在前兩個案例中可以看到,提供完整點云作為控制信號能有效解決單視圖輸入固有的幾何歧義問題,并成功還原被遮擋的內部結構。在第三和第四個案例中,通過深度圖獲取的表面點云同樣減輕了單視圖歧義,確保生成幾何在尺度上與真實物體精確對齊。在第五個案例中,即使輸入來自掃描的噪聲表面點云,生成幾何與原始物體的對齊效果仍明顯優于僅使用圖像的基線方法,有效解決了圖像編碼器容易忽略真實物體姿態的問題。

      綜上所述,一旦提供點云輸入,我們的 Omni 模型能夠有效將生成幾何與真實幾何結構對齊,即使是部分點云也能作為提升 3D 幾何生成質量的重要線索,顯著緩解了單視圖歧義。



      圖 7:體素控制物體結構

      與點云條件相似,體素條件通過提供稀疏幾何線索,有效解決單張圖像輸入固有的歧義性問題。如圖 7 所示,在第一個和第五個案例中,額外的體素控制條件確保生成物體在尺度上與真實幾何結構精確對齊。案例 2、3、4 進一步展示了體素條件在恢復精細幾何細節方面的顯著效果:成功重建盾牌的平整表面、精準捕捉鳥類翅膀的形態特征,以及高度還原杯子的低多邊形風格幾何結構。

      這些實例充分證明,引入體素條件后,模型能夠同時準確重建物體的比例關系和細節特征,從而全面提升生成質量。









      五、總結

      混元 3D-Omni 作為一個輕量級、多模態、可控的 3D 生成框架,在不破壞基礎模型能力的前提下,通過統一控制編碼器整合多種幾何與控制信號。

      實驗表明,該框架能夠顯著提升生成準確性、支持幾何感知的變換,并增強生產流程的穩定性與魯棒性。這項研究不僅推動了 3D 生成模型的可控性與實用性,也為未來融合多模態信號的通用 3D 生成奠定了基礎。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      為啥便宜的大豆油大多采用浸出工藝?浸出工藝,到底是啥工藝呢?

      為啥便宜的大豆油大多采用浸出工藝?浸出工藝,到底是啥工藝呢?

      向航說
      2026-03-10 00:40:03
      王曼昱0比3輸給大藤,卻被惡意猜測故意輸球,想提前備戰世界杯

      王曼昱0比3輸給大藤,卻被惡意猜測故意輸球,想提前備戰世界杯

      鳳幻洋
      2026-03-10 15:27:17
      看起來似乎挺有培養價值的!勇士還不如給后場新秀多些表現機會?

      看起來似乎挺有培養價值的!勇士還不如給后場新秀多些表現機會?

      稻谷與小麥
      2026-03-11 00:32:34
      魯梅尼格:擁有孔帕尼是我們的幸運;希望瓜迪奧拉能晉級

      魯梅尼格:擁有孔帕尼是我們的幸運;希望瓜迪奧拉能晉級

      懂球帝
      2026-03-10 22:32:21
      新領袖上臺不到24小時,伊朗突然提出停火,開出的條件讓美國沉默

      新領袖上臺不到24小時,伊朗突然提出停火,開出的條件讓美國沉默

      咣當地球
      2026-03-10 19:21:32
      央視首次曝光:全球最強光刻機亮相,中國再次反殺西方技術封鎖!

      央視首次曝光:全球最強光刻機亮相,中國再次反殺西方技術封鎖!

      粵語音樂噴泉
      2026-03-10 19:07:32
      我國極簡渦噴發動機即將量產,萬元巡飛彈讓美日破防

      我國極簡渦噴發動機即將量產,萬元巡飛彈讓美日破防

      世家寶
      2026-03-08 17:13:50
      科學家做了一個模擬:很可怕!科技文明或許只能持續5000年

      科學家做了一個模擬:很可怕!科技文明或許只能持續5000年

      窺探宇宙1
      2026-03-08 13:00:03
      12年前,那個美國抓捕未果,入籍俄羅斯的斯諾登,如今過得怎樣?

      12年前,那個美國抓捕未果,入籍俄羅斯的斯諾登,如今過得怎樣?

      就一點
      2026-03-08 23:09:47
      姐妹花的情誼海枯石爛

      姐妹花的情誼海枯石爛

      疾跑的小蝸牛
      2026-03-06 20:59:34
      一枚火箭一天內發射兩次,送54顆衛星上天,獵鷹九號越來越牛了

      一枚火箭一天內發射兩次,送54顆衛星上天,獵鷹九號越來越牛了

      科普大世界
      2026-03-10 09:44:55
      伊朗27輪反擊!從南到北炸遍以色列,伊朗提出目標,把美趕出中東

      伊朗27輪反擊!從南到北炸遍以色列,伊朗提出目標,把美趕出中東

      探史
      2026-03-09 21:30:19
      往人帽子里倒三勺螺螄粉湯,黑衣女現在全家抬不起頭

      往人帽子里倒三勺螺螄粉湯,黑衣女現在全家抬不起頭

      西莫的藝術宮殿
      2026-03-10 12:26:09
      歐盟各國抨擊馮德萊恩逾越職責。

      歐盟各國抨擊馮德萊恩逾越職責。

      世間閑事
      2026-03-10 13:46:31
      荷蘭總部遠程操作,直接把中國幾千名員工的賬號全部禁用,沒通知

      荷蘭總部遠程操作,直接把中國幾千名員工的賬號全部禁用,沒通知

      南權先生
      2026-03-09 15:55:08
      哈梅內伊以身入局,帶走大批叛徒,為兒子鋪路?美以噩夢才剛開始

      哈梅內伊以身入局,帶走大批叛徒,為兒子鋪路?美以噩夢才剛開始

      卷史
      2026-03-10 04:06:07
      毛骨悚然!網傳西安二婚大專女,找月薪2萬985未婚男,全款車房…

      毛骨悚然!網傳西安二婚大專女,找月薪2萬985未婚男,全款車房…

      火山詩話
      2026-03-08 06:10:43
      1978年譚震林受粟裕之托,去徐州紀念淮海戰役,結果氣得渾身發抖

      1978年譚震林受粟裕之托,去徐州紀念淮海戰役,結果氣得渾身發抖

      微野談寫作
      2026-03-03 07:30:06
      柳某、王某等4人被西安警方查獲

      柳某、王某等4人被西安警方查獲

      91.6陜西交通廣播
      2026-03-10 08:09:25
      炒股其實不復雜,當你弄懂了“量比+換手率”,你離財富就不遠了

      炒股其實不復雜,當你弄懂了“量比+換手率”,你離財富就不遠了

      一方聊市
      2025-10-02 21:14:58
      2026-03-11 01:04:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12467文章數 142581關注度
      往期回顧 全部

      科技要聞

      全民"養蝦"背后:大廠集體下場瘋狂賣Token

      頭條要聞

      伊朗新最高領袖在襲擊中受傷未公開發表講話 官方回應

      頭條要聞

      伊朗新最高領袖在襲擊中受傷未公開發表講話 官方回應

      體育要聞

      加蘭沒那么差,但鱸魚會用嗎?

      娛樂要聞

      《逐玉》注水風波升級!315評論區淪陷

      財經要聞

      “龍蝦補貼”密集出爐 最高1000萬!

      汽車要聞

      MG4有SUV衍生 上汽乘用車多款新車規劃曝光

      態度原創

      藝術
      旅游
      數碼
      本地
      公開課

      藝術要聞

      震撼!美國油畫家約書亞·拉洛克的作品讓人驚嘆不已!

      旅游要聞

      奇花藝境展推出多次打卡票種,滬上春日花事持續煥新

      數碼要聞

      3月31日!RTX 50系玩家可體驗英偉達DLSS 4.5新特性

      本地新聞

      云游中國|候鳥高顏值亮相!沉浸式打卡青海濕地

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版