![]()
在生成式 AI 的發展中,3D 一直是一道公認的難關。
生成文字靠語言模型,生成圖像靠擴散模型,但要從一張二維圖片“復原”出一個真實存在于空間的物體,卻遠比想象中復雜。它要求模型不僅能理解形狀,還要理解尺度、光照、材質與物理屬性——也就是讓算法,不只是“看見”,而是“構建”一個世界。
這條技術路線走得異常漫長。過去三年,歐美大模型公司更偏向語言、圖像、視頻方向的競爭,而 3D 生成在全球范圍內反而成了一個小眾又高門檻的分支。但出乎意料的是,如今這個領域幾乎被華人研究者占據:騰訊的 Hunyuan3D、太極的Meshy、VAST 的 Tripo、影眸的 Rodin,都來自中國團隊或華人科學家主導的實驗室。
這并非巧合。3D 生成涉及多模態理解、幾何重建、仿真約束和視覺渲染等系統工程,而這些正是中國科研與工程團隊的強項。與其說這是一次算法突破,不如說是一種文化取向的體現——中國團隊更擅長處理結構化、具體、可驗證的問題,而 3D 世界本身,就是結構的集合。
在這樣的背景下,字節跳動正式進入了這一賽道。上周,由 Seed 視覺研究負責人馮佳時帶領的團隊發布了Seed3D 1.0—— 一款能夠從單張 RGB 圖像生成高保真、可用于物理仿真的三維模型的系統。
![]()
Seed3D 的技術突破與真實價值
從技術架構上看,Seed3D 基于Diffusion Transformer,結合大規模 3D 數據訓練,能在輸入一張 RGB 圖片后,直接生成帶有完整幾何結構、紋理貼圖和物理渲染材質的三維模型。
更值得注意的是,Seed3D 的參數規模僅約1.5B,但在外部評測中,卻超越了部分 30 億參數級別的模型,比如騰訊的Hunyuan3D 2.1。在幾何閉合、多視角一致紋理、材質物理保真度等維度上,Seed3D 已可直接適配工業仿真與 XR 引擎,能被 Unity、Unreal Engine、Isaac Sim 等平臺即刻讀取使用。
性能表現
研究團隊基于 43 組圖像樣本,對六種主流 3D 生成模型進行了系統性評測。評價維度包括清晰度、還原度、幾何結構、透視一致性、紋理質量與細節豐富度。結果顯示,Seed3D 在多個指標上表現穩定,尤其在復雜幾何結構的還原和細節保持方面,生成結果更貼近輸入圖像的真實形態。這意味著模型在從二維信息向三維空間的映射過程中,具備較強的幾何一致性和結構理解能力。
![]()
在幾何生成部分,Seed3D 的表現尤其突出。評測顯示,它在 ULIP-I 與 Uni3D-I 兩項幾何對齊指標上均取得領先,這說明模型能在較高精度下重建物體形態,并維持表面的閉合性與連貫性。換句話說,Seed3D 生成的模型不僅在視覺上成立,也能滿足工程、仿真或打印的結構要求。
![]()
紋理生成方面,Seed3D 基于物理渲染(PBR)體系,能夠輸出包含 albedo、roughness、metalness 等通道的材質貼圖,從而在不同光照角度下保持一致的反射與質感表現。研究團隊還測試了多視角輸入版本 Seed3D 1.0,其在紋理一致性與材質細節上的表現進一步提升。相比傳統依賴人工貼圖的方式,這種自動生成的結果在效率與可控性上具備明顯優勢。
![]()
![]()
在仿真適配能力上,Seed3D 展示出較強的工程兼容性。生成的模型可直接導入到 NVIDIA Isaac Sim 等物理仿真平臺中,無需手動調整即可生成碰撞網格和摩擦參數,用于機器人抓取、物體交互等操作實驗。實驗結果表明,模型在接觸力與物理反饋上的表現與真實數據較為接近。對于具身智能的研究,這意味著虛擬環境中可生成更豐富、可重復的訓練數據,降低了對真實采樣的依賴。
![]()
此外,Seed3D 的生成范圍已不再局限于單個物體。借助視覺語言模型(VLM)的語義分解能力,它能識別輸入圖像中的多個對象及其空間關系,生成相應幾何與材質后,再重組為完整場景。這種基于“分解—生成—組合”的機制,使模型能夠在不同尺度下生成具有空間一致性的 3D 環境,從室內布局到城市街景,均能保持合理的結構邏輯。
實測
目前,火山引擎已上線 Seed3D 的體驗版本。用戶在視覺模型界面中點擊“3D 生成”,即可上傳圖片,生成對應的三維模型。
從官網公開的示例來看,這一版本主要面向電商類應用場景。對于單一物體的生成,Seed3D 的表現相當穩健——文字、材質、紋理等細節都能被準確還原,生成的模型清晰且結構完整。


接著,我們逐步提升測試的難度。對于 3D 模型來說,PBR 材質是決定“真實感上限”的靈魂所在。官方宣稱 Seed3D 1.0 能夠生成符合物理規律的真實材質,并展示了瓷器、餐具等演示樣例,質感出眾。于是,我們選取了一只汝瓷盤作為測試對象。
結果令人驚喜:模型不僅準確還原了盤體的光澤與質地,連汝瓷特有的“開片紋”——那種細密卻不規則的裂紋肌理——都被完整地重建了。
![]()

讓我們繼續提高任務難度。輸入一張包含兩個玻璃杯、深色桌面的圖片。
模型依然能正確識別杯子的數量、形狀與材質,但在顏色理解上出現了偏差。由于背景較暗,原本透明的玻璃被系統誤判為深棕色。這類錯誤雖然不影響幾何精度,卻揭示了當前模型在透明材質和光照語義方面的局限。
![]()

在場景生成方面,我們測死了一張城市的付看圖。
可以看到,模型能夠從輸入圖像中識別出物體實例及其空間關系,生成布局圖(layout map),其中包含每個物體的尺度、位置與方向。隨后,它會為每個物體分別生成幾何結構與紋理材質,并根據布局圖將這些物體組合成完整場景。
從測試結果來看,無論是物體間的相對擺放還是整體光照的一致性,Seed3D 都表現出較好的空間理解能力,但細節上的表達仍有不足。
![]()

對于電商商家、短視頻創作者、自媒體人等非專業用戶而言,Seed3D 的吸引力幾乎是顯而易見的——它降低了 3D 創作的門檻,讓“建模”這件過去需要專業軟件和漫長打磨的工作,變成了一次點擊的操作。
閉合幾何、物理一致、可進引擎:Seed3D 把 3D 做成了標準件
技術層面,如果把“從單圖到可仿真的 3D 資產”拆解成幾件難事:幾何是否閉合、紋理是否跨視角一致、材質是否滿足 PBR 渲染、尺度是否能被物理引擎接受、以及從單物體到場景的可擴展性。
Seed3D 1.0 給出的是一條系統化的工程路徑,而不是單點“秀肌肉”。
![]()
論文給出的框架是以 VAE 學到的幾何潛空間為基座,再用條件化的 Diffusion Transformer 在潛空間里生成形體;在貼圖與材質側,引入多視角一致性約束與 PBR 通道的聯合估計,使輸出直接可進入現代渲染與仿真管線。更高一層,借助視覺語言模型抽取圖像中的物體實例與空間關系,再將各對象的幾何與材質按布局拼裝,完成從“物體”到“場景”的過渡。
整個流程的目標很克制:不是“生成最驚艷的可視化”,而是“最少手工修補即可進引擎跑得起來”。這也解釋了為何在幾何對齊等量化指標(如 ULIP-I、Uni3D-I)上,Seed3D 相較既有方法有穩健優勢,同時在 Isaac Sim 等環境中能自動生成碰撞體并參與抓取、交互等任務驗證,形成合成數據—交互反饋—多模態評估的閉環。
把它放回行業坐標系,最直接的參照物是騰訊的 Hunyuan3D 系列。Hunyuan3D-2.0 把體系切成兩大件:DiT 負責形狀、Paint 負責紋理,并持續公開權重與訓練流程,強調社區可復現、可微調、可量產,這讓它在游戲與設計生態里更像“開放工坊”——上手快、改造空間大、評測與基線豐富。尤其 2.1 代在 PBR 紋理合成、端到端產線工具與開源程度上走得更徹底,企業可以較低遷移成本把它嫁接到現有美術管線里。
反過來看,Seed3D 的策略更像“工程一致性優先”:參數規模并不夸張,卻把閉合網格、PBR 材質與仿真兼容作為硬約束,API 形態先行、權重暫不完全開源,更強調“可用即所得”的穩態體驗——你可以把它理解為兩種產品哲學:一個偏“可塑、可改、可學”,一個偏“可用、可接、可跑”。
在中國本土的 3D 生成賽道上,兩條路徑并行不悖:前者不斷降低創作門檻,擴大技術普惠;后者則持續抬升工業可用的標準,夯實仿真落地的根基。3D 生成這片重要領域,如今正由華人團隊執筆,勾勒出兩種截然不同卻又彼此呼應的新大陸藍圖。
https://seed.bytedance.com/zh/
歡迎掃碼加群參與討論
我們相信認知能夠跨越階層,
致力于為年輕人提供高質量的科技和財經內容。
稿件經采用可獲邀進入Z Finance內部社群,優秀者將成為簽約作者,00后更有機會成為Z Finance的早期共創成員。
我們正在招募新一期的實習生
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.