1月5日,CreateAI(OTC:TSPH)宣布,公司與中國科學(xué)院自動化所共同研發(fā)的4D世界模型NeoVerse正式發(fā)布,相關(guān)研究論文已同步在項目主頁上線,供全球開發(fā)者查閱。該模型融合diffusion與4DGS核心技術(shù),基于100萬段開放場景(in-the-wild)單目視頻訓(xùn)練,30秒即可完成通用4D世界模型構(gòu)建,不僅打破傳統(tǒng)4D建模對昂貴多視角數(shù)據(jù)的依賴,更實現(xiàn)“重建+生成”無限迭代閉環(huán),相關(guān)性能在標(biāo)準(zhǔn)基準(zhǔn)測試中達業(yè)界領(lǐng)先水平。
![]()
作為兼具通用性與高效性的4D建模解決方案,NeoVerse可全面覆蓋影視制作、具身智能、自動駕駛等各類場景,支持4D重建、精準(zhǔn)漫游、多視角生成、視頻編輯、三維點跟蹤等多元應(yīng)用,推動4D技術(shù)從“專用”走向“通用”,加速其在各行業(yè)的落地普及。
VGGT高斯化:秒級完成場景重建
NeoVerse基于視覺幾何基礎(chǔ)變換器(VGGT)構(gòu)建免位姿輸入(pose-free)前饋式4D高斯濺射模型,摒棄傳統(tǒng)迭代式優(yōu)化路徑,無需復(fù)雜離線預(yù)處理,一次預(yù)測即可在幾秒內(nèi)完成動態(tài)場景4D建模,大幅降低技術(shù)應(yīng)用門檻。
雙向運動建模:稀疏幀實現(xiàn)高保真渲染
模型創(chuàng)新性建模高斯基元前后向運動變化量,實現(xiàn)“稀疏幀重建,密集幀渲染”,在少量稀疏關(guān)鍵幀輸入的條件下渲染出連續(xù)密集的視頻畫面。在大幅提升重建效率的同時,保障動態(tài)場景的時空一致性。
單目退化模擬:攻克復(fù)雜場景泛化難題
通過高效稀疏重建出的高斯基元進行剔除與平均幾何濾波,NeoVerse能夠模擬出新視角下的退化渲染模式,這將與原視角的視頻構(gòu)建訓(xùn)練數(shù)據(jù)對。整個訓(xùn)練管線僅需要單目視頻,擺脫了以往對昂貴多視角數(shù)據(jù)的依賴。
![]()
“NeoVerse是我們與中科院自動化所產(chǎn)學(xué)研協(xié)同的重要成果,更是用技術(shù)解決行業(yè)痛點的又一次實踐。”CreateAI首席科學(xué)家王峰表示,“大模型訓(xùn)練依賴于可擴展的(scalable)海量數(shù)據(jù),而多目或4D數(shù)據(jù)過于昂貴導(dǎo)致世界模型的發(fā)展速度受限。我們提出的Feedforward 4D Gaussian重建加Diffusion生成的方法,通過單目視頻即可高效地合成大量的4D數(shù)據(jù),為4D世界模型的建立鋪平了道路。”
![]()
此次發(fā)布的NeoVerse模型支持強大的蒸餾LoRAs(distillation LoRAs)擴展,在單張顯卡上可實現(xiàn)低于30秒的快速推理,具備優(yōu)異的產(chǎn)業(yè)級應(yīng)用潛力。值得一提的是,公司此前在計算機視覺領(lǐng)域已斬獲佳績,相關(guān)研究論文成功入選頂會ICCV 2025;本次依托中科院自動化所在多模態(tài)人工智能領(lǐng)域的深厚學(xué)術(shù)積累,NeoVerse在技術(shù)創(chuàng)新性與學(xué)術(shù)領(lǐng)先性上獲得雙重保障。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.