![]()
作者 | 黃昱
在朝著AGI前進的道路上,AI持續向垂直場景化、3D交互化落地,更多成熟的多模態大模型也在進入市場。
穩坐全球游戲頭把交椅的騰訊,一直瞄準游戲研發需求很大的3D生成持續發力。
4月16日,騰訊正式發布并開源了混元3D世界模型(HY-World 2.0)。
騰訊目前的3D系列模型分為兩類,如果說混元3D生成大模型專注單個高精度 3D 資產,混元3D世界模型則致力于構建完整、可交互、可導入游戲引擎的3D場景。
騰訊混元的3D世界模型正在一步步將“AI造世界”從概念變為現實,但這條賽道角逐,才剛剛開始。同日,阿里也發布了世界模型Happy Oyster,主打實時世界創建與交互。
一鍵生成游戲世界
HY-World 2.0是一個多模態世界模型,其核心能力在于能夠理解文字、圖片、視頻等不同類型的輸入,進而自動生成、重建和模擬3D世界。
同時,HY-World 2.0支持多格式3D資產(Mesh/3DGS/點云等)導出,可以與現有的游戲工作流無縫對接,用于快速生成游戲地圖和關卡原型。
也就是說,HY-World 2.0更強調實用性,可以直接生成可供二次編輯的3D資產文件。
此外,HY-World 2.0在交互性上也實現了突破。該模型支持“角色模式”,允許用戶操作角色在生成的街道、建筑和場景中自由探索。
在技術實現路徑上,騰訊混元團隊則以3D生成為主軸,通過統一空間理解、生成、重建的架構,達到了SOTA級的生成效果。
據悉,在傳統的3D生成方法中,往往需要精確的相機參數才能生成全景圖,但在實際操作中這些參數極難獲取。
HY-World 2.0全新升級的HY-Pano-2.0模型采用了端到端的隱式學習方案,使模型能夠自行學會從普通圖片到360度全景的空間映射,大幅降低對相機元數據的依賴。
解決了空間構建問題后,模型還需要解決如何在空間中合理移動的挑戰。騰訊團隊自研了空間Agent技術,將視覺大語言模型(VLM)與游戲自動尋路算法中常用的navmesh表征相結合。
這使得大模型不僅能理解空間語義,還能智能規劃出諸如“環繞物體”或“最大漫游”等合理的漫游軌跡,確保覆蓋高價值區域的同時避免穿墻或跑飛現象。
沿著這些規劃好的軌跡,騰訊打造新視角生成(NVS)模型HY-WorldStereo模型的任務則是讓新生成的區域與已有區域在幾何和視覺上銜接,保持高度的空間一致性,使得畫面質量在快速生成中不會衰減。
早在2024年11月,騰訊就發布且開源了混元3D生成大模型1.0,到去年騰訊混元3D生成大模型3.0上線。與此同時,去年7月,混元3D世界模型1.0發布,
騰訊提供數據顯示,截至今年3月,混元3D系列模型在開源社區的下載量突破300萬,騰訊混元3D創作引擎也被德國軟件公司Maxon引入其專業三維軟件Cinema 4D。
發力3D生成的背后
以3D大模型為核心的多模態大模型,近年來一直是騰訊發力的重點。
華爾街見聞從騰訊內部了解到,相較于大語言模型,騰訊大模型團隊這些年顯然將更多精力投入到了多模態大模型的打造中。
為了提升大語言模型的能力,在今年三月的業績會上,騰訊總裁劉熾平指出,過去幾個月騰訊比較密集地進行了混元大模型團隊的組織升級和工作流重構,同時也重新建立了整個預訓練和強化學習的基礎設施,以及進一步提升數據質量。
據彼時披露,混元3.0正在內測階段,4月初會逐步對外開放。
如今,早于大語言模型混元3.0,“好兄弟”HY-World 2.0先來了。
這也釋放出一個重要信息,即便開始加速提升混元大語言模型的能力,騰訊依然會持續發力多模態大模型。
騰訊重視多模態與3D世界,背后有著極為清晰的產業邏輯:一切為了核心業務的協同,尤其是向其最核心的“造血機”——游戲業務輸送彈藥。
構建一個復雜的開放世界地圖或精細的關卡原型,往往需要龐大的美術團隊耗費數月甚至數年時間。3D大模型的出現,精準擊中了這一痛點。
通過一句話或一張草圖秒級生成可導入UE引擎的3D空間,這種技術一旦在內部工作流中全面鋪開,將為騰訊游戲帶來驚人的降本增效成果,推動游戲研發流程革新。
據華爾街見聞了解,騰訊自研無代碼編程游戲編輯器輕游夢工坊已接入騰訊混元3D生成模型最新版本,構建了“無代碼可視化編程+預制系統+海量資源庫+ AI生成”的組合方案,形成了一個“傻瓜式”的工具體系。
而《元夢之星》等數十款騰訊內部游戲也已深度應用混元模型能力。
騰訊管理層在3月的業績會上也曾指出,生產力型AI智能體的普及將推動3D等世界模型需求增長,因AI技術必然補充并最終強化計算機輔助設計(CAD)能力,該能力在工業設計、建筑領域至關重要,在游戲領域的重要性也持續提升。
與此同時,騰訊管理層認為,騰訊在物理AI及3D模型領域占據獨特有利位置,依托游戲業務積累的海量、深度3D圖形數據集,可為模型訓練提供優質數據支撐,進而向市場提供相關3D工具,具備承接市場需求的良好基礎。
然而,盡管3D生成技術描繪了宏大的業務賦能圖景,它當前仍面臨著嚴峻的挑戰。
作為多模態生成中難度最大的領域之一,3D生成對算力和數據資源有著極高的要求。時長的增加或維度的提升會導致算力呈平方級的上升,復雜的幾何計算和物理模擬使得大規模應用在推理成本上居高不下。
同時,在追求極致精度的3A級游戲工業場景中,AI生成的資產通常還需要大量的人工后期修正,距離完全的“開箱即用”仍有一段距離。大模型廠商必須在龐大的算力資本開支與實際的商業化效率之間找到平衡。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.