網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

重磅開源！騰訊混元發(fā)布世界模型1.5，人人都能創(chuàng)造互動(dòng)世界

2025-12-17 15:03:07　來源: 數(shù)據(jù)Wave

北京舉報(bào)

分享至

國內(nèi)首個(gè)開放體驗(yàn)的實(shí)時(shí)世界模型！騰訊混元發(fā)布并開源世界模型1.5.

12月17日，騰訊混元發(fā)布世界模型1.5（Tencent HY WorldPlay)，用戶輸入文字描述或者圖片即可創(chuàng)建專屬的互動(dòng)世界，通過鍵盤、鼠標(biāo)或手柄實(shí)時(shí)控制虛擬相機(jī)的移動(dòng)和轉(zhuǎn)向，像玩游戲一樣自由探索AI生成的世界。這是國內(nèi)首個(gè)開放體驗(yàn)的實(shí)時(shí)世界模型，用戶可以在騰訊混元3D官網(wǎng)申請(qǐng)使用(https://3d.hunyuan.tencent.com/sceneTo3D?tab=worldplay)。

同時(shí)，混元世界模型1.5（WorldPlay）首次開源了業(yè)界最系統(tǒng)、最全面的實(shí)時(shí)世界模型框架，涵蓋數(shù)據(jù)、訓(xùn)練、流式推理部署等全鏈路、全環(huán)節(jié)，并提出了重構(gòu)記憶力、長(zhǎng)上下文蒸餾、基于3D的自回歸擴(kuò)散模型強(qiáng)化學(xué)習(xí)等算法模塊。

世界建模的新突破：實(shí)時(shí)交互、前后一致
混元世界模型1.5帶來世界建模的全新可能性，用戶可以在生成的世界里隨意移動(dòng)探索，離開某個(gè)區(qū)域后再次返回時(shí)，模型能夠"記住"該區(qū)域的三維結(jié)構(gòu)，呈現(xiàn)前后一致的場(chǎng)景——這種空間記憶能力標(biāo)志著模型在三維世界理解上的突破。此外，用戶還可以選擇將用于交互的3D場(chǎng)景導(dǎo)出為可多次使用的3D點(diǎn)云。混元世界模型1.5具備三大核心能力：

實(shí)時(shí)的交互生成：通過原創(chuàng)的Context Forcing蒸餾方案以及流式推理優(yōu)化，模型可以按照24 FPS的速度生成720P的高清視頻；

長(zhǎng)范圍的3D一致性：通過重構(gòu)記憶機(jī)制（Reconstituted Memory），模型支持分鐘級(jí)內(nèi)容的幾何一致性生成，可用于構(gòu)建高質(zhì)量的3D空間模擬器；
多樣化的交互體驗(yàn)：混元世界模型可廣泛適用于不同風(fēng)格的游戲或者現(xiàn)實(shí)場(chǎng)景，以及第一和第三人稱視角，也支持實(shí)時(shí)文本觸發(fā)事件和視頻續(xù)寫等功能。

游戲場(chǎng)景：根據(jù)首幀圖片場(chǎng)景生成

視頻續(xù)寫：根據(jù)首幀圖片場(chǎng)景生成

文本觸發(fā)場(chǎng)景：輸入“木頭冒煙”文字生成

業(yè)界最系統(tǒng)、最全面的實(shí)時(shí)世界模型訓(xùn)練體系首次開源
在技術(shù)上，混元世界模型1.5首次開源了業(yè)界最系統(tǒng)、最全面的實(shí)時(shí)世界模型訓(xùn)練體系，涵蓋數(shù)據(jù)、訓(xùn)練、推理部署等全鏈路、全環(huán)節(jié)。混元團(tuán)隊(duì)在技術(shù)報(bào)告中公開了模型預(yù)訓(xùn)練、持續(xù)訓(xùn)練、自回歸視頻模型強(qiáng)化學(xué)習(xí)、帶記憶力的模型蒸餾的訓(xùn)練細(xì)節(jié)，并詳述模型在控制（control space），記憶（reconstituted memory），蒸餾（context forcing），強(qiáng)化學(xué)習(xí)后訓(xùn)練幾大模塊上的思考與原創(chuàng)設(shè)計(jì)。

混元世界模型1.5的核心是一個(gè)叫做WorldPlay的自回歸擴(kuò)散模型，它采用Next-Frames-Prediction的視覺自回歸任務(wù)進(jìn)行訓(xùn)練，實(shí)現(xiàn)了長(zhǎng)范圍幾何一致性的實(shí)時(shí)交互式世界建模，破解了業(yè)界滿足實(shí)時(shí)性與幾何一致性的難題。
該模型依托三大核心創(chuàng)新：雙分支動(dòng)作表征實(shí)現(xiàn)精準(zhǔn)控制、上下文記憶重構(gòu)機(jī)制保持幾何一致性、上下文對(duì)齊蒸餾技術(shù)增強(qiáng)長(zhǎng)視頻生成的視覺質(zhì)量和幾何一致性。除此之外，該工作也構(gòu)建了一套新穎的基于3D獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)后訓(xùn)練框架來進(jìn)一步增強(qiáng)生成視頻的視覺質(zhì)量和幾何一致性。數(shù)據(jù)方面，混元團(tuán)隊(duì)構(gòu)建的自動(dòng)化3D場(chǎng)景渲染流程，可以獲得大量高質(zhì)量的真實(shí)世界渲染數(shù)據(jù)，進(jìn)一步激發(fā)核心算法的潛力。混元世界模型1.5可支持 24幀 / 秒的長(zhǎng)時(shí)流式生成，一致性與泛化能力適用于多樣化場(chǎng)景。
騰訊混元團(tuán)隊(duì)持續(xù)深耕世界模型技術(shù)。今年7月，騰訊混元團(tuán)隊(duì)發(fā)布混元3D世界模型1.0，支持文本或單張圖片輸入生成兼容圖形學(xué)管線的3D場(chǎng)景；10月，混元團(tuán)隊(duì)發(fā)布世界模型1.1，支持多視圖或視頻一鍵創(chuàng)造3D世界。此次發(fā)布的混元世界模型1.5進(jìn)一步帶來了世界建模的全新可能性。
世界模型的演進(jìn)和迭代不僅是技術(shù)上的突破，也打開了“AI生成內(nèi)容”的想象空間：未來的AI不只是生成文本、圖像或視頻等模態(tài)，而是創(chuàng)造實(shí)時(shí)探索、可交互、空間一致的完整“世界”。
這種全新的內(nèi)容生成模式，可以應(yīng)用在多個(gè)場(chǎng)景中：在AI游戲開發(fā)領(lǐng)域，它可以作為智能關(guān)卡生成器，根據(jù)玩家的文本描述實(shí)時(shí)創(chuàng)建可探索的游戲世界；在影視制作和虛擬現(xiàn)實(shí)（VR）領(lǐng)域，創(chuàng)作者通過簡(jiǎn)單的文本指令，就可以快速預(yù)覽和迭代場(chǎng)景設(shè)計(jì)；在具身智能（Embodied AI）研究領(lǐng)域，混元世界模型1.5提供了一個(gè)理想的訓(xùn)練和測(cè)試平臺(tái)，研究者可以通過借助這個(gè)平臺(tái)，以更高的效率、更大的規(guī)模，去探索具身智能體的感知、決策、規(guī)劃和長(zhǎng)期交互能力。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.