國內(nèi)首個(gè)開放體驗(yàn)的實(shí)時(shí)世界模型!騰訊混元發(fā)布并開源世界模型1.5.
12月17日,騰訊混元發(fā)布世界模型1.5(Tencent HY WorldPlay),用戶輸入文字描述或者圖片即可創(chuàng)建專屬的互動(dòng)世界,通過鍵盤、鼠標(biāo)或手柄實(shí)時(shí)控制虛擬相機(jī)的移動(dòng)和轉(zhuǎn)向,像玩游戲一樣自由探索AI生成的世界。這是國內(nèi)首個(gè)開放體驗(yàn)的實(shí)時(shí)世界模型,用戶可以在騰訊混元3D官網(wǎng)申請(qǐng)使用(https://3d.hunyuan.tencent.com/sceneTo3D?tab=worldplay)。
![]()
同時(shí),混元世界模型1.5(WorldPlay) 首次開源了業(yè)界最系統(tǒng)、最全面的實(shí)時(shí)世界模型框架,涵蓋數(shù)據(jù)、訓(xùn)練、流式推理部署等全鏈路、全環(huán)節(jié),并提出了重構(gòu)記憶力、長(zhǎng)上下文蒸餾、基于3D的自回歸擴(kuò)散模型強(qiáng)化學(xué)習(xí)等算法模塊。
![]()
世界建模的新突破:實(shí)時(shí)交互、前后一致
混元世界模型1.5帶來世界建模的全新可能性,用戶可以在生成的世界里隨意移動(dòng)探索,離開某個(gè)區(qū)域后再次返回時(shí),模型能夠"記住"該區(qū)域的三維結(jié)構(gòu),呈現(xiàn)前后一致的場(chǎng)景——這種空間記憶能力標(biāo)志著模型在三維世界理解上的突破。此外,用戶還可以選擇將用于交互的3D場(chǎng)景導(dǎo)出為可多次使用的3D點(diǎn)云。混元世界模型1.5具備三大核心能力:
實(shí)時(shí)的交互生成:通過原創(chuàng)的Context Forcing蒸餾方案以及流式推理優(yōu)化,模型可以按照24 FPS的速度生成720P的高清視頻;
長(zhǎng)范圍的3D一致性:通過重構(gòu)記憶機(jī)制(Reconstituted Memory),模型支持分鐘級(jí)內(nèi)容的幾何一致性生成,可用于構(gòu)建高質(zhì)量的3D空間模擬器;
多樣化的交互體驗(yàn):混元世界模型可廣泛適用于不同風(fēng)格的游戲或者現(xiàn)實(shí)場(chǎng)景,以及第一和第三人稱視角,也支持實(shí)時(shí)文本觸發(fā)事件和視頻續(xù)寫等功能。
![]()
游戲場(chǎng)景:根據(jù)首幀圖片場(chǎng)景生成
![]()
視頻續(xù)寫:根據(jù)首幀圖片場(chǎng)景生成
![]()
文本觸發(fā)場(chǎng)景:輸入“木頭冒煙”文字生成
業(yè)界最系統(tǒng)、最全面的實(shí)時(shí)世界模型訓(xùn)練體系首次開源
在技術(shù)上,混元世界模型1.5首次開源了業(yè)界最系統(tǒng)、最全面的實(shí)時(shí)世界模型訓(xùn)練體系,涵蓋數(shù)據(jù)、訓(xùn)練、推理部署等全鏈路、全環(huán)節(jié)。混元團(tuán)隊(duì)在技術(shù)報(bào)告中公開了模型預(yù)訓(xùn)練、持續(xù)訓(xùn)練、自回歸視頻模型強(qiáng)化學(xué)習(xí)、帶記憶力的模型蒸餾的訓(xùn)練細(xì)節(jié),并詳述模型在控制(control space),記憶(reconstituted memory),蒸餾(context forcing),強(qiáng)化學(xué)習(xí)后訓(xùn)練幾大模塊上的思考與原創(chuàng)設(shè)計(jì)。
![]()
混元世界模型1.5的核心是一個(gè)叫做WorldPlay的自回歸擴(kuò)散模型,它采用Next-Frames-Prediction的視覺自回歸任務(wù)進(jìn)行訓(xùn)練,實(shí)現(xiàn)了長(zhǎng)范圍幾何一致性的實(shí)時(shí)交互式世界建模,破解了業(yè)界滿足實(shí)時(shí)性與幾何一致性的難題。
該模型依托三大核心創(chuàng)新:雙分支動(dòng)作表征實(shí)現(xiàn)精準(zhǔn)控制、上下文記憶重構(gòu)機(jī)制保持幾何一致性、上下文對(duì)齊蒸餾技術(shù)增強(qiáng)長(zhǎng)視頻生成的視覺質(zhì)量和幾何一致性。除此之外,該工作也構(gòu)建了一套新穎的基于3D獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)后訓(xùn)練框架來進(jìn)一步增強(qiáng)生成視頻的視覺質(zhì)量和幾何一致性。數(shù)據(jù)方面,混元團(tuán)隊(duì)構(gòu)建的自動(dòng)化3D場(chǎng)景渲染流程,可以獲得大量高質(zhì)量的真實(shí)世界渲染數(shù)據(jù),進(jìn)一步激發(fā)核心算法的潛力。混元世界模型1.5可支持 24幀 / 秒的長(zhǎng)時(shí)流式生成,一致性與泛化能力適用于多樣化場(chǎng)景。
騰訊混元團(tuán)隊(duì)持續(xù)深耕世界模型技術(shù)。今年7月,騰訊混元團(tuán)隊(duì)發(fā)布混元3D世界模型1.0,支持文本或單張圖片輸入生成兼容圖形學(xué)管線的3D場(chǎng)景;10月,混元團(tuán)隊(duì)發(fā)布世界模型1.1,支持多視圖或視頻一鍵創(chuàng)造3D世界。 此次發(fā)布的混元世界模型1.5進(jìn)一步帶來了世界建模的全新可能性。
世界模型的演進(jìn)和迭代不僅是技術(shù)上的突破,也打開了“AI生成內(nèi)容”的想象空間:未來的AI不只是生成文本、圖像或視頻等模態(tài),而是創(chuàng)造實(shí)時(shí)探索、可交互、空間一致的完整“世界”。
這種全新的內(nèi)容生成模式,可以應(yīng)用在多個(gè)場(chǎng)景中:在AI游戲開發(fā)領(lǐng)域,它可以作為智能關(guān)卡生成器,根據(jù)玩家的文本描述實(shí)時(shí)創(chuàng)建可探索的游戲世界;在影視制作和虛擬現(xiàn)實(shí)(VR)領(lǐng)域,創(chuàng)作者通過簡(jiǎn)單的文本指令,就可以快速預(yù)覽和迭代場(chǎng)景設(shè)計(jì);在具身智能(Embodied AI)研究領(lǐng)域,混元世界模型1.5提供了一個(gè)理想的訓(xùn)練和測(cè)試平臺(tái),研究者可以通過借助這個(gè)平臺(tái),以更高的效率、更大的規(guī)模,去探索具身智能體的感知、決策、規(guī)劃和長(zhǎng)期交互能力。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.