還記得前段時間嗎?現在,國產版終于來了。
就在上周騰訊官宣姚順雨加盟的新聞刷屏時,騰訊混元團隊低調上線了世界模型 1.5(TencentHY WorldPlay),這是國內首個開放體驗的實時世界模型。
什么叫世界模型?簡單說:你輸入幾句話或者一張圖,AI 就能給你生成一個可以「走進去玩」的虛擬世界。不是那種只能看的視頻,而是可以用鍵盤、鼠標甚至手柄實時操控的 3D 空間。

根據首幀圖片場景生成的游戲場景
這次有什么亮點:
實時的交互生成:通過原創的 Context Forcing 蒸餾方案以及流式推理優化,模型可以按照 24 FPS 的速度生成 720P 的高清視頻;
長范圍的3D一致性: 通過重構記憶機制(Reconstituted Memory),模型支持分鐘級內容的幾何一致性生成,可用于構建高質量的 3D 空間模擬器;
多樣化的交互體驗: 混元世界模型可廣泛適用于不同風格的游戲或者現實場景,以及第一和第三人稱視角,也支持實時文本觸發事件和視頻續寫等功能。
是不是被這些晦澀的技術名詞繞暈了,APPSO 下面直接帶你玩起來,來創造一些腦洞大開的「世界」。
在線體驗網站:https://3d.hunyuan.tencent.com/sceneTo3D?tab=worldplay
文字→世界,體驗 「 造物主 」 的快感
打開頁面的第一眼,我發現界面做成了一臺復古電視機的樣子。回想我們小時候看電視,只能看央視放什么、湖南臺播什么,遙控器怎么換臺也逃不出編排好的節目單。
但現在不需要等晚上 8 點的黃金檔,不需要等導演拍完,你自己就是這個世界的總導演。想去體驗過山車?打幾個字,生成。想回到千禧年跨年夜?描述一下,出現。
一個極速飛馳的過山車,手握冰涼的金屬扶手,有呼嘯的風灌進喉嚨,一陣失重感突然襲來,還有快速掠過的模糊樹影,以及頭頂刺眼的陽光,第一視角體驗很刺激,寫實風格
點擊生成后,大約等待了 5-8 秒,畫面出現了。第一眼真的有那種坐在過山車第一排的沉浸感。仔細觀察畫面下方的雙手,皮膚紋理、骨節甚至毛孔都清晰可見,紅色座椅的漆面質感與金屬扶手的劃痕也處理得非常真實。
按 ↑ 鍵前進,畫面開始往后倒,好像是反坐過山車,更刺激了。
但視頻后面,兩側的樹影沒有保持住,變形嚴重,不過考慮到實時生成的難度,可以理解。
一輛狂飆突進的雪地摩托,凍得發麻的金屬車把攥在掌心,鋒利的雪粒砸進臉頰,一陣失重感猛地翻涌上來,還有飛速掠過的模糊林影,以及頭頂冷冽的碎雪天光,第一視角體驗
畫面生成后,我發現自己處于一個「定格瞬間」,周圍的雪、林影、天光都是靜態的,就像按下了暫停鍵。我可以自由轉動視角,仔細觀察這一刻揚起的雪花、這一刻的天空、這一刻金屬車把上的霜痕。
起初我以為這是個 Bug,但仔細一想,有點像你剛剛穿越到一個新世界,時間在這一刻凝固,你可以從容不迫地打量周圍的一切細節。
從技術角度看,可能是因為模型難以處理「第一視角+高速運動」場景。雖然不是我預期的「騎著摩托飆雪」的動態體驗,但這種凍結瞬間的探索,反而能讓人更清晰地感受到 AI 生成的 3D 空間質感。
一個熱鬧的千禧年跨年夜場景,街頭有磁帶攤,人們舉著彩色氣球圍在廣場倒計時,路邊門店的 CRT 電視播放著跨年晚會,突然綻放的煙花照亮夜空,復古風格
如果你是 80 后、90 后,這個場景絕對值得一試。畢竟,在智能手機還沒普及的千禧年,沒幾個人能留個視頻做記錄。
當鏡頭從磁帶攤轉向右側的建筑,場景中的物體保持了良好的相對位置關系。路燈、人群和電視機都沒有出現明顯的漂移或錯位,證明模型對三維空間的理解還是不錯的。
但模型在處理磁帶架時,會出現典型的 AI 粘滯感。遠看色彩豐富,近看則缺乏銳利的邊緣。向上仰望右側建筑時,建筑的細節顯得非常「軟」,看起來更像是涂抹的油畫,而不是具有堅硬物理結構的固體。
測完了懷舊風,我想試試自己做夢都想住的海景豪宅。
房間的主色調是淺藍與白沙色,地面鋪著仿貝殼肌理的啞光瓷磚,窗邊有個淺灰色的亞麻沙發。落地玻璃窗沒有任何遮擋,將窗外的海景框成一幅流動的畫
這是一段接近 180 度的全景掃視。模型在處理大跨度的視角切換時,窗框、立柱和天花板的直線條沒有發生扭曲,表現出了極佳的三維空間一致性。
雖然咱買不起海景房,但至少可以在 AI 生成的世界里躺平一會兒(笑)。萬一哪天實現了,也可以用它預覽下裝修效果。
讓千里江山「活」起來
除了文字生成,混元世界模型還支持「單圖生成場景」功能。但在上傳圖片之前,有幾個注意事項:
檢查分辨率: 1280×704 ~ 4k×4k。如果是專業相機拍攝的幾十兆的大圖,請降低畫質或縮小尺寸到 10MB 以下。
避開豎屏圖: 手機拍攝的縱向照片不符合要求,建議裁剪成橫向。

視頻續寫:根據首幀圖片場景生成
搞定這些后,我做了個大膽的嘗試:上傳了一張《千里江山圖》的局部。
對,就是那幅北宋天才少年王希孟 18 歲時畫的青綠山水、層巒疊嶂。我想看看,硅基智能能不能讀懂千年前的碳基美學。
畫面生成完畢。這完全超出了我的預期:
AI 很好地保留了原畫的風格特征,3D 化處理沒有破壞中國畫的意境,像我真的穿越回了北宋,站在王希孟當年寫生的那片山水里。
這說明世界模型可能讓藝術不再只是「被欣賞」,而是可以「自由游覽」 。
實時觸發事件
世界模型最吸引人的地方在于,你只需要說一句話,等 5 秒鐘,世界就按你的意愿改變了。
別再說「沒招了」,來這里過一把霸總癮。
不是「切換場景」式的跳變,而是平滑過渡的。天色從亮到暗的漸變過程,光影變化的細膩程度,都讓人感覺這個世界「活」了起來。
爆炸產生的高亮度橙色火光實時地反射在水面上,效果非常自然,不過細看之下還是會有些小瑕疵。
比如在如此巨大的爆炸發生后,近處的水面竟然沒有任何波動。要知道在真實物理世界中,劇烈的空氣膨脹會改變水面的狀態。
看完實測,相信你和我一樣好奇:技術上是怎么做的?
騰訊混元團隊的技術報告提到,傳統的擴散模型(Diffusion Model)生成視頻時,需要先完整地去噪整個畫面,然后再輸出。這就導致了兩個問題:一是延遲高,二是無法實時響應用戶操作。
這次采用了流式 DiT (擴散變換器)架構,能像流媒體一樣,邊接收用戶的實時手柄控制信號,邊瞬間去噪并解碼成畫面。這種設計保證了極低的延遲,讓你在操控視角時感覺不到卡頓。
世界模型最大的問題是「健忘」,你讓它生成一個客廳,它生成了;轉走再回來,它又生成了一個全新的客廳,跟剛才那個完全不一樣。
Context Forcing 機制的作用,就是強制模型「記住」之前生成的場景細節。簡單說,就是給模型加了一個「短期記憶」,讓它在生成新畫面時,能參考之前的幾何結構、光影關系、物體位置,從而保證長時間的 3D 一致性。
![]()
測完混元世界模型,我腦子里一直回響著李飛飛的那句話:「人類智能的核心不是語言,而是對三維空間的理解和操作能力。」
過去兩年,大語言模型(LLM)火爆全球,ChatGPT、Claude、Gemini 讓我們驚嘆于 AI 的語言能力。但冷靜下來想想:會聊天的 AI,真的理解世界嗎?
它不知道一張桌子有多高,不知道從客廳走到廚房需要轉幾個彎,不知道一個杯子掉在地上會如何碎掉……
語言智能,讓 AI 學會了「說」;空間智能,才能讓 AI 學會「做」。
這就是為什么 Google、Meta、OpenAI、騰訊都在押注世界模型。它不是一個更酷的視頻生成工具,而是通往通用人工智能(AGI)的關鍵一步。
《我的世界》(Minecraft)剛發布時,很多人覺得「這有什么好玩的?」
十幾年過去了,Minecraft 成了全球最成功的游戲之一,不是因為它擁有頂尖的畫質與特效,而是因為它給了玩家創造世界的自由。
![]()
世界模型現在的流暢度、交互深度都還有提升的空間。但它給了我們一種關于未來的想象:每個人都能成為造物主。
![]()
親自試試,然后回來告訴我,你創造了什么樣的世界。
福利掉落!想把 2026 年的每一份溫暖都捧在手心嗎?只 需在評論區留言,就有機會參與抽獎!我們將送出5 份【2026 元寶心語日歷】,陪你開啟元氣滿滿的一年。快來接好運吧!
歡迎加入 APPSO AI 社群,一起暢聊 AI 產品,獲取,解鎖更多 AI 新知
我們正在招募伙伴
簡歷投遞郵箱hr@ifanr.com
?? 郵件標題「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關鏈接)
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.