網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

一句話，AI 直接給我建了個(gè)能跑能跳的「吉卜力」3D小鎮(zhèn)

2026-04-17 17:54:41　來源: 愛范兒

廣東舉報(bào)

分享至

這周的大模型熱點(diǎn)除了 Anthropic 剛剛發(fā)布的 Opus 4.7，世界模型成了另一塊角力的陣地。

短短幾天內(nèi)，AI 圈幾乎是連珠炮式地發(fā)布了一系列重磅世界模型。

先是李飛飛的 World Labs 開源了 Spark 2.0，緊接著騰訊在昨天正式發(fā)布并開源了混元 3D 世界模型 2.0（HY-World 2.0）。

▲騰訊混元 3D 世界模型 2.0 體驗(yàn)地址：https://3d.hunyuan.tencent.com/sceneTo3D

阿里也馬不停蹄，新成立的 ATH 旗下創(chuàng)新事業(yè)部團(tuán)隊(duì)，剛剛才官宣了 HappyHorse，立刻又發(fā)布世界模型 HappyOyster。

▲阿里 HappyOyster 官網(wǎng)截圖：https://www.happyoyster.cn/

最容易忽略的還有英偉達(dá) Lyra 2.0，沒有發(fā)布會(huì)和新聞稿，旗下的空間智能實(shí)驗(yàn)室直接甩出一篇論文，「可探索的生成式 3D 世界。」

▲英偉達(dá)研究博客：https://research.nvidia.com/labs/sil/projects/lyra2/

這種密集程度讓人產(chǎn)生一種錯(cuò)覺，那些生圖生視頻模型是不是都弱爆了。現(xiàn)在的 AI 已經(jīng)從「生成一張圖、一段視頻」的平面階段，大步來到「構(gòu)建一個(gè)世界」的 3D 空間時(shí)代。

不僅技術(shù)端在狂飆，資本市場(chǎng)也給出了強(qiáng)烈的回應(yīng)。

今天，群核科技正式登陸港交所。這家空間智能公司一直致力于推動(dòng) AI 進(jìn)入物理世界。它的成功上市，標(biāo)志著「世界模型第一股」的正式誕生，也向外界釋放了一個(gè)明確信號(hào)：世界模型，真的開始火了。

而在熱鬧之余，我們也發(fā)現(xiàn)雖然這些公司都叫世界模型，但是路線完全不同，只能生成視頻的像是一個(gè) Demo 產(chǎn)品；能生成 3D 資產(chǎn)的看似可以融入開發(fā)設(shè)計(jì)的工作流；還有在論文里的未來工作暢想，希望用于機(jī)器人的訓(xùn)練。

目前，騰訊混元 3D 世界模型 2.0 已經(jīng)開放了申請(qǐng)。我們第一時(shí)間進(jìn)去體驗(yàn)了一波，試圖從中找到一個(gè)答案：這些被認(rèn)為是 AI 下一階段的世界模型，到底能解決真實(shí)世界的哪些問題？

從看電影到開始游戲

此前我們聊世界模型，大多像在聊一個(gè)「更長(zhǎng)、更懂物理規(guī)律、一致性保持更強(qiáng)的視頻」。但這次體驗(yàn)混元 2.0，最直接的沖擊力在于，它生成的不再是 MP4，而是真正的 3D 資產(chǎn)文件。

在體驗(yàn)中，我用簡(jiǎn)單的提示詞輸入了「吉卜力風(fēng)格的山間小鎮(zhèn)，黃昏」。在幾分鐘的計(jì)算后，出現(xiàn)在屏幕上的畫面像是一個(gè)大世界游戲。

點(diǎn)擊下載，混元 3D 提供了全景圖、Splats 的 .spz 文件和 .ply 文件，以及 Collider mesh 一共四種 3D 資產(chǎn)文件格式。

四種文件類型涵蓋了 Mesh（三角面片網(wǎng)格）、3DGS（3D 高斯?jié)姙R）、點(diǎn)云等多種格式的 3D 資產(chǎn)文件，這些文件可以直接導(dǎo)入 Unity、Unreal Engine，游戲開發(fā)者拿到手之后可以繼續(xù)編輯、調(diào)整、搭建關(guān)卡。

▲所生成的世界同樣可以保存為全景圖片，原圖約 20MB。

在世界生成任務(wù)上，除了常見的文生世界，混元 3D 同樣支持圖生世界。我們找了一張《拯救計(jì)劃》電影截圖，Rocky 最后在波江座人給他搭建的世界里漫步，讓混元來還原整個(gè)波江座。

▲由于電影截圖里就有顯示一個(gè)外殼包圍著 Rocky 居住的海邊，所以混元生成的世界也有一塊「黑影」

當(dāng)使用 Unsplash 上下載的高清雪山圖片時(shí)，混元 3D 世界模型 2.0 生成的雪景，畫質(zhì)和真實(shí)感都更強(qiáng)。

▲全景圖和導(dǎo)演模式下的角色漫游

無論是上傳圖片還是文字提示詞，應(yīng)用內(nèi)都有相關(guān)的指引，例如上傳的圖片分辨率不能小于 512*512，避免畫面出現(xiàn)人物，不要有動(dòng)物/人物特寫，避免使用純色、純紋理圖片；以及天空、星空等畫面占比較大圖片也不適合等。

而文本提示詞，最好是場(chǎng)景類別（沙漠、海面、房間等）+ 場(chǎng)景特征（物體、天空等視覺描述）+ 風(fēng)格（可選，卡通/寫實(shí)/油畫風(fēng)格等）。

混元 3D 世界模型 2.0 的風(fēng)格化控制表現(xiàn)也很好，從官網(wǎng)已有的世界案例能看到，無論是溫馨的繪本風(fēng)還是寫實(shí)的游戲風(fēng)，它對(duì)語義的解析非常精準(zhǔn)；墻壁的紋理、地牢的陰影和光感都極具沉浸感。

除了能生成可用的 3D 資產(chǎn)，混元 2.0 真正讓我感到「世界」屬性的，是它的角色模式。

現(xiàn)在我們可以直接操控一個(gè)角色在剛剛生成的場(chǎng)景里行走、加速、跳躍、轉(zhuǎn)彎、探索，整個(gè)過程就像是在玩一個(gè)大世界游戲。同時(shí)，它自帶物理碰撞，角色不會(huì)穿墻而過，也不會(huì)掉出地圖邊緣。

這種即刻生成、即刻可玩的體驗(yàn)，確實(shí)在模糊了 AI 生成與游戲引擎之間的邊界，隨著能生成世界的范圍不斷擴(kuò)大，角色的探索或許會(huì)更有意思。

實(shí)時(shí)生世界時(shí)，我們能直接控制角色的行動(dòng)，混元 3D 模型會(huì)自動(dòng)生成對(duì)應(yīng)的世界，單次生成的時(shí)長(zhǎng)是一分鐘。

對(duì)比之前的混元 3D 模型，這次的 2.0 版本在一句話/一張圖生世界任務(wù)上，不僅支持下載 3D 資產(chǎn)文件，推出了全新的角色模式，而且在畫面精細(xì)度和真實(shí)感方面，也從底層的模型架構(gòu)進(jìn)行了重新設(shè)計(jì)。

▲混元世界模型 2.0 多模態(tài)世界架構(gòu)｜https://3d-models.hunyuan.tencent.com/world/

新的模型架構(gòu)，打通了「理解、生成、重建」的閉環(huán)。

HY-Pano-2.0：不需要專業(yè)的相機(jī)參數(shù)，普通圖片就能映射出 360° 全景。
空間 Agent 技術(shù)：像給 AI 裝上了導(dǎo)航，它能智能規(guī)劃漫游軌跡，確保護(hù)理和視覺上的銜接不會(huì)穿幫。
HY-WorldMirror 2.0：保證了即使是在大幅度的視角變換下，物體側(cè)面和背面的完整度依然在線。

在世界重建任務(wù)上，混元世界模型 2.0 輸入多張圖或視頻流，就能做到重建真實(shí)場(chǎng)景。

在過去，我們想要構(gòu)建/重建一個(gè)可互動(dòng)的 3D 世界，需要成體系的團(tuán)隊(duì)和數(shù)月的打磨；而現(xiàn)在，通過混元 2.0 這樣的工具，只需要一個(gè)創(chuàng)意。

并且，這個(gè)創(chuàng)意，無論是以文字、圖片還是視頻的形式呈現(xiàn)，它都可以生成一個(gè)拖進(jìn) Unity 的原型，哪怕質(zhì)量還需要調(diào)整，哪怕很多細(xì)節(jié)還要人工修改，但整個(gè)設(shè)計(jì)的工作流，AI 也開始在發(fā)力了。

瘋狂的世界模型周，瘋狂的 AI

當(dāng)我們?cè)侔岩暰€從混元 3D 世界模型 2.0 的資產(chǎn)生成、角色模式、世界重建，拉回本周連發(fā)的其他幾個(gè)世界模型，我們會(huì)發(fā)現(xiàn)，這些不同在不同維度突圍的世界模型，正共同拼湊出世界模型更明確的樣子。

阿里 HappyOyster 目前還在主打漫游和導(dǎo)演模式，讓我們用自然語言隨時(shí)介入世界演化，改寫劇情走向和角色動(dòng)作。

英偉達(dá) Lyra 2.0 用一張圖就能生成長(zhǎng)達(dá) 90 米的連貫 3D 環(huán)境，它生成的場(chǎng)景甚至能直接丟進(jìn) Isaac Sim 給機(jī)器人做物理訓(xùn)練。

李飛飛 Spark 2.0 打通「交付最后一公里」，前面那些模型都在解決怎么造世界，而 Spark 2.0 已經(jīng)開始解決怎么給人看。它通過獨(dú)創(chuàng)的流式加載和虛擬內(nèi)存技術(shù)，把上億個(gè) 3DGS 粒子的超大世界，硬生生塞進(jìn)了普通手機(jī)的網(wǎng)頁瀏覽器里。

▲World Lab 生成界面，提示詞：吉卜力風(fēng)格的山間小鎮(zhèn)，黃昏

看著這些各顯神通的世界模型界面，一個(gè)現(xiàn)實(shí)的結(jié)論是：很明顯，世界模型還沒迎來它的 ChatGPT 時(shí)刻。

四家公司這一周的密集發(fā)布更像是在為這個(gè)時(shí)刻做準(zhǔn)備，畫面質(zhì)量、交互能力、資產(chǎn)格式、交付方式、仿真精度，每個(gè)都在朝著自己的方向優(yōu)化。但把這些塊拼成一個(gè)「讓普通人愿意每天打開」的產(chǎn)品，還沒有模型做到。

在過去兩年里，隨著 AI Coding 重塑代碼開發(fā)、Nano Banana 等模型顛覆平面設(shè)計(jì)，前端工程師和平面設(shè)計(jì)師們已經(jīng)經(jīng)歷了「xxx is DEAD」。現(xiàn)在，這朵雪花大概是要飄到 3D 設(shè)計(jì)的護(hù)城河上。

隨著更多模型廠商的下場(chǎng)，3D 設(shè)計(jì)的工作流也會(huì)慢慢從 AI 輔助走向 AI 主導(dǎo)。到那時(shí)，生成并體驗(yàn)一個(gè) 3D 互動(dòng)世界，將會(huì)像今天我們?cè)谑謾C(jī)上刷短視頻一樣流暢、低成本且理所當(dāng)然。

畢竟，在所有的科幻敘事里，沒有任何人會(huì)抗拒自己成為「造物主」，去自定義一個(gè)新世界。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.