![]()
這周的大模型熱點(diǎn)除了 Anthropic 剛剛發(fā)布的 Opus 4.7,世界模型成了另一塊角力的陣地。
短短幾天內(nèi),AI 圈幾乎是連珠炮式地發(fā)布了一系列重磅世界模型。
先是李飛飛的 World Labs 開源了 Spark 2.0,緊接著騰訊在昨天正式發(fā)布并開源了混元 3D 世界模型 2.0(HY-World 2.0)。
![]()
▲騰訊混元 3D 世界模型 2.0 體驗(yàn)地址:https://3d.hunyuan.tencent.com/sceneTo3D
阿里也馬不停蹄,新成立的 ATH 旗下創(chuàng)新事業(yè)部團(tuán)隊(duì),剛剛才官宣了 HappyHorse,立刻又發(fā)布世界模型 HappyOyster。
![]()
▲阿里 HappyOyster 官網(wǎng)截圖:https://www.happyoyster.cn/
最容易忽略的還有英偉達(dá) Lyra 2.0,沒有發(fā)布會(huì)和新聞稿,旗下的空間智能實(shí)驗(yàn)室直接甩出一篇論文,「可探索的生成式 3D 世界。」
![]()
▲英偉達(dá)研究博客:https://research.nvidia.com/labs/sil/projects/lyra2/
這種密集程度讓人產(chǎn)生一種錯(cuò)覺,那些生圖生視頻模型是不是都弱爆了。現(xiàn)在的 AI 已經(jīng)從「生成一張圖、一段視頻」的平面階段,大步來到「構(gòu)建一個(gè)世界」的 3D 空間時(shí)代。
不僅技術(shù)端在狂飆,資本市場(chǎng)也給出了強(qiáng)烈的回應(yīng)。
今天,群核科技正式登陸港交所。這家空間智能公司一直致力于推動(dòng) AI 進(jìn)入物理世界。它的成功上市,標(biāo)志著「世界模型第一股」的正式誕生,也向外界釋放了一個(gè)明確信號(hào):世界模型,真的開始火了。
而在熱鬧之余,我們也發(fā)現(xiàn)雖然這些公司都叫世界模型,但是路線完全不同,只能生成視頻的像是一個(gè) Demo 產(chǎn)品;能生成 3D 資產(chǎn)的看似可以融入開發(fā)設(shè)計(jì)的工作流;還有在論文里的未來工作暢想,希望用于機(jī)器人的訓(xùn)練。
![]()
目前,騰訊混元 3D 世界模型 2.0 已經(jīng)開放了申請(qǐng)。我們第一時(shí)間進(jìn)去體驗(yàn)了一波,試圖從中找到一個(gè)答案:這些被認(rèn)為是 AI 下一階段的世界模型,到底能解決真實(shí)世界的哪些問題?
從看電影到開始游戲
此前我們聊世界模型,大多像在聊一個(gè)「更長(zhǎng)、更懂物理規(guī)律、一致性保持更強(qiáng)的視頻」。但這次體驗(yàn)混元 2.0,最直接的沖擊力在于,它生成的不再是 MP4,而是真正的 3D 資產(chǎn)文件。
在體驗(yàn)中,我用簡(jiǎn)單的提示詞輸入了「吉卜力風(fēng)格的山間小鎮(zhèn),黃昏」。在幾分鐘的計(jì)算后,出現(xiàn)在屏幕上的畫面像是一個(gè)大世界游戲。
![]()
點(diǎn)擊下載,混元 3D 提供了全景圖、Splats 的 .spz 文件和 .ply 文件,以及 Collider mesh 一共四種 3D 資產(chǎn)文件格式。
四種文件類型涵蓋了 Mesh(三角面片網(wǎng)格)、3DGS(3D 高斯?jié)姙R)、點(diǎn)云等多種格式的 3D 資產(chǎn)文件,這些文件可以直接導(dǎo)入 Unity、Unreal Engine,游戲開發(fā)者拿到手之后可以繼續(xù)編輯、調(diào)整、搭建關(guān)卡。
![]()
▲所生成的世界同樣可以保存為全景圖片,原圖約 20MB。
在世界生成任務(wù)上,除了常見的文生世界,混元 3D 同樣支持圖生世界。我們找了一張《拯救計(jì)劃》電影截圖,Rocky 最后在波江座人給他搭建的世界里漫步,讓混元來還原整個(gè)波江座。
![]()
▲由于電影截圖里就有顯示一個(gè)外殼包圍著 Rocky 居住的海邊,所以混元生成的世界也有一塊「黑影」
當(dāng)使用 Unsplash 上下載的高清雪山圖片時(shí),混元 3D 世界模型 2.0 生成的雪景,畫質(zhì)和真實(shí)感都更強(qiáng)。
![]()
![]()
▲全景圖和導(dǎo)演模式下的角色漫游
無論是上傳圖片還是文字提示詞,應(yīng)用內(nèi)都有相關(guān)的指引,例如上傳的圖片分辨率不能小于 512*512,避免畫面出現(xiàn)人物,不要有動(dòng)物/人物特寫,避免使用純色、純紋理圖片;以及天空、星空等畫面占比較大圖片也不適合等。
而文本提示詞,最好是場(chǎng)景類別(沙漠、海面、房間等)+ 場(chǎng)景特征(物體、天空等視覺描述)+ 風(fēng)格(可選,卡通/寫實(shí)/油畫風(fēng)格等)。
混元 3D 世界模型 2.0 的風(fēng)格化控制表現(xiàn)也很好,從官網(wǎng)已有的世界案例能看到,無論是溫馨的繪本風(fēng)還是寫實(shí)的游戲風(fēng),它對(duì)語義的解析非常精準(zhǔn);墻壁的紋理、地牢的陰影和光感都極具沉浸感。
![]()
除了能生成可用的 3D 資產(chǎn),混元 2.0 真正讓我感到「世界」屬性的,是它的角色模式。
現(xiàn)在我們可以直接操控一個(gè)角色在剛剛生成的場(chǎng)景里行走、加速、跳躍、轉(zhuǎn)彎、探索,整個(gè)過程就像是在玩一個(gè)大世界游戲。同時(shí),它自帶物理碰撞,角色不會(huì)穿墻而過,也不會(huì)掉出地圖邊緣。
![]()
這種即刻生成、即刻可玩的體驗(yàn),確實(shí)在模糊了 AI 生成與游戲引擎之間的邊界,隨著能生成世界的范圍不斷擴(kuò)大,角色的探索或許會(huì)更有意思。
實(shí)時(shí)生世界時(shí),我們能直接控制角色的行動(dòng),混元 3D 模型會(huì)自動(dòng)生成對(duì)應(yīng)的世界,單次生成的時(shí)長(zhǎng)是一分鐘。
![]()
對(duì)比之前的混元 3D 模型,這次的 2.0 版本在一句話/一張圖生世界任務(wù)上,不僅支持下載 3D 資產(chǎn)文件,推出了全新的角色模式,而且在畫面精細(xì)度和真實(shí)感方面,也從底層的模型架構(gòu)進(jìn)行了重新設(shè)計(jì)。
![]()
▲混元世界模型 2.0 多模態(tài)世界架構(gòu)|https://3d-models.hunyuan.tencent.com/world/
新的模型架構(gòu),打通了「理解、生成、重建」的閉環(huán)。
- HY-Pano-2.0: 不需要專業(yè)的相機(jī)參數(shù),普通圖片就能映射出 360° 全景。
- 空間 Agent 技術(shù): 像給 AI 裝上了導(dǎo)航,它能智能規(guī)劃漫游軌跡,確保護(hù)理和視覺上的銜接不會(huì)穿幫。
- HY-WorldMirror 2.0: 保證了即使是在大幅度的視角變換下,物體側(cè)面和背面的完整度依然在線。
在世界重建任務(wù)上,混元世界模型 2.0 輸入多張圖或視頻流,就能做到重建真實(shí)場(chǎng)景。
![]()
在過去,我們想要構(gòu)建/重建一個(gè)可互動(dòng)的 3D 世界,需要成體系的團(tuán)隊(duì)和數(shù)月的打磨;而現(xiàn)在,通過混元 2.0 這樣的工具,只需要一個(gè)創(chuàng)意。
并且,這個(gè)創(chuàng)意,無論是以文字、圖片還是視頻的形式呈現(xiàn),它都可以生成一個(gè)拖進(jìn) Unity 的原型,哪怕質(zhì)量還需要調(diào)整,哪怕很多細(xì)節(jié)還要人工修改,但整個(gè)設(shè)計(jì)的工作流,AI 也開始在發(fā)力了。
瘋狂的世界模型周,瘋狂的 AI
當(dāng)我們?cè)侔岩暰€從混元 3D 世界模型 2.0 的資產(chǎn)生成、角色模式、世界重建,拉回本周連發(fā)的其他幾個(gè)世界模型,我們會(huì)發(fā)現(xiàn),這些不同在不同維度突圍的世界模型,正共同拼湊出世界模型更明確的樣子。
阿里 HappyOyster 目前還在主打漫游和導(dǎo)演模式,讓我們用自然語言隨時(shí)介入世界演化,改寫劇情走向和角色動(dòng)作。
英偉達(dá) Lyra 2.0 用一張圖就能生成長(zhǎng)達(dá) 90 米的連貫 3D 環(huán)境,它生成的場(chǎng)景甚至能直接丟進(jìn) Isaac Sim 給機(jī)器人做物理訓(xùn)練。
李飛飛 Spark 2.0 打通「交付最后一公里」,前面那些模型都在解決怎么造世界,而 Spark 2.0 已經(jīng)開始解決怎么給人看。它通過獨(dú)創(chuàng)的流式加載和虛擬內(nèi)存技術(shù),把上億個(gè) 3DGS 粒子的超大世界,硬生生塞進(jìn)了普通手機(jī)的網(wǎng)頁瀏覽器里。
![]()
▲World Lab 生成界面,提示詞:吉卜力風(fēng)格的山間小鎮(zhèn),黃昏
看著這些各顯神通的世界模型界面,一個(gè)現(xiàn)實(shí)的結(jié)論是:很明顯,世界模型還沒迎來它的 ChatGPT 時(shí)刻。
四家公司這一周的密集發(fā)布更像是在為這個(gè)時(shí)刻做準(zhǔn)備,畫面質(zhì)量、交互能力、資產(chǎn)格式、交付方式、仿真精度,每個(gè)都在朝著自己的方向優(yōu)化。但把這些塊拼成一個(gè)「讓普通人愿意每天打開」的產(chǎn)品,還沒有模型做到。
在過去兩年里,隨著 AI Coding 重塑代碼開發(fā)、Nano Banana 等模型顛覆平面設(shè)計(jì),前端工程師和平面設(shè)計(jì)師們已經(jīng)經(jīng)歷了「xxx is DEAD」。現(xiàn)在,這朵雪花大概是要飄到 3D 設(shè)計(jì)的護(hù)城河上。
隨著更多模型廠商的下場(chǎng),3D 設(shè)計(jì)的工作流也會(huì)慢慢從 AI 輔助走向 AI 主導(dǎo)。到那時(shí),生成并體驗(yàn)一個(gè) 3D 互動(dòng)世界,將會(huì)像今天我們?cè)谑謾C(jī)上刷短視頻一樣流暢、低成本且理所當(dāng)然。
畢竟,在所有的科幻敘事里,沒有任何人會(huì)抗拒自己成為「造物主」,去自定義一個(gè)新世界。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.