![]()
![]()
“具備初步的世界狀態跟蹤能力,但不適合強約束、高可預測性的系統任務。”
作者丨馮逸飛
編輯丨馮逸飛 梁丙鑒
4 月 16 日,阿里發布了主打實時構建和交互的開放式世界模型產品 Happy Oyster。基于原生多模態架構,Happy Oyster 支持多模態輸入與音視頻聯合生成,且生成過程中能夠持續接收用戶指令,實現畫面實時響應、持續演繹。
如果說 AGI 是終極愿景,具身智能是物質載體,那么世界模型就是這一切的認知基礎。它在技術脈絡中占據了一個極其特殊的位置,那就是從大模型的“預測下一個詞“,向”預測下一個物理狀態“的演進節點。
這也讓世界模型成為了一條炙手可熱的賽道。16 日當天,騰訊開源了 HY-World 2.0,次日群核科技在港交所上市,成為“全球空間智能第一股“。視角拉得更遠,谷歌、英偉達、Meta,以及李飛飛坐鎮的 World Labs 都早就對這一賽道有所布局。
競爭逐漸升溫之際,我們不禁要問,在最宏偉的愿景實現之前,有哪些先期落地場景可以為日后的爭奪輸血?
在諸多可能的應用方向中,游戲開發是一個被各大廠商頻頻提及的選擇。原因不難理解。視頻模型證明了 AI 已經很擅于交付畫面,交互式的世界模型又向前邁了一步,嘗試給用戶一個可以進入、修改,并支持對用戶的交互做出反應的場景。
當模型生成的不僅是鏡頭,而是某種可以被操縱的世界狀態,它就觸及了一度屬于游戲引擎的工作,Happy Oyster 顯然也在此列。
今天的世界模型,足以在游戲工業中落地了嗎?它會如何改造游戲開發的流程,或是被游戲工業的需求反向影響?從構建場景的基礎功能開始,我們模擬游戲開發的真實需求,測試了一下 Happy Oyster 的表現。
![]()
01
實測一:
構建場景,渲染光線,接替引擎的世界模型
Happy Oyster 一個很明顯的特點是,它的交互體驗已經不是我們熟悉的“用戶說一句,模型生成一段”,而更像是允許用戶在一個松散、概率化的實時系統里不斷推著它往前走。
在官方給出的示例中,我試著做了幾次很直白的修改,比如直接下達“增加角色數量”、“添加說話行為”等指令。有意思的是,新增角色并不會憑空出現在畫面中,而是看起來更合理地從畫面邊緣進入,這說明 Happy Oyster 不是把整個場景推倒重來,而是在已有基礎上進行增補。
類似的例子是,畫面風格的變化會連帶影響畫面中物品呈現的材質和環境光,角色發出的聲音和其原本的動作之間,也有著初步的同步感。在體驗上,這更像是在維護一個比較脆弱,但確實已經存在的“當前狀態”。
![]()
為了驗證這個想法,我又要求在畫面中加入賽博朋克元素。Happy Oyster 并沒有用一層濾鏡敷衍了事,霓虹燈這一賽博朋克經典元素出現之后,畫面的色調被重新校準了,很多不同的物品也表現出更多的反射感,這些細節的同步變化重塑了場景的氣氛。
![]()
Happy Oyster 只有真正理解了“賽博朋克”是什么,才能根據短短一句指令,就在原本的輸出結果上修改出盡可能貼近《賽博朋克 2077》質感的畫面。傳統的游戲引擎是通過有限的資源組合加位置擺放完成場景構建,而 Happy Oyster 顯然已經到了隱式的語義生成階段。
對開發者而言,變化就發生在那些原本靠“搭”和“調”手工完成的環節,正在慢慢被“描述”取代。尤其是在燈光、氛圍、視覺預研這些更前置的工作里,Happy Oyster 已經表現出了生產級的能力。你可以用它很敏捷地嘗試創作方向和畫面風格,而每一次試錯中,來回調參數的成本都會被壓到最小。
不只是前期視覺工具,從賽博朋克這個測試案例,可以看出 Happy Oyster 對于繞開現有的渲染流程,也有著不可小覷的價值。
傳統游戲引擎的渲染方案是追求在有限算力下,把光照計算得盡可能逼真。這方面的技術包括:
? BRDF / BSDF 材質建模
? 光源采樣(Direct / Indirect)
? 陰影(Shadow Map / Ray Tracing)
? 全局光照(Lightmap / SSGI / Lumen)
? 各種屏幕空間近似(SSR、SSAO 等)
雖然實現方法各不相同,但本質上都在試圖用更可解釋、可復現的計算,把畫面的光影推向“視覺上正確”。但世界模型的解決方案完全不同,它不是在把這條計算鏈路算得更快,而是直接去猜一個合理的結果。
事實上,渲染管線本身在過去幾年里也發生著類似的變化。以 DLSS 3.5、Ray Reconstruction,以及最近被反復提到的 DLSS 5 為例,它們會生成中間幀、替代部分去噪過程,還會在最終圖像層補全光照和細節。Ray Reconstruction 是用一個訓練過的模型,補全有限采樣下的光照信息。而一些對 DLSS 5 的介紹,也開始提到它在材質和光照觀感層面對渲染畫面的進一步重建。
這種變化真正有意思的地方在于,最終畫面早就不是引擎算出來什么,就顯示什么。而以 Happy Oyster 為代表的世界模型,正在更深入地介入這個最后環節。
如果說傳統渲染是在解方程,神經渲染是在弱約束條件下做推斷,那么世界模型則更進一步,在弱約束條件下直接生成,一句“賽博朋克風格”的指令就是例子。
三種方案都試圖在有限條件下,給出一個“看上去沒問題”的畫面,根本差別在于約束的強弱。神經渲染仍然站在引擎的肩膀上,使用幾何、深度、運動向量這些信息,在一個邊界清晰的空間里幫開發者優化結果,而世界模型則拿出了最激進的方案。它要用最少的約束、最少的信息,直接補全到空間、光照、物體齊備、匹配的程度,生成這件事由此從像素層,躍升到了世界層。
不可否認,這條路相當迷人,但代價也很明顯。
傳統渲染的優點在于可解釋、可復現,一道光為什么如此照下來,你大體知道結果是怎么計算的,出了問題,很多時候可以順著管線倒查。可一旦輸出換成模型推斷的結果,情況就會開始不同。
最直接的影響就是,當輸出帶有概率性,你就很難進行精確約束,同一個問題不一定穩定復現,debug 成本也會顯著上升。在可控性問題真正解決之前,所謂的生成式渲染更接近于一種強大的視覺表達工具。
更現實的可能是,未來的游戲開發中傳統引擎會繼續負責空間結構、物理規則、游戲邏輯和同步狀態,模型逐步接管高頻視覺細節、材質表現、局部補全和觀感優化,Happy Oyster 這類世界模型則會加速這一協同模式的成熟。
世界需要先被定義,但越來越大比例的畫面會被模型“猜”出來。這個比例增長的速度,可能比我們想象中快得多。
02
實測二:“連續幻覺”,還是完整世界?
在前面的試水之后,我又開始嘗試讓 Happy Oyster 接管更完整的游戲開發,比如做一段玩家第一視角的游戲demo。
我給了 Happy Oyster 一張《天國:拯救 2》的截圖,讓模型據此生成一個完整的中世紀城鎮,同時用比較精確的提示詞控制了畫面氛圍和視角。測試所用截圖和提示詞如下,提示詞由 GPT-5.4 輔助生成:
![]()
![]()
大致的意思是,陰沉的天空下,一座中世紀波西米亞的防御小鎮靜靜佇立,煙囪里飄著縷縷青煙。潮濕泥濘的道路蜿蜒而上,通往高聳城墻內一座狹窄的石門。城墻兩側聳立著瞭望塔、木屋和木制腳手架,整體色調沉穩而質樸,空氣寒冷潮濕,營造出真實的歷史氛圍。玩家將以第一人稱視角騎馬緩緩駛向城門,沉浸于濃郁的中世紀氛圍之中。
模型輸出的初始畫面如下:
![]()
第一眼看上去,效果其實很驚艷。初始畫面對原始截圖的還原度非常高,在我嘗試移動視角時,周圍的建筑物結構也沒有明顯不合理之處,就連畫面前方的 NPC 也有著相對可信的表現,很有代入感。
但在我讓人物轉了一圈之后,回到原點時,初始畫面里的城門沒有了。
一致性長期作為世界模型的關鍵瓶頸存在,無論從技術攻關還是落地應用的角度而言都是如此。Happy Oyster 內置導演模式和漫游模式兩個版本,前者最長持續時長 3 分鐘,官方介紹稱該模式支持光照、重力、角色動作、場景因果關系保持連續一致,且允許用戶實時干預,后者可以做到物體位置穩定、環境持續存在、視角與光照連續響應,最長持續時間則限制為 1 分鐘,且只支持角色位置移動和鏡頭視角調整的交互。
論絕對一致性時長,騰訊 HY-World 2.0 理論上甚至沒有上限。但是其并非生成視頻,而是直接生成 3D 資產,一致性由傳統 3D 渲染引擎保障。技術路線更一致的比較對象是谷歌此前發布的 Genie 3,官方技術文檔介紹其已經可以達到數分鐘級的視覺一致性和約 1 分鐘的視覺記憶窗口。也就是當用戶在 Genie 3 生成的世界中離開某個區域后,如果要求返回時,之前觀察到的物體布局、涂鴉、建筑結構等視覺特征仍能保持穩定,那么這個時間窗口是 1 分鐘之內。因此 Happy Oyster 漫游模式的 1 分鐘成績,在像素級實時渲染世界模型這一細分賽道,已經屬于第一梯隊水平。
但落在生產場景,狀態難以持久導致的場景細節逐漸破碎、同一個對象反復變形,讓今天的頭部水平未必足以承擔起系統級的交互任務。至少在現階段,世界模型更接近一種帶有時間連續性的可交互視頻系統,而非成熟的新一代游戲引擎。
也正因此,世界模型最先帶來的改變不會發生在游戲形態本身,而是從改造開發流程開始。
一個比較現實的演進順序是,世界模型首先會被用于快速生成世界設定,用來替代一部分概念原型工作,然后會作為低成本的試錯工具,供給給鏡頭、環境氛圍、游戲節奏這類原本需要通過引擎反復微調的內容生產。再往后,才會是內容輔助生成。
Photoshop 沒取代相機,Houdini (一款三維計算機圖形軟件,在影視特效和游戲開發等行業被廣泛使用)也沒取代引擎,但它們都實實在在地改變了很多人的工作流。或許對于傳統游戲引擎來說,世界模型也是一樣。
03
世界模型初體驗之最終感想
游戲從來不是連續的畫面那么簡單。開發者們真正的心血,很多時候花在關卡節奏、數值反饋、機制組合、玩家路徑控制這些結構設計上。這些任務兼具強約束和高可預測性的特征,而這正是今天的世界模型最薄弱的地方。
此外,一個能真正商業化、長期留住玩家的游戲,往往意味著數十小時的內容、穩定的系統循環,甚至是多人同步的大型世界。至少今天的世界模型,還遠遠沒有走到這一步,這也是為什么它們更像是一次性體驗的生成器,而沒有展現出更成熟的產品形態。
但對邁向游戲行業的世界模型而言,真正重要的問題從來不是能不能干掉傳統引擎,而是如何塑造一種全新的游戲體驗。
過去更常見的路徑是玩家下載游戲,進入預先設計好的世界,按照開發者設定的規則行事。而世界模型帶來的另一種可能是,玩家可以依據興趣自由描述,然后直接進入系統即時生成的世界中。
當這個入口成立,世界模型對游戲行業的顛覆就不再局限于開發管線,而會是整個內容生產范式的轉變。如果“世界生成”的變成一種廉價的能力,“玩家為什么愿意留下”就會成為更昂貴的洞察,游戲工業將重新向著游戲體驗設計的本質回溯。
今天的 Happy Oyster 只能維持一分鐘的視覺記憶,卻是短暫但寶貴的第一分鐘。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.