網易首頁 > 網易號 > 正文申請入駐

一分鐘的奇跡與幻覺：實測世界模型Happy Oyster

2026-04-25 08:35:31　來源: 雷峰網

北京舉報

分享至

“具備初步的世界狀態跟蹤能力，但不適合強約束、高可預測性的系統任務。”

作者丨馮逸飛

編輯丨馮逸飛梁丙鑒

4 月 16 日，阿里發布了主打實時構建和交互的開放式世界模型產品 Happy Oyster。基于原生多模態架構，Happy Oyster 支持多模態輸入與音視頻聯合生成，且生成過程中能夠持續接收用戶指令，實現畫面實時響應、持續演繹。

如果說 AGI 是終極愿景，具身智能是物質載體，那么世界模型就是這一切的認知基礎。它在技術脈絡中占據了一個極其特殊的位置，那就是從大模型的“預測下一個詞“，向”預測下一個物理狀態“的演進節點。

這也讓世界模型成為了一條炙手可熱的賽道。16 日當天，騰訊開源了 HY-World 2.0，次日群核科技在港交所上市，成為“全球空間智能第一股“。視角拉得更遠，谷歌、英偉達、Meta，以及李飛飛坐鎮的 World Labs 都早就對這一賽道有所布局。

競爭逐漸升溫之際，我們不禁要問，在最宏偉的愿景實現之前，有哪些先期落地場景可以為日后的爭奪輸血？

在諸多可能的應用方向中，游戲開發是一個被各大廠商頻頻提及的選擇。原因不難理解。視頻模型證明了 AI 已經很擅于交付畫面，交互式的世界模型又向前邁了一步，嘗試給用戶一個可以進入、修改，并支持對用戶的交互做出反應的場景。

當模型生成的不僅是鏡頭，而是某種可以被操縱的世界狀態，它就觸及了一度屬于游戲引擎的工作，Happy Oyster 顯然也在此列。

今天的世界模型，足以在游戲工業中落地了嗎？它會如何改造游戲開發的流程，或是被游戲工業的需求反向影響？從構建場景的基礎功能開始，我們模擬游戲開發的真實需求，測試了一下 Happy Oyster 的表現。

實測一：

構建場景，渲染光線，接替引擎的世界模型

Happy Oyster 一個很明顯的特點是，它的交互體驗已經不是我們熟悉的“用戶說一句，模型生成一段”，而更像是允許用戶在一個松散、概率化的實時系統里不斷推著它往前走。

在官方給出的示例中，我試著做了幾次很直白的修改，比如直接下達“增加角色數量”、“添加說話行為”等指令。有意思的是，新增角色并不會憑空出現在畫面中，而是看起來更合理地從畫面邊緣進入，這說明 Happy Oyster 不是把整個場景推倒重來，而是在已有基礎上進行增補。

類似的例子是，畫面風格的變化會連帶影響畫面中物品呈現的材質和環境光，角色發出的聲音和其原本的動作之間，也有著初步的同步感。在體驗上，這更像是在維護一個比較脆弱，但確實已經存在的“當前狀態”。

為了驗證這個想法，我又要求在畫面中加入賽博朋克元素。Happy Oyster 并沒有用一層濾鏡敷衍了事，霓虹燈這一賽博朋克經典元素出現之后，畫面的色調被重新校準了，很多不同的物品也表現出更多的反射感，這些細節的同步變化重塑了場景的氣氛。

Happy Oyster 只有真正理解了“賽博朋克”是什么，才能根據短短一句指令，就在原本的輸出結果上修改出盡可能貼近《賽博朋克 2077》質感的畫面。傳統的游戲引擎是通過有限的資源組合加位置擺放完成場景構建，而 Happy Oyster 顯然已經到了隱式的語義生成階段。

對開發者而言，變化就發生在那些原本靠“搭”和“調”手工完成的環節，正在慢慢被“描述”取代。尤其是在燈光、氛圍、視覺預研這些更前置的工作里，Happy Oyster 已經表現出了生產級的能力。你可以用它很敏捷地嘗試創作方向和畫面風格，而每一次試錯中，來回調參數的成本都會被壓到最小。

不只是前期視覺工具，從賽博朋克這個測試案例，可以看出 Happy Oyster 對于繞開現有的渲染流程，也有著不可小覷的價值。

傳統游戲引擎的渲染方案是追求在有限算力下，把光照計算得盡可能逼真。這方面的技術包括：

? BRDF / BSDF 材質建模

? 光源采樣（Direct / Indirect）

? 陰影（Shadow Map / Ray Tracing）

? 全局光照（Lightmap / SSGI / Lumen）

? 各種屏幕空間近似（SSR、SSAO 等）

雖然實現方法各不相同，但本質上都在試圖用更可解釋、可復現的計算，把畫面的光影推向“視覺上正確”。但世界模型的解決方案完全不同，它不是在把這條計算鏈路算得更快，而是直接去猜一個合理的結果。

事實上，渲染管線本身在過去幾年里也發生著類似的變化。以 DLSS 3.5、Ray Reconstruction，以及最近被反復提到的 DLSS 5 為例，它們會生成中間幀、替代部分去噪過程，還會在最終圖像層補全光照和細節。Ray Reconstruction 是用一個訓練過的模型，補全有限采樣下的光照信息。而一些對 DLSS 5 的介紹，也開始提到它在材質和光照觀感層面對渲染畫面的進一步重建。

這種變化真正有意思的地方在于，最終畫面早就不是引擎算出來什么，就顯示什么。而以 Happy Oyster 為代表的世界模型，正在更深入地介入這個最后環節。

如果說傳統渲染是在解方程，神經渲染是在弱約束條件下做推斷，那么世界模型則更進一步，在弱約束條件下直接生成，一句“賽博朋克風格”的指令就是例子。

三種方案都試圖在有限條件下，給出一個“看上去沒問題”的畫面，根本差別在于約束的強弱。神經渲染仍然站在引擎的肩膀上，使用幾何、深度、運動向量這些信息，在一個邊界清晰的空間里幫開發者優化結果，而世界模型則拿出了最激進的方案。它要用最少的約束、最少的信息，直接補全到空間、光照、物體齊備、匹配的程度，生成這件事由此從像素層，躍升到了世界層。

不可否認，這條路相當迷人，但代價也很明顯。

傳統渲染的優點在于可解釋、可復現，一道光為什么如此照下來，你大體知道結果是怎么計算的，出了問題，很多時候可以順著管線倒查。可一旦輸出換成模型推斷的結果，情況就會開始不同。

最直接的影響就是，當輸出帶有概率性，你就很難進行精確約束，同一個問題不一定穩定復現，debug 成本也會顯著上升。在可控性問題真正解決之前，所謂的生成式渲染更接近于一種強大的視覺表達工具。

更現實的可能是，未來的游戲開發中傳統引擎會繼續負責空間結構、物理規則、游戲邏輯和同步狀態，模型逐步接管高頻視覺細節、材質表現、局部補全和觀感優化，Happy Oyster 這類世界模型則會加速這一協同模式的成熟。

世界需要先被定義，但越來越大比例的畫面會被模型“猜”出來。這個比例增長的速度，可能比我們想象中快得多。

實測二：“連續幻覺”，還是完整世界？

在前面的試水之后，我又開始嘗試讓 Happy Oyster 接管更完整的游戲開發，比如做一段玩家第一視角的游戲demo。

我給了 Happy Oyster 一張《天國：拯救 2》的截圖，讓模型據此生成一個完整的中世紀城鎮，同時用比較精確的提示詞控制了畫面氛圍和視角。測試所用截圖和提示詞如下，提示詞由 GPT-5.4 輔助生成：

大致的意思是，陰沉的天空下，一座中世紀波西米亞的防御小鎮靜靜佇立，煙囪里飄著縷縷青煙。潮濕泥濘的道路蜿蜒而上，通往高聳城墻內一座狹窄的石門。城墻兩側聳立著瞭望塔、木屋和木制腳手架，整體色調沉穩而質樸，空氣寒冷潮濕，營造出真實的歷史氛圍。玩家將以第一人稱視角騎馬緩緩駛向城門，沉浸于濃郁的中世紀氛圍之中。

模型輸出的初始畫面如下：

第一眼看上去，效果其實很驚艷。初始畫面對原始截圖的還原度非常高，在我嘗試移動視角時，周圍的建筑物結構也沒有明顯不合理之處，就連畫面前方的 NPC 也有著相對可信的表現，很有代入感。

但在我讓人物轉了一圈之后，回到原點時，初始畫面里的城門沒有了。

一致性長期作為世界模型的關鍵瓶頸存在，無論從技術攻關還是落地應用的角度而言都是如此。Happy Oyster 內置導演模式和漫游模式兩個版本，前者最長持續時長 3 分鐘，官方介紹稱該模式支持光照、重力、角色動作、場景因果關系保持連續一致，且允許用戶實時干預，后者可以做到物體位置穩定、環境持續存在、視角與光照連續響應，最長持續時間則限制為 1 分鐘，且只支持角色位置移動和鏡頭視角調整的交互。

論絕對一致性時長，騰訊 HY-World 2.0 理論上甚至沒有上限。但是其并非生成視頻，而是直接生成 3D 資產，一致性由傳統 3D 渲染引擎保障。技術路線更一致的比較對象是谷歌此前發布的 Genie 3，官方技術文檔介紹其已經可以達到數分鐘級的視覺一致性和約 1 分鐘的視覺記憶窗口。也就是當用戶在 Genie 3 生成的世界中離開某個區域后，如果要求返回時，之前觀察到的物體布局、涂鴉、建筑結構等視覺特征仍能保持穩定，那么這個時間窗口是 1 分鐘之內。因此 Happy Oyster 漫游模式的 1 分鐘成績，在像素級實時渲染世界模型這一細分賽道，已經屬于第一梯隊水平。

但落在生產場景，狀態難以持久導致的場景細節逐漸破碎、同一個對象反復變形，讓今天的頭部水平未必足以承擔起系統級的交互任務。至少在現階段，世界模型更接近一種帶有時間連續性的可交互視頻系統，而非成熟的新一代游戲引擎。

也正因此，世界模型最先帶來的改變不會發生在游戲形態本身，而是從改造開發流程開始。

一個比較現實的演進順序是，世界模型首先會被用于快速生成世界設定，用來替代一部分概念原型工作，然后會作為低成本的試錯工具，供給給鏡頭、環境氛圍、游戲節奏這類原本需要通過引擎反復微調的內容生產。再往后，才會是內容輔助生成。

Photoshop 沒取代相機，Houdini （一款三維計算機圖形軟件，在影視特效和游戲開發等行業被廣泛使用）也沒取代引擎，但它們都實實在在地改變了很多人的工作流。或許對于傳統游戲引擎來說，世界模型也是一樣。

世界模型初體驗之最終感想

游戲從來不是連續的畫面那么簡單。開發者們真正的心血，很多時候花在關卡節奏、數值反饋、機制組合、玩家路徑控制這些結構設計上。這些任務兼具強約束和高可預測性的特征，而這正是今天的世界模型最薄弱的地方。

此外，一個能真正商業化、長期留住玩家的游戲，往往意味著數十小時的內容、穩定的系統循環，甚至是多人同步的大型世界。至少今天的世界模型，還遠遠沒有走到這一步，這也是為什么它們更像是一次性體驗的生成器，而沒有展現出更成熟的產品形態。

但對邁向游戲行業的世界模型而言，真正重要的問題從來不是能不能干掉傳統引擎，而是如何塑造一種全新的游戲體驗。

過去更常見的路徑是玩家下載游戲，進入預先設計好的世界，按照開發者設定的規則行事。而世界模型帶來的另一種可能是，玩家可以依據興趣自由描述，然后直接進入系統即時生成的世界中。

當這個入口成立，世界模型對游戲行業的顛覆就不再局限于開發管線，而會是整個內容生產范式的轉變。如果“世界生成”的變成一種廉價的能力，“玩家為什么愿意留下”就會成為更昂貴的洞察，游戲工業將重新向著游戲體驗設計的本質回溯。

今天的 Happy Oyster 只能維持一分鐘的視覺記憶，卻是短暫但寶貴的第一分鐘。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.