<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      謝賽寧也玩MC?開源全新世界模型生成多人一致的游戲視角

      0
      分享至



      機器之心編輯部


      電子游戲一直是 AI 領域發展的極大推動力之一。

      游戲本身就構建了一個相對完整的世界,并且具有相當易于理解的世界規則。不僅可以訓練人工智能對物理世界的理解,訓練智能體的交互,更是許多世界模型的構建基礎。

      研究與視覺相關的 AI 永遠繞不開的電子游戲兩座大山,其一是代表真實世界風格的《GTA》 ,另一個則是代表虛擬自由風格的《我的世界》。

      我們關注到,謝賽寧團隊最近在探索世界模型的全新研究方向,把實驗目標投向了《我的世界》。









      Solaris 模型樣本。每一行顯示一個生成的視頻:左右兩側是模型為每個玩家生成的第一人稱視圖,中間是模型的第三人稱真實視圖(未提供給模型)。

      視頻畫面中清楚地展示了兩個游戲角色的行為與第一視角的游玩錄像。但如果告訴你,這兩個第一視角畫面均為視頻世界模型生成的,你能找到破綻嗎?

      這就是謝賽寧團隊的最新視頻世界模型 Solaris,首個多人視頻世界模型,能夠同時生成多個玩家之間保持一致的第一視角。



      • 項目主頁: https://solaris-wm.github.io/
      • 引擎代碼: https://github.com/solaris-wm/solaris-engine
      • 模型代碼 :https://github.com/solaris-wm/solaris
      • 數據集鏈接:https://huggingface.co/collections/nyu-visionx/solaris-data
      • 模型鏈接:https://huggingface.co/collections/nyu-visionx/solaris-models

      研究團隊發現,目前的視頻世界模型僅能處理單人視角,這并不能反映現實世界的真實運作方式,希望能夠能夠實現多人同步觀察一個統一世界。于是,研究團隊把視角投向了電子游戲。

      Solaris 的核心貢獻之一是我們完全自主設計并構建的多人數據采集系統 SolarisEngine,因為現有平臺僅針對單人設定而設計。該引擎支持在《我的世界》等游戲中進行協調的多智能體交互和同步視覺捕捉。它是一個可擴展的框架,由 12.6M 幀協調的《我的世界》游戲游玩數據創建。

      模型與數據集

      SolarisEngine



      利用 SolarisEngine 采集的多人數據集任務示例。每一列展示了不同的任務類型(建筑、搭橋、PvP、PvE、追逐、探索、采礦和采集),每種任務包含三個回合。此處展示的第三人稱視角僅用于可視化;SolarisEngine 實際渲染的是第一人稱觀察視角和動作數據,這也是模型訓練所使用的輸入。

      目前已有多種用于控制 Minecraft 智能體的框架,包括 Malmo、MineRL、MineDojo 和 Mineflayer。盡管這些工具各具特色,但沒有一個是為多人數據采集而設計的。市面上沒有現成的系統可以用來采集真實的多人游戲數據,因此研究團隊選擇從零開始搭建一個。



      SolarisEngine 架構概覽。

      在數據采集上,研究團隊選擇以 Mineflayer 為基礎,因為它為尋路、方塊放置和戰斗等操作提供了可組合的基本方法。在此之上,我們構建了一個通信層,允許機器人在任務回合中相互協作。通過這些基礎方法的組合,可以形成完整的任務回合,讓兩個機器人共同完成預設目標。

      研究團隊構建了一個任務類型庫,涵蓋了 Minecraft 交互的核心方面:建造房屋和橋梁、PvP 與 PvE 戰斗、追逐與探索,以及采礦。盡管任務邏輯是用這些高級原語編寫的,但系統會將所有操作轉換為低級動作空間,從而兼容從人類玩家那里采集的單人數據集 VPT。

      在覆蓋游玩動作以外,要構建世界模型的數據集,必須實現提取視覺畫面并與動作的對齊。

      Mineflayer 雖然能控制角色,但無法渲染圖形。為了獲取視覺觀察數據,團隊將每個控制機器人與一個運行官方 Minecraft Java 版客戶端的攝像機機器人配對。通過自定義的服務端插件,我們實現了攝像機與控制器的實時同步,使其位置、朝向甚至動作動畫完全一致。在后期處理中,我們利用共享的 20 FPS 幀率時間戳,將動作與視覺觀察數據進行對齊。

      利用 SolarisEngine,團隊采集了一個多人 Minecraft 訓練數據集,總計包含 9,240 個任務回合,每名玩家貢獻 632 萬幀,總計 1,264 萬幀。

      這些任務回合大致分為四大類:建筑(房屋、墻壁、塔樓、橋梁)、戰斗(PvP 和 PvE)、移動(追逐、導航、探索)以及采礦。在采樣任務類型時,團隊采用了與典型任務長度成反比的權重,以保持整體分布平衡。所有動作均被標注為與 VPT 格式兼容的語義游戲事件,涵蓋了移動、視角控制以及挖掘、放置、攻擊等交互輸入。

      這是首個帶有動作標注、適用于訓練世界模型的多人 Minecraft 數據集。



      數據集統計。(左)數據集包含四個場景類別。(中)在總共 9,240 個場景和每個玩家 6.32M 幀的情況下,場景類型分布。(右)場景長度分布,大多數場景在 128 到 512 幀之間。

      視頻世界模型 Solaris

      Solaris 是一種可控的視頻擴散模型,它能夠在給定各玩家歷史觀察與動作的條件下,聯合預測多名玩家的未來觀察結果。結合了流匹配(Flow Matching)與擴散強迫(Diffusion Forcing)對其進行訓練,其中每個玩家及每個時間步都會采樣獨立的噪聲水平。這使得模型在學習對各玩家觀察流進行去噪的同時,保持玩家間的一致性。

      研究團隊基于 MatrixGame 2.0 構建了該模型,是一個在包括 Minecraft 在內的多種視頻游戲上預訓練過的單人視頻 DiT 模型。研究團隊沿用了其預訓練權重和凍結的 VAE,并進行了三項關鍵改進以支持多人模式。

      首先,擴展了動作空間以涵蓋來自 VPT 的全量 Minecraft 輸入,增加了動作條件模塊的輸入維度。

      其次,引入了多人自注意力層,將所有玩家的 Token 進行拼接并互相對照,使得信息可以在每個 DiT 模塊內部實現玩家間的交換。對每名玩家獨立應用 3D RoPE ,并添加了可學習的玩家 ID 嵌入,以便模型區分不同個體。

      第三,所有其他模塊(用于首幀條件的交叉注意力、前饋層、動作條件)均保持與 MatrixGame 2.0 一致,并對每名玩家獨立運行。盡管我們目前僅在兩名玩家的數據上進行訓練,但該架構可泛化至任意數量的玩家。



      改進型 DiT 模塊通過在序列維度上進行視覺交錯(visual interleaving)來實現多人建模。多人信息通過一個共享的自注意力(self-attention)模塊進行交換。其他模塊與 MatrixGame 2.0 保持一致,并對每名玩家獨立應用。

      評估指標與實驗結果

      研究團隊創建了 Solaris Eval 數據集,通過 7 個獨特的、不參與訓練的真值任務回合,來測試五種多人協作能力。

      首先是移動能力:該部分測試了模型同時在兩名玩家視角中渲染視覺一致的智能體位移(WASD)和相機旋轉(鼠標)的能力。其中一個機器人移動,另一個觀察;由 VLM(視覺語言模型)判斷移動玩家的位置在觀察者視角中是否發生了正確且一致的變化。



      第二是定位能力:測試模型是否能夠通過觀察記住另一名玩家的位置。一名智能體轉身(失去對另一名玩家的視野),停頓,然后轉回原位。由于轉身的智能體一直處于靜止玩家的持續觀察中,它應當知道對方所處的位置 ——VLM 會檢查該智能體在轉回時是否能看到另一名玩家。



      第三是一致性:測試協同可見區域在兩名玩家視角中是否渲染一致。兩名靠近的智能體同時轉向同一個隨機方向;VLM 會檢查兩名玩家看到的場景是否相同。



      第四是記憶能力:測試模型是否能夠跨越時間記住環境和其他智能體。兩名智能體同時背對彼此轉身,停頓,然后轉回原始朝向。VLM(視覺語言模型)會檢查兩名智能體在轉回后是否能重新看到對方。



      第五是建造能力:測試模型反映由智能體動作引起的環境變化的能力。一個機器人構建預定義的形狀(正方形、水平長條或垂直長條),另一個機器人在旁觀察。建造完成后,建筑機器人移動到觀察者身邊,使完整的結構同時出現在兩者的視野中。VLM(視覺語言模型)會評估觀察者是否看到了完整的結構。



      實驗結果

      研究團隊將本研究的架構實現與 Multiverse 的「幀拼接(frame concatenation)」方法進行了對比,后者是本工作之前唯一現存的多人世界模型。此外,我們還通過對比「無單人模型初始化」的變體,測試了單人階段預訓練的必要性。

      我們的方法在視覺效果和所有評估類別的定量指標上均表現更優。在基于運動軌跡的動作執行方面,所有架構變體均表現強勁,并在對應類別的 VLM 評估中獲得高分(見表)。但在涉及建筑、場景一致性和玩家視覺對齊等困難場景時,我們的方法展現出了卓越的性能,這體現在這些類別中更高的 VLM 評分上。盡管「幀拼接法」在我們的「移動(Movement)」評估中表現更好,但定性分析發現,該方法在面臨「無操作(no-op)」動作時會出現動作幻覺。



      跨任務的定量比較。本文的方法與 Multiverse 沿通道維度連接玩家觀察結果的方法進行比較。

      更多信息,請參閱原始論文。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      新疆首府為何設在烏魯木齊,而不是條件更好的庫爾勒、喀什或伊犁

      新疆首府為何設在烏魯木齊,而不是條件更好的庫爾勒、喀什或伊犁

      銘記歷史呀
      2026-03-09 14:18:43
      當韓國人知道韓國很小中國很大后,是完全顛覆他們認知的!

      當韓國人知道韓國很小中國很大后,是完全顛覆他們認知的!

      夜深愛雜談
      2026-02-25 21:23:43
      59歲宋祖英現身活動狀態驚艷!短發利落大氣,黑色套裝優雅端莊

      59歲宋祖英現身活動狀態驚艷!短發利落大氣,黑色套裝優雅端莊

      琴聲飛揚
      2026-02-12 11:51:25
      入伍三年回家要離婚,卻見妻子抱著兩歲娃喂飯,我爸從里屋走出來

      入伍三年回家要離婚,卻見妻子抱著兩歲娃喂飯,我爸從里屋走出來

      曉艾故事匯
      2026-03-09 14:06:57
      今年首次招生的三所新大學,背景特殊,閉眼報不會錯!

      今年首次招生的三所新大學,背景特殊,閉眼報不會錯!

      狐貍先森講升學規劃
      2026-03-09 05:10:03
      不顧央視警告頂風作案,和劉濤傳出緋聞的楊爍,終究付出“代價”

      不顧央視警告頂風作案,和劉濤傳出緋聞的楊爍,終究付出“代價”

      小梊搞笑解說
      2026-03-10 04:07:28
      拒唱國歌后出逃!伊朗五女足總動員奔赴澳洲,用腳反抗強權

      拒唱國歌后出逃!伊朗五女足總動員奔赴澳洲,用腳反抗強權

      老馬拉車莫少裝
      2026-03-10 00:00:33
      人不會無緣無故患癌癥!研究發現:得癌癥的人,離不開這6點

      人不會無緣無故患癌癥!研究發現:得癌癥的人,離不開這6點

      醫學原創故事會
      2026-03-07 21:55:05
      才播2集,收視率全國登頂,央八這部年代劇,鎖定2026年度黑馬

      才播2集,收視率全國登頂,央八這部年代劇,鎖定2026年度黑馬

      陳意小可愛
      2026-03-10 00:03:33
      廣東掙錢廣東花?22歲打工人算完生活賬,越想越心酸

      廣東掙錢廣東花?22歲打工人算完生活賬,越想越心酸

      小虎新車推薦員
      2026-03-09 18:57:03
      伊朗直接把以色列命根子炸了,美國現在害怕了,特朗普發言跑題

      伊朗直接把以色列命根子炸了,美國現在害怕了,特朗普發言跑題

      未來力量
      2026-03-10 02:50:05
      中日爭端升級,法國聲援高市,逼中方讓步,中法千億大單白簽?

      中日爭端升級,法國聲援高市,逼中方讓步,中法千億大單白簽?

      漫步獨行俠
      2026-03-09 08:33:24
      北京一90后姑娘,因“100多個塑料瓶種菜”火上人民日報,太牛了

      北京一90后姑娘,因“100多個塑料瓶種菜”火上人民日報,太牛了

      三農老歷
      2026-03-09 16:47:35
      黃春梅回應具俊曄動向,稱酸民的話不用聽,現在想起要關心箖玥了

      黃春梅回應具俊曄動向,稱酸民的話不用聽,現在想起要關心箖玥了

      報君知史
      2026-03-10 03:59:48
      來俊臣的酷刑有多狠?曾有女犯哀求:只要不上刑,殺全族都行

      來俊臣的酷刑有多狠?曾有女犯哀求:只要不上刑,殺全族都行

      銘記歷史呀
      2026-03-09 15:28:19
      36歲張含韻近況曝光!春節一周胖6斤,如今和“五竹叔”戀情穩定

      36歲張含韻近況曝光!春節一周胖6斤,如今和“五竹叔”戀情穩定

      代軍哥哥談娛樂
      2026-03-09 14:17:39
      經典十句話,適合任何人

      經典十句話,適合任何人

      大禹小城
      2026-03-04 07:54:19
      索博身價漲至1億歐元,世界足壇目前有20位“億元先生”

      索博身價漲至1億歐元,世界足壇目前有20位“億元先生”

      懂球帝
      2026-03-09 21:19:07
      美國不擔心稀土卡脖子了?一個華裔科學家,幫他們搞了無稀土磁鐵

      美國不擔心稀土卡脖子了?一個華裔科學家,幫他們搞了無稀土磁鐵

      玲兒愛唱歌
      2026-03-09 21:12:26
      穆杰塔巴發動上任首次襲擊,伊朗強硬派崛起,內賈德或重返總統府

      穆杰塔巴發動上任首次襲擊,伊朗強硬派崛起,內賈德或重返總統府

      浪子阿邴聊體育
      2026-03-10 02:59:56
      2026-03-10 05:28:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12451文章數 142579關注度
      往期回顧 全部

      科技要聞

      OpenClaw更新,"養蝦"再也不會犯健忘癥了

      頭條要聞

      媒體:美軍用極殘酷方式擊沉伊朗軍艦 令世界不寒而栗

      頭條要聞

      媒體:美軍用極殘酷方式擊沉伊朗軍艦 令世界不寒而栗

      體育要聞

      36連勝終結!大魔王也是可以戰勝的

      娛樂要聞

      薛之謙老婆懷二胎,現身產檢心情愉快

      財經要聞

      油價破100美元年內漲80% 全球市場劇震

      汽車要聞

      對標奔馳小號G級 路虎小型衛士最新消息曝光

      態度原創

      時尚
      教育
      親子
      公開課
      軍事航空

      今年最流行的5條半裙,怎么搭都好看!

      教育要聞

      “吃不完不許睡覺”,母親強迫女兒吃零食,200塊留下終身陰影

      親子要聞

      框框。。。

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊媒發布小學被炸瞬間 戰斧導彈從天而降

      無障礙瀏覽 進入關懷版