<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      謝賽寧也玩MC?開源全新世界模型生成多人一致的游戲視角

      0
      分享至



      機器之心編輯部


      電子游戲一直是 AI 領域發(fā)展的極大推動力之一。

      游戲本身就構建了一個相對完整的世界,并且具有相當易于理解的世界規(guī)則。不僅可以訓練人工智能對物理世界的理解,訓練智能體的交互,更是許多世界模型的構建基礎。

      研究與視覺相關的 AI 永遠繞不開的電子游戲兩座大山,其一是代表真實世界風格的《GTA》 ,另一個則是代表虛擬自由風格的《我的世界》。

      我們關注到,謝賽寧團隊最近在探索世界模型的全新研究方向,把實驗目標投向了《我的世界》。









      Solaris 模型樣本。每一行顯示一個生成的視頻:左右兩側是模型為每個玩家生成的第一人稱視圖,中間是模型的第三人稱真實視圖(未提供給模型)。

      視頻畫面中清楚地展示了兩個游戲角色的行為與第一視角的游玩錄像。但如果告訴你,這兩個第一視角畫面均為視頻世界模型生成的,你能找到破綻嗎?

      這就是謝賽寧團隊的最新視頻世界模型 Solaris,首個多人視頻世界模型,能夠同時生成多個玩家之間保持一致的第一視角。



      • 項目主頁: https://solaris-wm.github.io/
      • 引擎代碼: https://github.com/solaris-wm/solaris-engine
      • 模型代碼 :https://github.com/solaris-wm/solaris
      • 數(shù)據(jù)集鏈接:https://huggingface.co/collections/nyu-visionx/solaris-data
      • 模型鏈接:https://huggingface.co/collections/nyu-visionx/solaris-models

      研究團隊發(fā)現(xiàn),目前的視頻世界模型僅能處理單人視角,這并不能反映現(xiàn)實世界的真實運作方式,希望能夠能夠實現(xiàn)多人同步觀察一個統(tǒng)一世界。于是,研究團隊把視角投向了電子游戲。

      Solaris 的核心貢獻之一是我們完全自主設計并構建的多人數(shù)據(jù)采集系統(tǒng) SolarisEngine,因為現(xiàn)有平臺僅針對單人設定而設計。該引擎支持在《我的世界》等游戲中進行協(xié)調的多智能體交互和同步視覺捕捉。它是一個可擴展的框架,由 12.6M 幀協(xié)調的《我的世界》游戲游玩數(shù)據(jù)創(chuàng)建。

      模型與數(shù)據(jù)集

      SolarisEngine



      利用 SolarisEngine 采集的多人數(shù)據(jù)集任務示例。每一列展示了不同的任務類型(建筑、搭橋、PvP、PvE、追逐、探索、采礦和采集),每種任務包含三個回合。此處展示的第三人稱視角僅用于可視化;SolarisEngine 實際渲染的是第一人稱觀察視角和動作數(shù)據(jù),這也是模型訓練所使用的輸入。

      目前已有多種用于控制 Minecraft 智能體的框架,包括 Malmo、MineRL、MineDojo 和 Mineflayer。盡管這些工具各具特色,但沒有一個是為多人數(shù)據(jù)采集而設計的。市面上沒有現(xiàn)成的系統(tǒng)可以用來采集真實的多人游戲數(shù)據(jù),因此研究團隊選擇從零開始搭建一個。



      SolarisEngine 架構概覽。

      在數(shù)據(jù)采集上,研究團隊選擇以 Mineflayer 為基礎,因為它為尋路、方塊放置和戰(zhàn)斗等操作提供了可組合的基本方法。在此之上,我們構建了一個通信層,允許機器人在任務回合中相互協(xié)作。通過這些基礎方法的組合,可以形成完整的任務回合,讓兩個機器人共同完成預設目標。

      研究團隊構建了一個任務類型庫,涵蓋了 Minecraft 交互的核心方面:建造房屋和橋梁、PvP 與 PvE 戰(zhàn)斗、追逐與探索,以及采礦。盡管任務邏輯是用這些高級原語編寫的,但系統(tǒng)會將所有操作轉換為低級動作空間,從而兼容從人類玩家那里采集的單人數(shù)據(jù)集 VPT。

      在覆蓋游玩動作以外,要構建世界模型的數(shù)據(jù)集,必須實現(xiàn)提取視覺畫面并與動作的對齊。

      Mineflayer 雖然能控制角色,但無法渲染圖形。為了獲取視覺觀察數(shù)據(jù),團隊將每個控制機器人與一個運行官方 Minecraft Java 版客戶端的攝像機機器人配對。通過自定義的服務端插件,我們實現(xiàn)了攝像機與控制器的實時同步,使其位置、朝向甚至動作動畫完全一致。在后期處理中,我們利用共享的 20 FPS 幀率時間戳,將動作與視覺觀察數(shù)據(jù)進行對齊。

      利用 SolarisEngine,團隊采集了一個多人 Minecraft 訓練數(shù)據(jù)集,總計包含 9,240 個任務回合,每名玩家貢獻 632 萬幀,總計 1,264 萬幀。

      這些任務回合大致分為四大類:建筑(房屋、墻壁、塔樓、橋梁)、戰(zhàn)斗(PvP 和 PvE)、移動(追逐、導航、探索)以及采礦。在采樣任務類型時,團隊采用了與典型任務長度成反比的權重,以保持整體分布平衡。所有動作均被標注為與 VPT 格式兼容的語義游戲事件,涵蓋了移動、視角控制以及挖掘、放置、攻擊等交互輸入。

      這是首個帶有動作標注、適用于訓練世界模型的多人 Minecraft 數(shù)據(jù)集。



      數(shù)據(jù)集統(tǒng)計。(左)數(shù)據(jù)集包含四個場景類別。(中)在總共 9,240 個場景和每個玩家 6.32M 幀的情況下,場景類型分布。(右)場景長度分布,大多數(shù)場景在 128 到 512 幀之間。

      視頻世界模型 Solaris

      Solaris 是一種可控的視頻擴散模型,它能夠在給定各玩家歷史觀察與動作的條件下,聯(lián)合預測多名玩家的未來觀察結果。結合了流匹配(Flow Matching)與擴散強迫(Diffusion Forcing)對其進行訓練,其中每個玩家及每個時間步都會采樣獨立的噪聲水平。這使得模型在學習對各玩家觀察流進行去噪的同時,保持玩家間的一致性。

      研究團隊基于 MatrixGame 2.0 構建了該模型,是一個在包括 Minecraft 在內的多種視頻游戲上預訓練過的單人視頻 DiT 模型。研究團隊沿用了其預訓練權重和凍結的 VAE,并進行了三項關鍵改進以支持多人模式。

      首先,擴展了動作空間以涵蓋來自 VPT 的全量 Minecraft 輸入,增加了動作條件模塊的輸入維度。

      其次,引入了多人自注意力層,將所有玩家的 Token 進行拼接并互相對照,使得信息可以在每個 DiT 模塊內部實現(xiàn)玩家間的交換。對每名玩家獨立應用 3D RoPE ,并添加了可學習的玩家 ID 嵌入,以便模型區(qū)分不同個體。

      第三,所有其他模塊(用于首幀條件的交叉注意力、前饋層、動作條件)均保持與 MatrixGame 2.0 一致,并對每名玩家獨立運行。盡管我們目前僅在兩名玩家的數(shù)據(jù)上進行訓練,但該架構可泛化至任意數(shù)量的玩家。



      改進型 DiT 模塊通過在序列維度上進行視覺交錯(visual interleaving)來實現(xiàn)多人建模。多人信息通過一個共享的自注意力(self-attention)模塊進行交換。其他模塊與 MatrixGame 2.0 保持一致,并對每名玩家獨立應用。

      評估指標與實驗結果

      研究團隊創(chuàng)建了 Solaris Eval 數(shù)據(jù)集,通過 7 個獨特的、不參與訓練的真值任務回合,來測試五種多人協(xié)作能力。

      首先是移動能力:該部分測試了模型同時在兩名玩家視角中渲染視覺一致的智能體位移(WASD)和相機旋轉(鼠標)的能力。其中一個機器人移動,另一個觀察;由 VLM(視覺語言模型)判斷移動玩家的位置在觀察者視角中是否發(fā)生了正確且一致的變化。



      第二是定位能力:測試模型是否能夠通過觀察記住另一名玩家的位置。一名智能體轉身(失去對另一名玩家的視野),停頓,然后轉回原位。由于轉身的智能體一直處于靜止玩家的持續(xù)觀察中,它應當知道對方所處的位置 ——VLM 會檢查該智能體在轉回時是否能看到另一名玩家。



      第三是一致性:測試協(xié)同可見區(qū)域在兩名玩家視角中是否渲染一致。兩名靠近的智能體同時轉向同一個隨機方向;VLM 會檢查兩名玩家看到的場景是否相同。



      第四是記憶能力:測試模型是否能夠跨越時間記住環(huán)境和其他智能體。兩名智能體同時背對彼此轉身,停頓,然后轉回原始朝向。VLM(視覺語言模型)會檢查兩名智能體在轉回后是否能重新看到對方。



      第五是建造能力:測試模型反映由智能體動作引起的環(huán)境變化的能力。一個機器人構建預定義的形狀(正方形、水平長條或垂直長條),另一個機器人在旁觀察。建造完成后,建筑機器人移動到觀察者身邊,使完整的結構同時出現(xiàn)在兩者的視野中。VLM(視覺語言模型)會評估觀察者是否看到了完整的結構。



      實驗結果

      研究團隊將本研究的架構實現(xiàn)與 Multiverse 的「幀拼接(frame concatenation)」方法進行了對比,后者是本工作之前唯一現(xiàn)存的多人世界模型。此外,我們還通過對比「無單人模型初始化」的變體,測試了單人階段預訓練的必要性。

      我們的方法在視覺效果和所有評估類別的定量指標上均表現(xiàn)更優(yōu)。在基于運動軌跡的動作執(zhí)行方面,所有架構變體均表現(xiàn)強勁,并在對應類別的 VLM 評估中獲得高分(見表)。但在涉及建筑、場景一致性和玩家視覺對齊等困難場景時,我們的方法展現(xiàn)出了卓越的性能,這體現(xiàn)在這些類別中更高的 VLM 評分上。盡管「幀拼接法」在我們的「移動(Movement)」評估中表現(xiàn)更好,但定性分析發(fā)現(xiàn),該方法在面臨「無操作(no-op)」動作時會出現(xiàn)動作幻覺。



      跨任務的定量比較。本文的方法與 Multiverse 沿通道維度連接玩家觀察結果的方法進行比較。

      更多信息,請參閱原始論文。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      新華社消息|外交部:已有1萬余名中國旅客自阿聯(lián)酋、阿曼、沙特等國安全有序返回

      新華社消息|外交部:已有1萬余名中國旅客自阿聯(lián)酋、阿曼、沙特等國安全有序返回

      新華社
      2026-03-10 16:37:42
      67歲湯鎮(zhèn)業(yè)近況曝光!再婚娶小25歲青島美女,如今一家8口很幸福

      67歲湯鎮(zhèn)業(yè)近況曝光!再婚娶小25歲青島美女,如今一家8口很幸福

      代軍哥哥談娛樂
      2026-03-10 09:09:50
      不可錯過!3月10日晚上19:40比賽!中央5套CCTV5、CCTV5+直播表

      不可錯過!3月10日晚上19:40比賽!中央5套CCTV5、CCTV5+直播表

      皮皮觀天下
      2026-03-10 12:34:48
      3月10日俄烏:最直接的受益者

      3月10日俄烏:最直接的受益者

      山河路口
      2026-03-10 18:29:13
      心臟好不好,看臉就知道!3種“求救紋”出現(xiàn),趕緊按這倆穴位!

      心臟好不好,看臉就知道!3種“求救紋”出現(xiàn),趕緊按這倆穴位!

      徐孟醫(yī)生說疼痛
      2026-03-08 19:00:07
      特朗普稱對伊朗戰(zhàn)事“已基本結束”

      特朗普稱對伊朗戰(zhàn)事“已基本結束”

      每日經(jīng)濟新聞
      2026-03-10 07:08:31
      偉大的2-1!德約2連勝到手,1戰(zhàn)創(chuàng)造2大紀錄,下輪PK衛(wèi)冕冠軍!

      偉大的2-1!德約2連勝到手,1戰(zhàn)創(chuàng)造2大紀錄,下輪PK衛(wèi)冕冠軍!

      劉姚堯的文字城堡
      2026-03-10 07:41:39
      重慶冠軍賽晚宴:石洵瑤艷壓群芳,王曼昱人緣好,莎莎獨自美好

      重慶冠軍賽晚宴:石洵瑤艷壓群芳,王曼昱人緣好,莎莎獨自美好

      余飩搞笑段子
      2026-03-10 11:20:47
      粟裕一度鎮(zhèn)不住許世友,四大野戰(zhàn)軍的幾位首長,有幾人能鎮(zhèn)住他?

      粟裕一度鎮(zhèn)不住許世友,四大野戰(zhàn)軍的幾位首長,有幾人能鎮(zhèn)住他?

      浩渺青史
      2026-03-10 18:31:00
      封神一戰(zhàn)!伊朗導彈把以色列命脈炸成火海,特朗普語無倫次露底牌

      封神一戰(zhàn)!伊朗導彈把以色列命脈炸成火海,特朗普語無倫次露底牌

      音樂時光的娛樂
      2026-03-10 12:25:27
      上海七旬老人與牌友聚餐后離世!5名同飲者遭索賠34萬元……法院判了

      上海七旬老人與牌友聚餐后離世!5名同飲者遭索賠34萬元……法院判了

      環(huán)球網(wǎng)資訊
      2026-03-09 20:09:28
      瞬間破防!33歲全職媽媽翻出高考成績單,哭訴曾經(jīng)學習的苦白吃了

      瞬間破防!33歲全職媽媽翻出高考成績單,哭訴曾經(jīng)學習的苦白吃了

      火山詩話
      2026-03-08 06:58:34
      川音“淫魔”校長:88名女音樂教師,霸占87人,細節(jié)曝光不堪入目

      川音“淫魔”校長:88名女音樂教師,霸占87人,細節(jié)曝光不堪入目

      就一點
      2026-03-08 10:54:42
      美媒公布美軍戰(zhàn)損,美國8年心血構建的防線,只撐了不到一個星期

      美媒公布美軍戰(zhàn)損,美國8年心血構建的防線,只撐了不到一個星期

      安珈使者啊
      2026-03-10 10:30:40
      炸鍋!東莞一中學取消周日晚修!家長:天塌了!

      炸鍋!東莞一中學取消周日晚修!家長:天塌了!

      東莞好生活
      2026-03-10 16:04:11
      Mac版QClaw開放下載:可用微信登錄,默認使用國產(chǎn)大模型

      Mac版QClaw開放下載:可用微信登錄,默認使用國產(chǎn)大模型

      識礁Farsight
      2026-03-10 10:27:14
      美民主黨人警告:除非魯比奧等人就對伊行動作證,否則動用一切程序性手段阻撓參議院正常運作

      美民主黨人警告:除非魯比奧等人就對伊行動作證,否則動用一切程序性手段阻撓參議院正常運作

      環(huán)球網(wǎng)資訊
      2026-03-10 11:46:00
      震驚!男友父母花近1000萬買新房,女子要加她的名字,然后退婚了

      震驚!男友父母花近1000萬買新房,女子要加她的名字,然后退婚了

      火山詩話
      2026-03-10 06:57:22
      恐怖!美軍的陰暗操作令世界不寒而栗

      恐怖!美軍的陰暗操作令世界不寒而栗

      補壹刀
      2026-03-09 15:41:03
      善惡到頭終有報?57歲央視女主持王小丫,已走上另一條大路

      善惡到頭終有報?57歲央視女主持王小丫,已走上另一條大路

      妙知
      2026-01-13 11:55:41
      2026-03-10 20:40:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12467文章數(shù) 142580關注度
      往期回顧 全部

      科技要聞

      全民"養(yǎng)蝦"背后:大廠集體下場瘋狂賣Token

      頭條要聞

      特朗普開始找接班人 當眾問捐款人怎么看萬斯和魯比奧

      頭條要聞

      特朗普開始找接班人 當眾問捐款人怎么看萬斯和魯比奧

      體育要聞

      加蘭沒那么差,但鱸魚會用嗎?

      娛樂要聞

      肖戰(zhàn)首奪SMG視帝,孫儷四封視后創(chuàng)歷史

      財經(jīng)要聞

      “龍蝦補貼”密集出爐 最高1000萬!

      汽車要聞

      MG4有SUV衍生 上汽乘用車多款新車規(guī)劃曝光

      態(tài)度原創(chuàng)

      親子
      房產(chǎn)
      旅游
      游戲
      本地

      親子要聞

      當萌娃被問:嬰兒為什么總是睡覺?她的回答太逗了

      房產(chǎn)要聞

      信號!千億巨頭入局,三亞開啟新一輪大征拆!

      旅游要聞

      意外邂逅金甲財神殿的人間煙火,這里可不只一年兩度的“財神會”

      PS5驚喜免費暢玩老3A!《紅色沙漠》發(fā)售前先來這個

      本地新聞

      云游中國|候鳥高顏值亮相!沉浸式打卡青海濕地

      無障礙瀏覽 進入關懷版