<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      開源8300小時標注數(shù)據(jù),新一代實時通用游戲AI Pixel2Play發(fā)布

      0
      分享至



      隨著人工智能在代碼以及圖片生成方面日益成熟,越來越多的研究人員也開始關(guān)注 AI 模型在游戲領(lǐng)域中的表現(xiàn)。實際上,游戲在 AI 的發(fā)展早期就已經(jīng)是一個重要的研究方向,許多前期研究聚焦在 Atari,星際爭霸,Dota 等熱門游戲,并成功訓練出了表現(xiàn)超越人類玩家的專用模型。然而,這類模型通常只能在單一游戲環(huán)境中運行,缺乏跨游戲的泛化能力。

      另一方面,雖然 ChatGPT 和 Gemini 這類模型通用模型在眾多任務上已經(jīng)展現(xiàn)出了卓越的能力,它們卻難以在游戲環(huán)境中取得好的表現(xiàn),即便是很簡單的射擊游戲。

      為了解決這一問題,來自 Player2 的研究員們提出了Pixel2Play(P2P)模型,該模型以游戲畫面和文本指令作為輸入,直接輸出對應的鍵盤與鼠標操作信號。在消費級顯卡 RTX 5090 上,P2P 可以實現(xiàn)超過 20Hz 的端到端推理速度,從而能夠真正像人類一樣和游戲進行實時交互。P2P 作為通用游戲基座模型,在超過40款游戲、總計8300 +小時的游戲數(shù)據(jù)上進行了訓練,并能夠以零樣本(zero-shot)的方式直接玩 Roblox 和 Steam 平臺上的多款游戲。

      為了促進領(lǐng)域的發(fā)展,Open-P2P 團隊在沒有使用許可限制的情況下開源了全部的訓練與推理代碼,并公開了所有的訓練數(shù)據(jù)集。

      接下來請看 P2P 模型的人機對戰(zhàn):(在 Roblox Rivals 游戲中)

      • 論文題目:Scaling Behavior Cloning Improves Causal Reasoning: An Open Model for Real-Time Video Game Playing
      • 項目主頁:https://elefant-ai.github.io/open-p2p/
      • 論文代碼:https://github.com/elefant-ai/open-p2p
      • 論文數(shù)據(jù):https://huggingface.co/datasets/elefantai/p2p-full-data

      訓練數(shù)據(jù)

      訓練游戲 AI 模型需要高質(zhì)量的游戲畫面、文本指令以及對應的操作數(shù)據(jù)。與海量公開的圖文數(shù)據(jù)不同,這類 “畫面 - 操作” 數(shù)據(jù)在互聯(lián)網(wǎng)上很少見。盡管已有通過游戲視頻反推動作的開源數(shù)據(jù)集,但開源的大規(guī)模高質(zhì)量人工標注操作數(shù)據(jù)卻還是空缺。為了彌補這一空缺,Open-P2P 項目開源了全部的訓練數(shù)據(jù)集。



      如圖所示,P2P 所用的訓練數(shù)據(jù)同時包括游戲圖像畫面與對應的文本指令,并提供了精確的鍵盤鼠標操作標注

      模型設(shè)計



      為了保證模型可以做到快速的推理速度,P2P 選擇了輕量級模型框架并從零開始訓練。

      模型主體由一個解碼器 Transformer 構(gòu)成(左圖所示),并額外接入一個輕量化的 action-decoder 來生成最終的操作信號。該結(jié)構(gòu)使得模型在推理時只需要對主體模型進行一次前向計算,即可生成 action-decoder 所需的表征信號,從而使得整體推理速度提升 5 倍。

      為了實現(xiàn)跨游戲通用性,P2P 采用了自回歸的離散 token序列作為操作輸出空間。具體來說,每個操作由 8 個 token 表示:4 個對應鍵盤按鍵,2 個對應鼠標在水平與垂直方向上的離散位移,最后兩個對應鼠標按鍵。這樣的設(shè)計可以涵蓋絕大部分游戲的操作需求。

      在輸入方面,除了當前幀圖像與文本指令 token 外,P2P 還會輸入真實操作 token,這使得模型能夠根據(jù)歷史操作來做決策,從而更貼近人類玩家的操作習慣。為了保證模型的因果關(guān)系,訓練時使用了特殊的掩碼機制(右圖所示),以確保模型在預測時僅能看見歷史真實操作。

      模型評估

      P2P 共訓練了四個不同規(guī)模的模型,參數(shù)量分別為 150M,300M,600M 和 1.2B。在實測中,150M 模型可以達到 80Hz 的端到端推理速度,而最大的 1.2B 模型也能達到 40Hz,完全滿足與游戲環(huán)境實時交互的需求。

      模型評估的標準主要是人工評估,評估環(huán)境選取自四款游戲

      • Steam 平臺上的 Quake,DOOM
      • Roblox 平臺上的 Hypershot,Be a Shark

      模型行為評估

      在 DOOM 和 Quake 中,每個官卡設(shè)置了四個不同的起始位置(Roblox 游戲因聯(lián)網(wǎng)機制無法固定起點),模型需從指定起點操作至下一個目標點。

      人工評估采取了兩兩比較的方式:將 1.2B 模型生成的游戲錄像與另外三個相對較小的模型錄像進行人工比對。結(jié)果顯示,1.2B 模型分別以 80%,83% 與 75% 的偏好度優(yōu)于 150M,300M 和 600M 模型。下方視頻展示了對比片段:

      指令遵循評估

      研究還測試了 P2P 模型理解并執(zhí)行文本指令的能力。評估環(huán)境選擇了 Quake 的一個迷宮關(guān)卡,該關(guān)卡要求玩家依次點亮三個紅色按鈕才能開門。

      這個任務對于僅憑借視覺信息的模型來說很有挑戰(zhàn),因為 “按下按鈕” 和 “不按按鈕” 在行動軌跡上幾乎沒有區(qū)別。所以,未接受指令的模型通過率只有 20%。而當模型接收到 “按下紅色按鈕” 的文本指令后,模型的通過率可大幅提高到 80%,顯示出了優(yōu)秀的文本指令理解和執(zhí)行能力。

      下方視頻對比了 1.2B 模型在有指令(左)和無指令(右)的情況下各運行 5 次的表現(xiàn)。

      因果混淆分析

      因果混淆是行為克隆中常見的難題,在高頻的交互環(huán)境中尤其突出。例如,一個簡單的策略就是直接復制上一幀的操作,這種模型在訓練時,但在真實環(huán)境測試時表現(xiàn)就會很差。

      論文對此進行了系統(tǒng)的研究,發(fā)現(xiàn)擴大模型的規(guī)模與增加訓練模型的數(shù)據(jù)量能夠有效提升模型對因果關(guān)系的理解能力,使其不再依賴著淚虛假關(guān)聯(lián),從而學到更好的操作策略。



      如圖所示,隨著訓練數(shù)據(jù)增多與模型參數(shù)量增加,P2P 模型在因果推斷評估中的表現(xiàn)呈上升趨勢。

      關(guān)于作者

      本文第一作者岳煜光現(xiàn)任初創(chuàng)公司 Player2 研究員,負責游戲模型的開發(fā)和研究。在加入 Player2 之前,他曾先后在 Amazon 和 Twitter 擔任研究人員,致力于語言模型與推薦系統(tǒng)的相關(guān)研究。

      岳煜光博士畢業(yè)于德州大學奧斯汀分校(UT-Austin),師從周明遠教授,研究方向是強化學習以及貝葉斯統(tǒng)計;此前他于加州大學洛杉磯分校(UCLA)取得碩士學位,本科畢業(yè)于復旦大學數(shù)學系。



      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      新華社千筆樓:千條彈幕七成假,誰在給直播彈幕“注水”?

      新華社千筆樓:千條彈幕七成假,誰在給直播彈幕“注水”?

      澎湃新聞
      2026-01-21 13:49:33
      2-0!凱恩梅開二度+失點,拜仁反超皇馬,提前晉級歐冠16強

      2-0!凱恩梅開二度+失點,拜仁反超皇馬,提前晉級歐冠16強

      我的護球最獨特
      2026-01-22 06:08:31
      保利集團董事長調(diào)整

      保利集團董事長調(diào)整

      新京報政事兒
      2026-01-21 21:35:09
      官宣!亞足聯(lián)公布決賽裁判組,安東尼奧攤牌了:展望與日本隊之爭

      官宣!亞足聯(lián)公布決賽裁判組,安東尼奧攤牌了:展望與日本隊之爭

      大秦壁虎白話體育
      2026-01-21 21:01:47
      阿卡晉級首盤卻意外陷入苦戰(zhàn),亨曼坦言,費雷羅走后他像野馬脫韁

      阿卡晉級首盤卻意外陷入苦戰(zhàn),亨曼坦言,費雷羅走后他像野馬脫韁

      網(wǎng)球之家
      2026-01-21 22:20:57
      李湘“封號”后首現(xiàn)身!攜王詩齡香港購物超悠閑,瞬間在網(wǎng)絡(luò)上炸開了鍋

      李湘“封號”后首現(xiàn)身!攜王詩齡香港購物超悠閑,瞬間在網(wǎng)絡(luò)上炸開了鍋

      今古深日報
      2026-01-21 10:54:36
      紅星觀察|3比0大勝越南隊!創(chuàng)中國足球22年來最高光時刻,U23國足靠什么?

      紅星觀察|3比0大勝越南隊!創(chuàng)中國足球22年來最高光時刻,U23國足靠什么?

      紅星新聞
      2026-01-21 08:49:14
      日本!大崩盤開始了!

      日本!大崩盤開始了!

      大嘴說天下
      2026-01-22 04:30:03
      李湘前夫,鋃鐺入獄!

      李湘前夫,鋃鐺入獄!

      LULU生活家
      2026-01-21 14:36:09
      劍南春“掀桌了”!直接拿線下硬通貨打價格戰(zhàn)了!

      劍南春“掀桌了”!直接拿線下硬通貨打價格戰(zhàn)了!

      超級數(shù)學建模
      2026-01-21 22:38:03
      突發(fā)! 中餐館20人死傷! IS發(fā)動炸彈恐襲, 宣稱中國公民為攻擊目標!

      突發(fā)! 中餐館20人死傷! IS發(fā)動炸彈恐襲, 宣稱中國公民為攻擊目標!

      澳洲紅領(lǐng)巾
      2026-01-21 12:39:50
      鐵路公司黨委書記被查,大家關(guān)心的不是他違法犯罪而是名字怎么讀

      鐵路公司黨委書記被查,大家關(guān)心的不是他違法犯罪而是名字怎么讀

      杰絲聊古今
      2026-01-20 09:00:29
      廣東119-98大勝吉林 球員評價:奎因滿分,6人及格,3人低迷

      廣東119-98大勝吉林 球員評價:奎因滿分,6人及格,3人低迷

      籃球資訊達人
      2026-01-21 21:27:24
      40歲左右得女性這樣打扮,既優(yōu)雅又有成熟女人的魅力

      40歲左右得女性這樣打扮,既優(yōu)雅又有成熟女人的魅力

      牛彈琴123456
      2025-12-28 16:35:58
      閑魚不愧是全國最大的黑市,網(wǎng)民:只有你想不到,沒有你買不到

      閑魚不愧是全國最大的黑市,網(wǎng)民:只有你想不到,沒有你買不到

      小熊侃史
      2026-01-16 07:40:07
      美國急壞了:中國為什么遮住神舟20的舷窗?有什么不想讓人看到?

      美國急壞了:中國為什么遮住神舟20的舷窗?有什么不想讓人看到?

      軍機Talk
      2026-01-21 10:57:17
      肖國棟147,吳宜澤也轟生涯首桿147!趙心童2勝1負,張安達1勝2負

      肖國棟147,吳宜澤也轟生涯首桿147!趙心童2勝1負,張安達1勝2負

      陌識
      2026-01-22 05:12:27
      滿是心酸!過氣男頂流陪老板去酒局,倒酒、陪笑,都只是冰山一角

      滿是心酸!過氣男頂流陪老板去酒局,倒酒、陪笑,都只是冰山一角

      查爾菲的筆記
      2026-01-19 16:33:14
      拒掛國旗、訂單全給日韓,被停止合作封鎖航線的長榮,今咎由自取

      拒掛國旗、訂單全給日韓,被停止合作封鎖航線的長榮,今咎由自取

      番茄說史聊
      2026-01-21 10:06:55
      謎之操作!柬埔寨剛疏遠中國,泰國就火速接住中方巨額援助

      謎之操作!柬埔寨剛疏遠中國,泰國就火速接住中方巨額援助

      東風寄的千愁
      2026-01-22 05:52:28
      2026-01-22 06:47:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12162文章數(shù) 142547關(guān)注度
      往期回顧 全部

      游戲要聞

      為什么CF策劃會拋棄幽靈模式?版本已經(jīng)停更了,新內(nèi)容也沒有

      頭條要聞

      特朗普稱“美國擁有無人知曉的武器” 克宮回應

      頭條要聞

      特朗普稱“美國擁有無人知曉的武器” 克宮回應

      體育要聞

      只會防守反擊?不好意思,我們要踢決賽了

      娛樂要聞

      首位捐款的明星 苗圃現(xiàn)身嫣然醫(yī)院捐款

      財經(jīng)要聞

      丹麥打響第一槍 歐洲用資本保衛(wèi)格陵蘭島

      科技要聞

      給機器人做仿真訓練 這家創(chuàng)企年營收破億

      汽車要聞

      2026款上汽大眾朗逸正式上市 售價12.09萬起

      態(tài)度原創(chuàng)

      藝術(shù)
      時尚
      數(shù)碼
      公開課
      軍事航空

      藝術(shù)要聞

      黃永玉精品欣賞

      締造仙女夢的人,去了天堂繼續(xù)縫制星光?

      數(shù)碼要聞

      追覓科技成為央視春晚智能科技生態(tài)戰(zhàn)略合作伙伴

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      特朗普:對美國的真正威脅是聯(lián)合國和北約

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 国产精品无码av天天爽| 精品人妻无码一区二区三区性| 白嫩少妇激情无码| 涩欲国产一区二区三区四区| 丝袜制服无码国产| 人妻人人澡人人添人人爽国产一区| 一边捏奶头一边高潮视频| 人妻夜夜爽天天爽| 2022最新国产在线不卡a| 亚洲高潮喷水无码AV电影| 亚洲熟女食品| 久久国产成人午夜av影院| 亚洲av中文久久精品国内 | 黑人巨大精品| 九九热在线视频| 日本无码白浆一区二区| 曰本丰满熟妇xxxx性| 国产精品网站在线观看免费传媒| 美女91社| 欧美人妻少妇| 夜夜爽无码一区二区三区| 黄色污网站在线观看| 激情五月日韩中文字幕| 久久99精品久久久久久婷婷2021| 色吊丝亚洲欧美| 5d肉蒲团之性战奶水| 性欧美三级在线观看| 南漳县| 欧美丰满美乳XXⅩ高潮www| 精品国产乱码久久久久乱码| 欧美日韩国产一区二区三区不卡| 亚洲性爱电影| 性爱综合网| 国产极品精品自在线不卡| 4虎四虎永久在线精品免费| 在线播放91| 亚洲综合伊人久久大杳蕉| 爽爽精品dvd蜜桃成熟时电影院| 九九色色| 亚洲AV无码一区东京热久久| 精品一二三|