<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

      開源8300小時(shí)標(biāo)注數(shù)據(jù),新一代實(shí)時(shí)通用游戲AI Pixel2Play發(fā)布

      0
      分享至



      隨著人工智能在代碼以及圖片生成方面日益成熟,越來越多的研究人員也開始關(guān)注 AI 模型在游戲領(lǐng)域中的表現(xiàn)。實(shí)際上,游戲在 AI 的發(fā)展早期就已經(jīng)是一個(gè)重要的研究方向,許多前期研究聚焦在 Atari,星際爭霸,Dota 等熱門游戲,并成功訓(xùn)練出了表現(xiàn)超越人類玩家的專用模型。然而,這類模型通常只能在單一游戲環(huán)境中運(yùn)行,缺乏跨游戲的泛化能力。

      另一方面,雖然 ChatGPT 和 Gemini 這類模型通用模型在眾多任務(wù)上已經(jīng)展現(xiàn)出了卓越的能力,它們卻難以在游戲環(huán)境中取得好的表現(xiàn),即便是很簡單的射擊游戲。

      為了解決這一問題,來自 Player2 的研究員們提出了Pixel2Play(P2P)模型,該模型以游戲畫面和文本指令作為輸入,直接輸出對應(yīng)的鍵盤與鼠標(biāo)操作信號(hào)。在消費(fèi)級(jí)顯卡 RTX 5090 上,P2P 可以實(shí)現(xiàn)超過 20Hz 的端到端推理速度,從而能夠真正像人類一樣和游戲進(jìn)行實(shí)時(shí)交互。P2P 作為通用游戲基座模型,在超過40款游戲、總計(jì)8300 +小時(shí)的游戲數(shù)據(jù)上進(jìn)行了訓(xùn)練,并能夠以零樣本(zero-shot)的方式直接玩 Roblox 和 Steam 平臺(tái)上的多款游戲。

      為了促進(jìn)領(lǐng)域的發(fā)展,Open-P2P 團(tuán)隊(duì)在沒有使用許可限制的情況下開源了全部的訓(xùn)練與推理代碼,并公開了所有的訓(xùn)練數(shù)據(jù)集。

      接下來請看 P2P 模型的人機(jī)對戰(zhàn):(在 Roblox Rivals 游戲中)

      • 論文題目:Scaling Behavior Cloning Improves Causal Reasoning: An Open Model for Real-Time Video Game Playing
      • 項(xiàng)目主頁:https://elefant-ai.github.io/open-p2p/
      • 論文代碼:https://github.com/elefant-ai/open-p2p
      • 論文數(shù)據(jù):https://huggingface.co/datasets/elefantai/p2p-full-data

      訓(xùn)練數(shù)據(jù)

      訓(xùn)練游戲 AI 模型需要高質(zhì)量的游戲畫面、文本指令以及對應(yīng)的操作數(shù)據(jù)。與海量公開的圖文數(shù)據(jù)不同,這類 “畫面 - 操作” 數(shù)據(jù)在互聯(lián)網(wǎng)上很少見。盡管已有通過游戲視頻反推動(dòng)作的開源數(shù)據(jù)集,但開源的大規(guī)模高質(zhì)量人工標(biāo)注操作數(shù)據(jù)卻還是空缺。為了彌補(bǔ)這一空缺,Open-P2P 項(xiàng)目開源了全部的訓(xùn)練數(shù)據(jù)集。



      如圖所示,P2P 所用的訓(xùn)練數(shù)據(jù)同時(shí)包括游戲圖像畫面與對應(yīng)的文本指令,并提供了精確的鍵盤鼠標(biāo)操作標(biāo)注

      模型設(shè)計(jì)



      為了保證模型可以做到快速的推理速度,P2P 選擇了輕量級(jí)模型框架并從零開始訓(xùn)練。

      模型主體由一個(gè)解碼器 Transformer 構(gòu)成(左圖所示),并額外接入一個(gè)輕量化的 action-decoder 來生成最終的操作信號(hào)。該結(jié)構(gòu)使得模型在推理時(shí)只需要對主體模型進(jìn)行一次前向計(jì)算,即可生成 action-decoder 所需的表征信號(hào),從而使得整體推理速度提升 5 倍。

      為了實(shí)現(xiàn)跨游戲通用性,P2P 采用了自回歸的離散 token序列作為操作輸出空間。具體來說,每個(gè)操作由 8 個(gè) token 表示:4 個(gè)對應(yīng)鍵盤按鍵,2 個(gè)對應(yīng)鼠標(biāo)在水平與垂直方向上的離散位移,最后兩個(gè)對應(yīng)鼠標(biāo)按鍵。這樣的設(shè)計(jì)可以涵蓋絕大部分游戲的操作需求。

      在輸入方面,除了當(dāng)前幀圖像與文本指令 token 外,P2P 還會(huì)輸入真實(shí)操作 token,這使得模型能夠根據(jù)歷史操作來做決策,從而更貼近人類玩家的操作習(xí)慣。為了保證模型的因果關(guān)系,訓(xùn)練時(shí)使用了特殊的掩碼機(jī)制(右圖所示),以確保模型在預(yù)測時(shí)僅能看見歷史真實(shí)操作。

      模型評估

      P2P 共訓(xùn)練了四個(gè)不同規(guī)模的模型,參數(shù)量分別為 150M,300M,600M 和 1.2B。在實(shí)測中,150M 模型可以達(dá)到 80Hz 的端到端推理速度,而最大的 1.2B 模型也能達(dá)到 40Hz,完全滿足與游戲環(huán)境實(shí)時(shí)交互的需求。

      模型評估的標(biāo)準(zhǔn)主要是人工評估,評估環(huán)境選取自四款游戲

      • Steam 平臺(tái)上的 Quake,DOOM
      • Roblox 平臺(tái)上的 Hypershot,Be a Shark

      模型行為評估

      在 DOOM 和 Quake 中,每個(gè)官卡設(shè)置了四個(gè)不同的起始位置(Roblox 游戲因聯(lián)網(wǎng)機(jī)制無法固定起點(diǎn)),模型需從指定起點(diǎn)操作至下一個(gè)目標(biāo)點(diǎn)。

      人工評估采取了兩兩比較的方式:將 1.2B 模型生成的游戲錄像與另外三個(gè)相對較小的模型錄像進(jìn)行人工比對。結(jié)果顯示,1.2B 模型分別以 80%,83% 與 75% 的偏好度優(yōu)于 150M,300M 和 600M 模型。下方視頻展示了對比片段:

      指令遵循評估

      研究還測試了 P2P 模型理解并執(zhí)行文本指令的能力。評估環(huán)境選擇了 Quake 的一個(gè)迷宮關(guān)卡,該關(guān)卡要求玩家依次點(diǎn)亮三個(gè)紅色按鈕才能開門。

      這個(gè)任務(wù)對于僅憑借視覺信息的模型來說很有挑戰(zhàn),因?yàn)?“按下按鈕” 和 “不按按鈕” 在行動(dòng)軌跡上幾乎沒有區(qū)別。所以,未接受指令的模型通過率只有 20%。而當(dāng)模型接收到 “按下紅色按鈕” 的文本指令后,模型的通過率可大幅提高到 80%,顯示出了優(yōu)秀的文本指令理解和執(zhí)行能力。

      下方視頻對比了 1.2B 模型在有指令(左)和無指令(右)的情況下各運(yùn)行 5 次的表現(xiàn)。

      因果混淆分析

      因果混淆是行為克隆中常見的難題,在高頻的交互環(huán)境中尤其突出。例如,一個(gè)簡單的策略就是直接復(fù)制上一幀的操作,這種模型在訓(xùn)練時(shí),但在真實(shí)環(huán)境測試時(shí)表現(xiàn)就會(huì)很差。

      論文對此進(jìn)行了系統(tǒng)的研究,發(fā)現(xiàn)擴(kuò)大模型的規(guī)模與增加訓(xùn)練模型的數(shù)據(jù)量能夠有效提升模型對因果關(guān)系的理解能力,使其不再依賴著淚虛假關(guān)聯(lián),從而學(xué)到更好的操作策略。



      如圖所示,隨著訓(xùn)練數(shù)據(jù)增多與模型參數(shù)量增加,P2P 模型在因果推斷評估中的表現(xiàn)呈上升趨勢。

      關(guān)于作者

      本文第一作者岳煜光現(xiàn)任初創(chuàng)公司 Player2 研究員,負(fù)責(zé)游戲模型的開發(fā)和研究。在加入 Player2 之前,他曾先后在 Amazon 和 Twitter 擔(dān)任研究人員,致力于語言模型與推薦系統(tǒng)的相關(guān)研究。

      岳煜光博士畢業(yè)于德州大學(xué)奧斯汀分校(UT-Austin),師從周明遠(yuǎn)教授,研究方向是強(qiáng)化學(xué)習(xí)以及貝葉斯統(tǒng)計(jì);此前他于加州大學(xué)洛杉磯分校(UCLA)取得碩士學(xué)位,本科畢業(yè)于復(fù)旦大學(xué)數(shù)學(xué)系。



      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      原來林心如沒了美顏長這樣,比普通人耐看,到底是明星。

      原來林心如沒了美顏長這樣,比普通人耐看,到底是明星。

      動(dòng)物奇奇怪怪
      2026-01-22 11:23:18
      1億鋒霸急速隕落:7場0球,西蒙尼太失望:連續(xù)3次提前換下他

      1億鋒霸急速隕落:7場0球,西蒙尼太失望:連續(xù)3次提前換下他

      足球狗說
      2026-01-22 07:22:24
      同樣在路上跑,電車為啥不用交養(yǎng)路費(fèi)?2026年養(yǎng)路費(fèi)新規(guī)落地!

      同樣在路上跑,電車為啥不用交養(yǎng)路費(fèi)?2026年養(yǎng)路費(fèi)新規(guī)落地!

      老特有話說
      2026-01-20 15:57:30
      很多你以為不該存在的,只是你沒看懂

      很多你以為不該存在的,只是你沒看懂

      記憶承載
      2026-01-22 11:18:52
      WTT常規(guī)賽:向鵬出師不利!首局連丟7分被逆轉(zhuǎn),卡爾伯格11-5大勝

      WTT常規(guī)賽:向鵬出師不利!首局連丟7分被逆轉(zhuǎn),卡爾伯格11-5大勝

      劉姚堯的文字城堡
      2026-01-22 16:32:42
      離譜數(shù)據(jù)!東契奇單節(jié)408分>AD本賽季總得分,湖人血賺

      離譜數(shù)據(jù)!東契奇單節(jié)408分>AD本賽季總得分,湖人血賺

      夜白侃球
      2026-01-22 16:10:49
      冉瑩穎窮到晚上不敢開燈!兒子穿破洞鞋、節(jié)約餐費(fèi),滿墻名包諷刺

      冉瑩穎窮到晚上不敢開燈!兒子穿破洞鞋、節(jié)約餐費(fèi),滿墻名包諷刺

      探索新高度
      2026-01-21 12:12:44
      無緣挑戰(zhàn)德約科維奇!商竣程連丟三盤出局,止步澳網(wǎng)男單第2輪

      無緣挑戰(zhàn)德約科維奇!商竣程連丟三盤出局,止步澳網(wǎng)男單第2輪

      全景體育V
      2026-01-22 13:49:51
      比 “斬殺線” 更恐怖,美國每年失蹤36萬兒童,且僅是被正式記錄在案數(shù)據(jù)

      比 “斬殺線” 更恐怖,美國每年失蹤36萬兒童,且僅是被正式記錄在案數(shù)據(jù)

      不掉線電波
      2026-01-21 19:59:28
      兩年了,為何許家印遲遲不判刑?真相比你想象的更復(fù)雜!

      兩年了,為何許家印遲遲不判刑?真相比你想象的更復(fù)雜!

      李云飛Afey
      2026-01-20 11:43:34
      威少轟23+3+3+3仍無緣今日最佳!對不起,你碰到創(chuàng)紀(jì)錄的SGA了

      威少轟23+3+3+3仍無緣今日最佳!對不起,你碰到創(chuàng)紀(jì)錄的SGA了

      世界體育圈
      2026-01-22 13:41:23
      新四軍剛沖出日軍包圍圈,旅長卻下令:打回去,日軍人數(shù)不對勁!

      新四軍剛沖出日軍包圍圈,旅長卻下令:打回去,日軍人數(shù)不對勁!

      史之銘
      2026-01-22 06:29:44
      2026年財(cái)神偏愛!這3大生肖事業(yè)攀升,衣食無憂,家庭美好

      2026年財(cái)神偏愛!這3大生肖事業(yè)攀升,衣食無憂,家庭美好

      人閒情事
      2026-01-22 15:58:06
      嫣然活動(dòng)現(xiàn)場曝光,王菲和李亞鵬媽媽同框,離婚7年稱對方自家人

      嫣然活動(dòng)現(xiàn)場曝光,王菲和李亞鵬媽媽同框,離婚7年稱對方自家人

      甜檸聊史
      2026-01-22 16:18:20
      事發(fā)南通,網(wǎng)友實(shí)名舉報(bào),大雪紛飛中,易家橋中學(xué)學(xué)生被體罰

      事發(fā)南通,網(wǎng)友實(shí)名舉報(bào),大雪紛飛中,易家橋中學(xué)學(xué)生被體罰

      尋墨閣
      2026-01-22 14:08:38
      吳京、李連杰新片遭受抵制,網(wǎng)友的吐槽方向一致,不約而同

      吳京、李連杰新片遭受抵制,網(wǎng)友的吐槽方向一致,不約而同

      林輕吟
      2026-01-19 19:59:16
      你見過最暖的撿奶茶現(xiàn)場嗎?一車奶茶傾瀉,路人集體變身“撿購俠”;網(wǎng)友:陜西人“嫽咋咧”!

      你見過最暖的撿奶茶現(xiàn)場嗎?一車奶茶傾瀉,路人集體變身“撿購俠”;網(wǎng)友:陜西人“嫽咋咧”!

      大風(fēng)新聞
      2026-01-22 10:57:04
      特朗普大鬧達(dá)沃斯,全世界哭笑不得

      特朗普大鬧達(dá)沃斯,全世界哭笑不得

      牛彈琴
      2026-01-22 07:56:12
      小縣城的消費(fèi)究竟能有多高?網(wǎng)友:越小的地方東西越貴,這是真的

      小縣城的消費(fèi)究竟能有多高?網(wǎng)友:越小的地方東西越貴,這是真的

      解讀熱點(diǎn)事件
      2026-01-19 00:05:09
      廣東今日早報(bào)!威姆斯公布重要決定,薩林杰或被裁,徐杰兌現(xiàn)承諾

      廣東今日早報(bào)!威姆斯公布重要決定,薩林杰或被裁,徐杰兌現(xiàn)承諾

      多特體育說
      2026-01-22 06:40:03
      2026-01-22 17:24:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12168文章數(shù) 142547關(guān)注度
      往期回顧 全部

      游戲要聞

      Xbox《發(fā)條革命》野心超大!30%內(nèi)容一周目玩不到

      頭條要聞

      浙江有人領(lǐng)走88888888馬年紀(jì)念鈔 銀行員工:隨機(jī)分配

      頭條要聞

      浙江有人領(lǐng)走88888888馬年紀(jì)念鈔 銀行員工:隨機(jī)分配

      體育要聞

      跑個(gè)步而已,他們在燃什么?

      娛樂要聞

      鐘麗緹土耳其高空落淚 與張倫碩擁吻

      財(cái)經(jīng)要聞

      申通快遞創(chuàng)始人被前夫索要股份

      科技要聞

      幾千億只是開胃菜,AI基建還得再砸?guī)兹f億

      汽車要聞

      配備多塊娛樂屏 極氪8X內(nèi)飾曝光

      態(tài)度原創(chuàng)

      房產(chǎn)
      時(shí)尚
      游戲
      教育
      本地

      房產(chǎn)要聞

      超千畝!三亞基建大幕開啟!崖州灣科技城向北猛擴(kuò)!

      50+女性穿衣沒頭緒?教你3個(gè)顯瘦還時(shí)髦的思路,照搬就好看

      科幻生存新爆款!《星際裂變》兩周銷量超50萬

      教育要聞

      求最大值,中考必考

      本地新聞

      云游中國|格爾木的四季朋友圈,張張值得你點(diǎn)贊

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 中文字幕人成无码人妻综合社区| 狠狠色丁香久久综合婷婷| 欧美喷潮最猛视频| 一本色道久久综合熟妇人妻| 一本大道东京热无码| 香河县| 成人免费区一区二区三区 | 亚洲人成色77777在线观看| 久久高潮少妇视频免费| 久久综合九色综合欧美就去吻| 色婷婷久久久swag精品| 成人免费无遮挡在线播放| 欧美激情a∨在线视频播放| 伊人免费在线| 国产一区二区三区高清在线观看| 亚洲无码网| 欧美人妻中文| 亚洲最大的成人网| 中文字幕无线码一区二区| 18岁日韩内射颜射午夜久久成人| 中文字幕日本人妻久久久免费| 精品九九视频| 51妺嘿嘿午夜福利| 色屁屁www影院免费观看入口| 免费男人和女人牲交视频全黄| 水蜜桃自拍视频在线观看| 韩国19禁无遮挡啪啪无码网站| 北碚区| 春色校园综合人妻av| 伊人毛片| 新泰市| 少妇被粗大猛进进出出| 亚洲熟女字幕| 国产99久久精品一区二区| 亚洲天堂无码| 丰满的少妇愉情HD高清果冻传媒| 国产人妖网站| 中文成人无码精品久久久不卡| 黑人一级片| 播放灌醉水嫩大学生国内精品| 亚洲资源站|