![]()
隨著人工智能在代碼以及圖片生成方面日益成熟,越來越多的研究人員也開始關(guān)注 AI 模型在游戲領(lǐng)域中的表現(xiàn)。實際上,游戲在 AI 的發(fā)展早期就已經(jīng)是一個重要的研究方向,許多前期研究聚焦在 Atari,星際爭霸,Dota 等熱門游戲,并成功訓練出了表現(xiàn)超越人類玩家的專用模型。然而,這類模型通常只能在單一游戲環(huán)境中運行,缺乏跨游戲的泛化能力。
另一方面,雖然 ChatGPT 和 Gemini 這類模型通用模型在眾多任務上已經(jīng)展現(xiàn)出了卓越的能力,它們卻難以在游戲環(huán)境中取得好的表現(xiàn),即便是很簡單的射擊游戲。
為了解決這一問題,來自 Player2 的研究員們提出了Pixel2Play(P2P)模型,該模型以游戲畫面和文本指令作為輸入,直接輸出對應的鍵盤與鼠標操作信號。在消費級顯卡 RTX 5090 上,P2P 可以實現(xiàn)超過 20Hz 的端到端推理速度,從而能夠真正像人類一樣和游戲進行實時交互。P2P 作為通用游戲基座模型,在超過40款游戲、總計8300 +小時的游戲數(shù)據(jù)上進行了訓練,并能夠以零樣本(zero-shot)的方式直接玩 Roblox 和 Steam 平臺上的多款游戲。
為了促進領(lǐng)域的發(fā)展,Open-P2P 團隊在沒有使用許可限制的情況下開源了全部的訓練與推理代碼,并公開了所有的訓練數(shù)據(jù)集。
接下來請看 P2P 模型的人機對戰(zhàn):(在 Roblox Rivals 游戲中)
- 論文題目:Scaling Behavior Cloning Improves Causal Reasoning: An Open Model for Real-Time Video Game Playing
- 項目主頁:https://elefant-ai.github.io/open-p2p/
- 論文代碼:https://github.com/elefant-ai/open-p2p
- 論文數(shù)據(jù):https://huggingface.co/datasets/elefantai/p2p-full-data
訓練數(shù)據(jù)
訓練游戲 AI 模型需要高質(zhì)量的游戲畫面、文本指令以及對應的操作數(shù)據(jù)。與海量公開的圖文數(shù)據(jù)不同,這類 “畫面 - 操作” 數(shù)據(jù)在互聯(lián)網(wǎng)上很少見。盡管已有通過游戲視頻反推動作的開源數(shù)據(jù)集,但開源的大規(guī)模高質(zhì)量人工標注操作數(shù)據(jù)卻還是空缺。為了彌補這一空缺,Open-P2P 項目開源了全部的訓練數(shù)據(jù)集。
![]()
如圖所示,P2P 所用的訓練數(shù)據(jù)同時包括游戲圖像畫面與對應的文本指令,并提供了精確的鍵盤鼠標操作標注
模型設(shè)計
![]()
為了保證模型可以做到快速的推理速度,P2P 選擇了輕量級模型框架并從零開始訓練。
模型主體由一個解碼器 Transformer 構(gòu)成(左圖所示),并額外接入一個輕量化的 action-decoder 來生成最終的操作信號。該結(jié)構(gòu)使得模型在推理時只需要對主體模型進行一次前向計算,即可生成 action-decoder 所需的表征信號,從而使得整體推理速度提升 5 倍。
為了實現(xiàn)跨游戲通用性,P2P 采用了自回歸的離散 token序列作為操作輸出空間。具體來說,每個操作由 8 個 token 表示:4 個對應鍵盤按鍵,2 個對應鼠標在水平與垂直方向上的離散位移,最后兩個對應鼠標按鍵。這樣的設(shè)計可以涵蓋絕大部分游戲的操作需求。
在輸入方面,除了當前幀圖像與文本指令 token 外,P2P 還會輸入真實操作 token,這使得模型能夠根據(jù)歷史操作來做決策,從而更貼近人類玩家的操作習慣。為了保證模型的因果關(guān)系,訓練時使用了特殊的掩碼機制(右圖所示),以確保模型在預測時僅能看見歷史真實操作。
模型評估
P2P 共訓練了四個不同規(guī)模的模型,參數(shù)量分別為 150M,300M,600M 和 1.2B。在實測中,150M 模型可以達到 80Hz 的端到端推理速度,而最大的 1.2B 模型也能達到 40Hz,完全滿足與游戲環(huán)境實時交互的需求。
模型評估的標準主要是人工評估,評估環(huán)境選取自四款游戲
- Steam 平臺上的 Quake,DOOM
- Roblox 平臺上的 Hypershot,Be a Shark
模型行為評估
在 DOOM 和 Quake 中,每個官卡設(shè)置了四個不同的起始位置(Roblox 游戲因聯(lián)網(wǎng)機制無法固定起點),模型需從指定起點操作至下一個目標點。
人工評估采取了兩兩比較的方式:將 1.2B 模型生成的游戲錄像與另外三個相對較小的模型錄像進行人工比對。結(jié)果顯示,1.2B 模型分別以 80%,83% 與 75% 的偏好度優(yōu)于 150M,300M 和 600M 模型。下方視頻展示了對比片段:
指令遵循評估
研究還測試了 P2P 模型理解并執(zhí)行文本指令的能力。評估環(huán)境選擇了 Quake 的一個迷宮關(guān)卡,該關(guān)卡要求玩家依次點亮三個紅色按鈕才能開門。
這個任務對于僅憑借視覺信息的模型來說很有挑戰(zhàn),因為 “按下按鈕” 和 “不按按鈕” 在行動軌跡上幾乎沒有區(qū)別。所以,未接受指令的模型通過率只有 20%。而當模型接收到 “按下紅色按鈕” 的文本指令后,模型的通過率可大幅提高到 80%,顯示出了優(yōu)秀的文本指令理解和執(zhí)行能力。
下方視頻對比了 1.2B 模型在有指令(左)和無指令(右)的情況下各運行 5 次的表現(xiàn)。
因果混淆分析
因果混淆是行為克隆中常見的難題,在高頻的交互環(huán)境中尤其突出。例如,一個簡單的策略就是直接復制上一幀的操作,這種模型在訓練時,但在真實環(huán)境測試時表現(xiàn)就會很差。
論文對此進行了系統(tǒng)的研究,發(fā)現(xiàn)擴大模型的規(guī)模與增加訓練模型的數(shù)據(jù)量能夠有效提升模型對因果關(guān)系的理解能力,使其不再依賴著淚虛假關(guān)聯(lián),從而學到更好的操作策略。
![]()
如圖所示,隨著訓練數(shù)據(jù)增多與模型參數(shù)量增加,P2P 模型在因果推斷評估中的表現(xiàn)呈上升趨勢。
關(guān)于作者
本文第一作者岳煜光現(xiàn)任初創(chuàng)公司 Player2 研究員,負責游戲模型的開發(fā)和研究。在加入 Player2 之前,他曾先后在 Amazon 和 Twitter 擔任研究人員,致力于語言模型與推薦系統(tǒng)的相關(guān)研究。
岳煜光博士畢業(yè)于德州大學奧斯汀分校(UT-Austin),師從周明遠教授,研究方向是強化學習以及貝葉斯統(tǒng)計;此前他于加州大學洛杉磯分校(UCLA)取得碩士學位,本科畢業(yè)于復旦大學數(shù)學系。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.