開源8300小時標注數(shù)據(jù)，新一代實時通用游戲AI Pixel2Play發(fā)布

2026-01-19 14:34:39　來源: 機器之心Pro

北京舉報

分享至

隨著人工智能在代碼以及圖片生成方面日益成熟，越來越多的研究人員也開始關(guān)注 AI 模型在游戲領(lǐng)域中的表現(xiàn)。實際上，游戲在 AI 的發(fā)展早期就已經(jīng)是一個重要的研究方向，許多前期研究聚焦在 Atari，星際爭霸，Dota 等熱門游戲，并成功訓練出了表現(xiàn)超越人類玩家的專用模型。然而，這類模型通常只能在單一游戲環(huán)境中運行，缺乏跨游戲的泛化能力。

另一方面，雖然 ChatGPT 和 Gemini 這類模型通用模型在眾多任務上已經(jīng)展現(xiàn)出了卓越的能力，它們卻難以在游戲環(huán)境中取得好的表現(xiàn)，即便是很簡單的射擊游戲。

為了解決這一問題，來自 Player2 的研究員們提出了Pixel2Play（P2P）模型，該模型以游戲畫面和文本指令作為輸入，直接輸出對應的鍵盤與鼠標操作信號。在消費級顯卡 RTX 5090 上，P2P 可以實現(xiàn)超過 20Hz 的端到端推理速度，從而能夠真正像人類一樣和游戲進行實時交互。P2P 作為通用游戲基座模型，在超過40款游戲、總計8300 +小時的游戲數(shù)據(jù)上進行了訓練，并能夠以零樣本（zero-shot）的方式直接玩 Roblox 和 Steam 平臺上的多款游戲。

為了促進領(lǐng)域的發(fā)展，Open-P2P 團隊在沒有使用許可限制的情況下開源了全部的訓練與推理代碼，并公開了所有的訓練數(shù)據(jù)集。

接下來請看 P2P 模型的人機對戰(zhàn)：(在 Roblox Rivals 游戲中)

論文題目：Scaling Behavior Cloning Improves Causal Reasoning: An Open Model for Real-Time Video Game Playing
項目主頁：https://elefant-ai.github.io/open-p2p/
論文代碼：https://github.com/elefant-ai/open-p2p
論文數(shù)據(jù)：https://huggingface.co/datasets/elefantai/p2p-full-data

訓練數(shù)據(jù)

訓練游戲 AI 模型需要高質(zhì)量的游戲畫面、文本指令以及對應的操作數(shù)據(jù)。與海量公開的圖文數(shù)據(jù)不同，這類 “畫面 - 操作” 數(shù)據(jù)在互聯(lián)網(wǎng)上很少見。盡管已有通過游戲視頻反推動作的開源數(shù)據(jù)集，但開源的大規(guī)模高質(zhì)量人工標注操作數(shù)據(jù)卻還是空缺。為了彌補這一空缺，Open-P2P 項目開源了全部的訓練數(shù)據(jù)集。

如圖所示，P2P 所用的訓練數(shù)據(jù)同時包括游戲圖像畫面與對應的文本指令，并提供了精確的鍵盤鼠標操作標注

模型設(shè)計

為了保證模型可以做到快速的推理速度，P2P 選擇了輕量級模型框架并從零開始訓練。

模型主體由一個解碼器 Transformer 構(gòu)成（左圖所示），并額外接入一個輕量化的 action-decoder 來生成最終的操作信號。該結(jié)構(gòu)使得模型在推理時只需要對主體模型進行一次前向計算，即可生成 action-decoder 所需的表征信號，從而使得整體推理速度提升 5 倍。

為了實現(xiàn)跨游戲通用性，P2P 采用了自回歸的離散 token序列作為操作輸出空間。具體來說，每個操作由 8 個 token 表示：4 個對應鍵盤按鍵，2 個對應鼠標在水平與垂直方向上的離散位移，最后兩個對應鼠標按鍵。這樣的設(shè)計可以涵蓋絕大部分游戲的操作需求。

在輸入方面，除了當前幀圖像與文本指令 token 外，P2P 還會輸入真實操作 token，這使得模型能夠根據(jù)歷史操作來做決策，從而更貼近人類玩家的操作習慣。為了保證模型的因果關(guān)系，訓練時使用了特殊的掩碼機制（右圖所示），以確保模型在預測時僅能看見歷史真實操作。

模型評估

P2P 共訓練了四個不同規(guī)模的模型，參數(shù)量分別為 150M，300M，600M 和 1.2B。在實測中，150M 模型可以達到 80Hz 的端到端推理速度，而最大的 1.2B 模型也能達到 40Hz，完全滿足與游戲環(huán)境實時交互的需求。

模型評估的標準主要是人工評估，評估環(huán)境選取自四款游戲

Steam 平臺上的 Quake，DOOM
Roblox 平臺上的 Hypershot，Be a Shark

模型行為評估

在 DOOM 和 Quake 中，每個官卡設(shè)置了四個不同的起始位置（Roblox 游戲因聯(lián)網(wǎng)機制無法固定起點），模型需從指定起點操作至下一個目標點。

人工評估采取了兩兩比較的方式：將 1.2B 模型生成的游戲錄像與另外三個相對較小的模型錄像進行人工比對。結(jié)果顯示，1.2B 模型分別以 80%，83% 與 75% 的偏好度優(yōu)于 150M，300M 和 600M 模型。下方視頻展示了對比片段：

指令遵循評估

研究還測試了 P2P 模型理解并執(zhí)行文本指令的能力。評估環(huán)境選擇了 Quake 的一個迷宮關(guān)卡，該關(guān)卡要求玩家依次點亮三個紅色按鈕才能開門。

這個任務對于僅憑借視覺信息的模型來說很有挑戰(zhàn)，因為 “按下按鈕” 和 “不按按鈕” 在行動軌跡上幾乎沒有區(qū)別。所以，未接受指令的模型通過率只有 20%。而當模型接收到 “按下紅色按鈕” 的文本指令后，模型的通過率可大幅提高到 80%，顯示出了優(yōu)秀的文本指令理解和執(zhí)行能力。

下方視頻對比了 1.2B 模型在有指令（左）和無指令（右）的情況下各運行 5 次的表現(xiàn)。

因果混淆分析

因果混淆是行為克隆中常見的難題，在高頻的交互環(huán)境中尤其突出。例如，一個簡單的策略就是直接復制上一幀的操作，這種模型在訓練時，但在真實環(huán)境測試時表現(xiàn)就會很差。

論文對此進行了系統(tǒng)的研究，發(fā)現(xiàn)擴大模型的規(guī)模與增加訓練模型的數(shù)據(jù)量能夠有效提升模型對因果關(guān)系的理解能力，使其不再依賴著淚虛假關(guān)聯(lián)，從而學到更好的操作策略。

如圖所示，隨著訓練數(shù)據(jù)增多與模型參數(shù)量增加，P2P 模型在因果推斷評估中的表現(xiàn)呈上升趨勢。

關(guān)于作者

本文第一作者岳煜光現(xiàn)任初創(chuàng)公司 Player2 研究員，負責游戲模型的開發(fā)和研究。在加入 Player2 之前，他曾先后在 Amazon 和 Twitter 擔任研究人員，致力于語言模型與推薦系統(tǒng)的相關(guān)研究。

岳煜光博士畢業(yè)于德州大學奧斯汀分校（UT-Austin），師從周明遠教授，研究方向是強化學習以及貝葉斯統(tǒng)計；此前他于加州大學洛杉磯分校（UCLA）取得碩士學位，本科畢業(yè)于復旦大學數(shù)學系。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.