Google DeepMind造出"全能游戲玩家"

2025-12-08 23:23:02　來源: 至頂AI實驗室

北京舉報

分享至

你有沒有想過，如果把一個人突然扔進(jìn)一個從未見過的電子游戲里，他能不能很快上手？一個熟練的《我的世界》玩家，第一次玩《塞爾達(dá)傳說》會是什么表現(xiàn)？人類之所以能做到這一點(diǎn)，是因為我們從一個游戲?qū)W到的移動、和物體互動、看懂菜單等技能，可以遷移到另一個游戲中。那么問題來了：人工智能能不能也擁有這種"舉一反三"的能力，在各種各樣的虛擬世界里自由穿行？

2025年12月，DeepMind的SIMA 2團(tuán)隊推出了一個基于Gemini模型打造的"全能型選手"，SIMA 2智能體。SIMA 2能夠在各種各樣的3D虛擬世界中理解環(huán)境、執(zhí)行任務(wù)、甚至與人類對話。更令人驚嘆的是，SIMA 2還展現(xiàn)出了一種珍貴的能力：它能在從未見過的新環(huán)境中自主學(xué)習(xí)新技能，不需要人類手把手教導(dǎo)。這項研究代表了通用人工智能發(fā)展道路上的重要一步，為我們展現(xiàn)了未來AI助手可能具備的潛力。

從"聽話的工具人"到"有想法的伙伴"

假如你雇了一個玩家來幫你玩游戲。這個幫手只能聽懂最簡單的指令，比如"走到那棵樹旁邊"或者"撿起地上的石頭"，那他充其量就是個執(zhí)行命令的工具。但如果這個幫手不僅能理解復(fù)雜的指示，還能主動思考、規(guī)劃路線、遇到困難時和你商量對策，那他就更像是一個真正的隊友了。

這正是SIMA 2相比它的前身SIMA 1最大的進(jìn)化。SIMA 1就像一個只會執(zhí)行簡單命令的工具人，你告訴它"去篝火那里"，它就去篝火那里，僅此而已。它不會主動解釋自己在做什么，也不會在遇到問題時征求你的意見。而SIMA 2則完全不同，它更像是一個有想法、會交流的游戲伙伴。

這種進(jìn)化是如何實現(xiàn)的呢？關(guān)鍵在于SIMA 2的"大腦"，它是基于Google的Gemini模型構(gòu)建的。你可以把Gemini想象成一個博學(xué)多才的學(xué)者，它閱讀過互聯(lián)網(wǎng)上海量的文字和圖片，因此對世界有著廣泛的了解。當(dāng)這位學(xué)者被訓(xùn)練成一個游戲玩家時，他不僅帶來了原本的知識儲備，還能用這些知識來理解游戲中的情境。比如，當(dāng)SIMA 2看到游戲畫面中出現(xiàn)一個紅色的小屋時，它能夠調(diào)用腦海中關(guān)于"紅色"和"房子"的概念來理解這個場景，而不是像之前的AI那樣需要從頭學(xué)習(xí)。

舉個具體的例子：如果你對SIMA 2說"去那棟顏色像熟番茄一樣的房子"，它會在心里思考，"成熟的番茄是紅色的，所以我要找的是紅色的房子"，然后準(zhǔn)確地走向那棟紅房子。這種在腦海中進(jìn)行推理的能力是SIMA 1完全不具備的。

一個通才學(xué)徒的成長之路

要理解SIMA 2是如何誕生的，我們可以把它想象成一個正在學(xué)習(xí)多種手藝的學(xué)徒。這個學(xué)徒的目標(biāo)是成為一個"全能工匠"，無論是木工、鐵匠還是裁縫的活兒，他都能上手。

這個學(xué)徒的訓(xùn)練分為幾個階段。首先是"觀摩學(xué)習(xí)"階段，他觀看了大量人類師傅是如何玩各種游戲的。這些游戲涵蓋了豐富多樣的類型：有維京生存游戲《英靈神殿》，玩家要在野外收集資源、建造房屋、對抗怪物；有太空沙盒游戲《太空工程師》，玩家扮演宇航員在小行星和行星上開采資源、建造飛船；還有《無人深空》這樣的宇宙探索游戲，以及《Satisfactory》這種工廠建設(shè)模擬器。通過觀察人類如何在這些截然不同的世界中操作，學(xué)徒學(xué)會了最基礎(chǔ)的"手藝"：怎么移動鼠標(biāo)、怎么按鍵盤、怎么看懂屏幕上的信息。

但光看師傅干活還不夠。一個優(yōu)秀的學(xué)徒還需要理解自己為什么要這樣做，以及如何向客戶解釋自己的工作。于是研究團(tuán)隊又準(zhǔn)備了一種特殊的"進(jìn)階教材"，他們稱之為"橋接數(shù)據(jù)"。這些數(shù)據(jù)不僅包含了游戲操作，還包含了對這些操作的解釋和推理。就好像師傅一邊干活一邊解釋："你看，我現(xiàn)在要去砍那棵樹，因為我們需要木材來建房子。我選擇這棵樹是因為它離我們最近。"通過學(xué)習(xí)這些帶解釋的示范，學(xué)徒不僅學(xué)會了怎么做，還學(xué)會了怎么思考和怎么表達(dá)。

最后是"實戰(zhàn)演練"階段。學(xué)徒被放到真實的游戲環(huán)境中，給他布置各種任務(wù)，然后根據(jù)完成情況給予獎勵或懲罰。如果他成功完成了任務(wù)，比如"收集10塊石頭"，他就會得到"做得好"的正面反饋；如果他失敗了或者做了很多無用功，他就會得到提醒需要改進(jìn)。通過這種強(qiáng)化學(xué)習(xí)的方式，學(xué)徒逐漸從一個笨手笨腳的新手成長為一個技藝嫻熟的工匠。

令人驚訝的成績單

那么，經(jīng)過這番訓(xùn)練，SIMA 2的表現(xiàn)究竟如何呢？研究團(tuán)隊設(shè)計了一系列測試來評估它的能力，結(jié)果相當(dāng)亮眼。

在它訓(xùn)練過的那些游戲環(huán)境中，SIMA 2的成功率幾乎是SIMA 1的兩倍。更具體地說，在需要人類評判員打分的任務(wù)中，SIMA 1只能完成大約33%的任務(wù)，而SIMA 2則達(dá)到了65%，非常接近人類玩家在相同條件下76%的成功率。在自動評估的任務(wù)中，這種進(jìn)步同樣顯著：SIMA 1的成功率是30%，而SIMA 2達(dá)到了66%，同樣逼近人類的78%水平。

研究團(tuán)隊還按照不同的技能類別分析了表現(xiàn)。這些技能包括：與環(huán)境中的物體互動、在地圖上導(dǎo)航移動、使用游戲菜單、裝備和使用工具、建造和制作物品、管理物品欄、收集資源，以及戰(zhàn)斗。SIMA 2在大多數(shù)類別中都取得了顯著進(jìn)步，在"互動"和"物品管理"等類別中幾乎追平了人類水平。不過，它在"戰(zhàn)斗"類任務(wù)中表現(xiàn)相對較弱，這主要是因為戰(zhàn)斗往往需要極快的反應(yīng)速度和精準(zhǔn)的操作，比如在《英靈神殿》中獵鹿，需要從下風(fēng)處悄悄接近，然后快速出擊，一旦鹿逃跑就要展開艱難的追逐。這種需要"運(yùn)動神經(jīng)"的任務(wù)對AI來說仍然是個挑戰(zhàn)。

真正的考驗：面對完全陌生的世界

如果一個學(xué)徒只會在自己學(xué)過的作坊里干活，那他充其量是個熟練工；但如果他能去到從未見過的新作坊，依然能應(yīng)對自如，那他才稱得上是真正的高手。研究團(tuán)隊正是用這種方式來檢驗SIMA 2的"通用能力"。

他們選了兩個SIMA 2在訓(xùn)練中從未接觸過的游戲來測試。第一個是《ASKA》，一款2024年才推出的維京生存游戲，玩家需要建設(shè)村莊、招募村民、分配任務(wù)。第二個是《我的世界》的MineDojo測試套件，包含50種不同的采礦、戰(zhàn)斗和制作任務(wù)。

測試結(jié)果非常有趣。在這兩個全新環(huán)境中，SIMA 2的表現(xiàn)大大超過了SIMA 1。以《ASKA》為例，SIMA 1基本只能完成最簡單的任務(wù)，比如打開地圖或撿起腳邊的物品。而SIMA 2則能完成更復(fù)雜的任務(wù)，比如找到篝火并走過去。更有意思的是，我們可以從SIMA 2的"自言自語"中看出它是如何思考的。當(dāng)被要求找篝火時，它會先說"我先看看周圍的環(huán)境"，然后當(dāng)遠(yuǎn)處出現(xiàn)一個火光時，它會說"那個可能是篝火，我去看看"，最后走到目的地時，它會確認(rèn)"我找到篝火了"。這種邊做邊想、邊想邊說的能力正是SIMA 2區(qū)別于前代產(chǎn)品的關(guān)鍵特征。

研究團(tuán)隊還做了一個更激進(jìn)的測試：讓SIMA 2在《The Gunk》這款完全不同風(fēng)格的游戲中行動。《The Gunk》是一款動作冒險游戲，玩家要用一個手持吸塵設(shè)備清理星球上的黑色污染物。這款游戲的畫面風(fēng)格、操作方式和游戲機(jī)制都與SIMA 2訓(xùn)練時接觸的游戲大相徑庭。然而，在人類的指導(dǎo)下，SIMA 2成功通過了游戲的前15到20分鐘，完成了掃描物體、攀爬臺階、跳過溝壑、清理污染區(qū)域等全新任務(wù)。它甚至學(xué)會了通過屏幕上顯示的"吸收"和"按住"提示來理解應(yīng)該如何操作新工具。

最令人震撼的測試來自于與Genie 3的結(jié)合。Genie 3是DeepMind開發(fā)的一個生成式世界模型，可以根據(jù)文字描述或初始圖像實時生成無限多樣的虛擬環(huán)境。研究團(tuán)隊用它生成了各種逼真的自然場景和城市環(huán)境，這些場景完全不是電子游戲的風(fēng)格，而更像是真實世界的照片。令人驚訝的是，盡管SIMA 2從未在這種逼真環(huán)境中訓(xùn)練過，它依然能夠?qū)Ш降街付ǖ哪繕?biāo)位置。這暗示了一種令人興奮的可能性：在虛擬游戲中學(xué)到的技能，或許真的可以遷移到更接近真實世界的場景中。

保住"聰明腦袋"：一個微妙的平衡

當(dāng)你專心學(xué)習(xí)一門新技能時，有時候會發(fā)現(xiàn)自己以前會的東西變得生疏了。鋼琴家轉(zhuǎn)學(xué)吉他，可能會發(fā)現(xiàn)自己的鋼琴技巧退步了。對于AI來說，這種現(xiàn)象叫做"災(zāi)難性遺忘"，當(dāng)模型被訓(xùn)練去做新任務(wù)時，它在原來任務(wù)上的能力可能會嚴(yán)重下降。

這對SIMA 2來說是一個特別棘手的問題。它的"大腦"Gemini原本是一個博學(xué)多才的通用模型，擅長回答問題、寫代碼、做數(shù)學(xué)題。但為了讓它學(xué)會在游戲里操控角色，研究團(tuán)隊需要給它"喂"大量的游戲操作數(shù)據(jù)。這些鼠標(biāo)移動、鍵盤按鍵的數(shù)據(jù)，與Gemini原本學(xué)習(xí)的文章、圖片截然不同。過去的研究發(fā)現(xiàn)，這種專門化訓(xùn)練往往會"摧毀"模型原有的對話和推理能力。

那么SIMA 2會不會變成一個"只會玩游戲的傻瓜"呢？研究團(tuán)隊做了測試。他們用三套標(biāo)準(zhǔn)測試來評估SIMA 2的"通用智力"：LiveCodeBench測試編程能力，AIME測試高級數(shù)學(xué)推理，GPQA Diamond測試科學(xué)知識問答。結(jié)果讓人松了一口氣：SIMA 2在編程測試上只比原始Gemini模型下降了不到10%，在數(shù)學(xué)和科學(xué)測試上下降了15%到25%。考慮到SIMA 2獲得了在3D世界中行動的全新能力，這種程度的"代價"是相當(dāng)值得的。

研究團(tuán)隊是如何做到這一點(diǎn)的呢？秘訣在于訓(xùn)練數(shù)據(jù)的"混合搭配"。他們沒有只給SIMA 2喂游戲數(shù)據(jù)，而是在訓(xùn)練過程中繼續(xù)混入Gemini原本的預(yù)訓(xùn)練數(shù)據(jù)。這就好像讓一個正在學(xué)習(xí)新手藝的學(xué)徒，每天也抽時間復(fù)習(xí)以前學(xué)過的知識，防止舊技能生銹。

當(dāng)學(xué)徒變成自學(xué)成才的大師

到目前為止，我們討論的都是SIMA 2如何在人類的指導(dǎo)下學(xué)習(xí)和成長。但研究團(tuán)隊實現(xiàn)了一個更加困難的目標(biāo)：讓SIMA 2能夠自己教自己。

要理解這件事的難度，我們需要先想想人類是怎么學(xué)習(xí)新游戲的。當(dāng)你第一次玩一款新游戲時，通常會有教程告訴你該做什么，或者你有一個明確的目標(biāo)可以追求。但如果把你扔進(jìn)一個完全陌生的開放世界，沒有任何指引，你怎么知道該做什么？更重要的是，你怎么知道自己做得好不好？

研究團(tuán)隊用Gemini模型解決了這兩個問題。首先，他們讓一個Gemini模型充當(dāng)"任務(wù)設(shè)定者"，觀察當(dāng)前的游戲畫面，然后想出一些SIMA 2可能完成的任務(wù)。比如，看到地上有漿果，它可能會提議"去收集那些漿果"；看到附近有建筑物，它可能會說"去探索那棟房子"。其次，他們讓另一個Gemini模型充當(dāng)"評判員"，觀看SIMA 2執(zhí)行任務(wù)的錄像，給出0到100的評分。評分標(biāo)準(zhǔn)不僅包括任務(wù)是否完成，還包括完成得是否高效，有沒有做很多無用功。

通過這套系統(tǒng)，SIMA 2可以在一個全新的環(huán)境中自我進(jìn)化。研究團(tuán)隊選擇了《ASKA》作為試驗場，因為這款游戲在SIMA 2的訓(xùn)練中從未出現(xiàn)過。一開始，SIMA 2在這個環(huán)境中表現(xiàn)平平，很多任務(wù)都完不成。但隨著一輪又一輪的自我訓(xùn)練，它的表現(xiàn)穩(wěn)步提升。到最后，SIMA 2在所有測試任務(wù)上的平均得分都超過了50分的"成功線"，在某些任務(wù)上甚至超過了經(jīng)驗豐富的人類玩家。

更令人印象深刻的是，SIMA 2在這個過程中學(xué)會了原本不會的全新技能。比如，它學(xué)會了《ASKA》的一個特有游戲機(jī)制，熄滅篝火，在SIMA 2訓(xùn)練過的其他游戲里根本不存在。它還學(xué)會了識別并導(dǎo)航到"雨水收集器"這種新物體，以及使用《ASKA》獨(dú)特的制作菜單。通過持續(xù)的自我訓(xùn)練，研究團(tuán)隊甚至讓SIMA 2在《ASKA》的科技樹上取得了顯著進(jìn)展，完成了從零開始建造一個庇護(hù)所所需的所有步驟。

這種"自我進(jìn)化"的能力為什么重要？因為它指向了人工智能研究的一個終極目標(biāo)：創(chuàng)造能夠永不停歇地學(xué)習(xí)和成長的系統(tǒng)。想象一下，如果AI能夠在沒有人類監(jiān)督的情況下，自己給自己出題、自己評判、自己進(jìn)步，那它的學(xué)習(xí)速度和廣度將遠(yuǎn)遠(yuǎn)超過任何需要人類參與的系統(tǒng)。研究團(tuán)隊認(rèn)為，SIMA 2展示的這種自我改進(jìn)能力是朝向這個宏大目標(biāo)邁出的重要一步。

至頂AI實驗室洞見

DeepMind為什么要花這么大力氣讓AI學(xué)會玩電子游戲呢？其實，他們的最終目標(biāo)不是游戲，而是現(xiàn)實世界。

電子游戲提供了一個得天獨(dú)厚的訓(xùn)練場地。它們足夠復(fù)雜，能夠考驗AI的視覺理解、空間導(dǎo)航、物體操作、計劃推理等各種能力；但又足夠安全，AI在游戲里犯錯不會造成任何真實損失。最重要的是，游戲世界可以無限量地生成訓(xùn)練數(shù)據(jù)，不像真實世界那樣數(shù)據(jù)收集困難且昂貴。

SIMA 2的成功表明，在游戲中學(xué)到的"具身智能"是可以遷移的，包括如何感知環(huán)境、做出行動、從結(jié)果中學(xué)習(xí)。一個在各種游戲中訓(xùn)練過的AI，面對它從未見過的新游戲時，不是從零開始，而是可以調(diào)用以前學(xué)到的通用技能。這種泛化能力是通往真正通用人工智能的關(guān)鍵。

研究團(tuán)隊在文章中謹(jǐn)慎地提出了這樣一種可能性：如果SIMA 2能夠在Genie 3生成的逼真環(huán)境中成功導(dǎo)航，那么從理論上講，它在虛擬游戲中學(xué)到的技能也許有一天能夠遷移到控制真實世界的機(jī)器人。當(dāng)然，這還是一個相當(dāng)遙遠(yuǎn)的愿景，但SIMA 2至少證明了：在虛擬世界中培養(yǎng)出來的具身能力，并不會被局限在虛擬世界中。

歸根結(jié)底，SIMA 2代表的是人工智能從"被動的知識庫"向"主動的行動者"轉(zhuǎn)變的重要一步。以前包括ChatGPT這樣的聊天機(jī)器人，主要是一動不動地回答問題、生成內(nèi)容。它們對世界的"理解"是靜態(tài)的、書本式的。而SIMA 2開始展示一種不同的智能：通過主動與環(huán)境互動來理解世界，通過行動的結(jié)果來學(xué)習(xí)因果關(guān)系，通過解決新問題來拓展自己的能力邊界。這種"具身化"的智能，或許才是通向真正理解世界的AI的必經(jīng)之路。

當(dāng)然SIMA 2遠(yuǎn)非完美，在需要精細(xì)運(yùn)動技能的任務(wù)中仍然吃力，它的推理能力在最困難的情況下仍會出錯，自我改進(jìn)速度也遠(yuǎn)不及人類學(xué)習(xí)新技能的速度。但作為一個概念驗證，它已經(jīng)足夠強(qiáng)大了。

論文地址：https://arxiv.org/abs/2512.04797v1

本文來自至頂AI實驗室，一個專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實驗室。致力于推動生成式AI在各個領(lǐng)域的創(chuàng)新與突破，挖掘其潛在的應(yīng)用場景，為企業(yè)和個人提供切實可行的解決方案。

Q&A

Q1：SIMA 2和普通的游戲AI有什么區(qū)別？

A：普通游戲AI通常是針對單一游戲?qū)ｉT設(shè)計的，只能在那個特定游戲中運(yùn)行。而SIMA 2是一個"通才型"選手，它在多種不同的游戲中訓(xùn)練，能夠把學(xué)到的技能遷移到全新的、從未見過的游戲環(huán)境中，甚至能在逼真的模擬世界里導(dǎo)航。

Q2：SIMA 2真的能像人類一樣聰明嗎？

A：SIMA 2在完成游戲任務(wù)方面接近人類水平，在某些簡單任務(wù)上甚至能超過人類新手。但它在需要快速反應(yīng)的戰(zhàn)斗類任務(wù)中表現(xiàn)較弱，面對全新環(huán)境時的學(xué)習(xí)速度也遠(yuǎn)不及人類。它更像是一個在特定領(lǐng)域非常能干的專家，而不是全方位的人類級智能。

Q3：這項研究跟我們普通人有什么關(guān)系？

A：雖然SIMA 2目前只是在游戲中展示能力，但它驗證了AI能夠?qū)W會"具身化"技能并遷移到新環(huán)境的可能性。未來，類似技術(shù)可能被用于訓(xùn)練能夠幫助人們完成家務(wù)、進(jìn)行遠(yuǎn)程操作或在復(fù)雜環(huán)境中工作的機(jī)器人助手。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.