你有沒有想過,如果把一個人突然扔進(jìn)一個從未見過的電子游戲里,他能不能很快上手?一個熟練的《我的世界》玩家,第一次玩《塞爾達(dá)傳說》會是什么表現(xiàn)?人類之所以能做到這一點(diǎn),是因為我們從一個游戲?qū)W到的移動、和物體互動、看懂菜單等技能,可以遷移到另一個游戲中。那么問題來了:人工智能能不能也擁有這種"舉一反三"的能力,在各種各樣的虛擬世界里自由穿行?
![]()
2025年12月,DeepMind的SIMA 2團(tuán)隊推出了一個基于Gemini模型打造的"全能型選手",SIMA 2智能體。SIMA 2能夠在各種各樣的3D虛擬世界中理解環(huán)境、執(zhí)行任務(wù)、甚至與人類對話。更令人驚嘆的是,SIMA 2還展現(xiàn)出了一種珍貴的能力:它能在從未見過的新環(huán)境中自主學(xué)習(xí)新技能,不需要人類手把手教導(dǎo)。這項研究代表了通用人工智能發(fā)展道路上的重要一步,為我們展現(xiàn)了未來AI助手可能具備的潛力。
從"聽話的工具人"到"有想法的伙伴"
假如你雇了一個玩家來幫你玩游戲。這個幫手只能聽懂最簡單的指令,比如"走到那棵樹旁邊"或者"撿起地上的石頭",那他充其量就是個執(zhí)行命令的工具。但如果這個幫手不僅能理解復(fù)雜的指示,還能主動思考、規(guī)劃路線、遇到困難時和你商量對策,那他就更像是一個真正的隊友了。
這正是SIMA 2相比它的前身SIMA 1最大的進(jìn)化。SIMA 1就像一個只會執(zhí)行簡單命令的工具人,你告訴它"去篝火那里",它就去篝火那里,僅此而已。它不會主動解釋自己在做什么,也不會在遇到問題時征求你的意見。而SIMA 2則完全不同,它更像是一個有想法、會交流的游戲伙伴。
這種進(jìn)化是如何實現(xiàn)的呢?關(guān)鍵在于SIMA 2的"大腦",它是基于Google的Gemini模型構(gòu)建的。你可以把Gemini想象成一個博學(xué)多才的學(xué)者,它閱讀過互聯(lián)網(wǎng)上海量的文字和圖片,因此對世界有著廣泛的了解。當(dāng)這位學(xué)者被訓(xùn)練成一個游戲玩家時,他不僅帶來了原本的知識儲備,還能用這些知識來理解游戲中的情境。比如,當(dāng)SIMA 2看到游戲畫面中出現(xiàn)一個紅色的小屋時,它能夠調(diào)用腦海中關(guān)于"紅色"和"房子"的概念來理解這個場景,而不是像之前的AI那樣需要從頭學(xué)習(xí)。
![]()
舉個具體的例子:如果你對SIMA 2說"去那棟顏色像熟番茄一樣的房子",它會在心里思考,"成熟的番茄是紅色的,所以我要找的是紅色的房子",然后準(zhǔn)確地走向那棟紅房子。這種在腦海中進(jìn)行推理的能力是SIMA 1完全不具備的。
一個通才學(xué)徒的成長之路
要理解SIMA 2是如何誕生的,我們可以把它想象成一個正在學(xué)習(xí)多種手藝的學(xué)徒。這個學(xué)徒的目標(biāo)是成為一個"全能工匠",無論是木工、鐵匠還是裁縫的活兒,他都能上手。
![]()
這個學(xué)徒的訓(xùn)練分為幾個階段。首先是"觀摩學(xué)習(xí)"階段,他觀看了大量人類師傅是如何玩各種游戲的。這些游戲涵蓋了豐富多樣的類型:有維京生存游戲《英靈神殿》,玩家要在野外收集資源、建造房屋、對抗怪物;有太空沙盒游戲《太空工程師》,玩家扮演宇航員在小行星和行星上開采資源、建造飛船;還有《無人深空》這樣的宇宙探索游戲,以及《Satisfactory》這種工廠建設(shè)模擬器。通過觀察人類如何在這些截然不同的世界中操作,學(xué)徒學(xué)會了最基礎(chǔ)的"手藝":怎么移動鼠標(biāo)、怎么按鍵盤、怎么看懂屏幕上的信息。
![]()
但光看師傅干活還不夠。一個優(yōu)秀的學(xué)徒還需要理解自己為什么要這樣做,以及如何向客戶解釋自己的工作。于是研究團(tuán)隊又準(zhǔn)備了一種特殊的"進(jìn)階教材",他們稱之為"橋接數(shù)據(jù)"。這些數(shù)據(jù)不僅包含了游戲操作,還包含了對這些操作的解釋和推理。就好像師傅一邊干活一邊解釋:"你看,我現(xiàn)在要去砍那棵樹,因為我們需要木材來建房子。我選擇這棵樹是因為它離我們最近。"通過學(xué)習(xí)這些帶解釋的示范,學(xué)徒不僅學(xué)會了怎么做,還學(xué)會了怎么思考和怎么表達(dá)。
最后是"實戰(zhàn)演練"階段。學(xué)徒被放到真實的游戲環(huán)境中,給他布置各種任務(wù),然后根據(jù)完成情況給予獎勵或懲罰。如果他成功完成了任務(wù),比如"收集10塊石頭",他就會得到"做得好"的正面反饋;如果他失敗了或者做了很多無用功,他就會得到提醒需要改進(jìn)。通過這種強(qiáng)化學(xué)習(xí)的方式,學(xué)徒逐漸從一個笨手笨腳的新手成長為一個技藝嫻熟的工匠。
令人驚訝的成績單
那么,經(jīng)過這番訓(xùn)練,SIMA 2的表現(xiàn)究竟如何呢?研究團(tuán)隊設(shè)計了一系列測試來評估它的能力,結(jié)果相當(dāng)亮眼。
![]()
在它訓(xùn)練過的那些游戲環(huán)境中,SIMA 2的成功率幾乎是SIMA 1的兩倍。更具體地說,在需要人類評判員打分的任務(wù)中,SIMA 1只能完成大約33%的任務(wù),而SIMA 2則達(dá)到了65%,非常接近人類玩家在相同條件下76%的成功率。在自動評估的任務(wù)中,這種進(jìn)步同樣顯著:SIMA 1的成功率是30%,而SIMA 2達(dá)到了66%,同樣逼近人類的78%水平。
研究團(tuán)隊還按照不同的技能類別分析了表現(xiàn)。這些技能包括:與環(huán)境中的物體互動、在地圖上導(dǎo)航移動、使用游戲菜單、裝備和使用工具、建造和制作物品、管理物品欄、收集資源,以及戰(zhàn)斗。SIMA 2在大多數(shù)類別中都取得了顯著進(jìn)步,在"互動"和"物品管理"等類別中幾乎追平了人類水平。不過,它在"戰(zhàn)斗"類任務(wù)中表現(xiàn)相對較弱,這主要是因為戰(zhàn)斗往往需要極快的反應(yīng)速度和精準(zhǔn)的操作,比如在《英靈神殿》中獵鹿,需要從下風(fēng)處悄悄接近,然后快速出擊,一旦鹿逃跑就要展開艱難的追逐。這種需要"運(yùn)動神經(jīng)"的任務(wù)對AI來說仍然是個挑戰(zhàn)。
真正的考驗:面對完全陌生的世界
如果一個學(xué)徒只會在自己學(xué)過的作坊里干活,那他充其量是個熟練工;但如果他能去到從未見過的新作坊,依然能應(yīng)對自如,那他才稱得上是真正的高手。研究團(tuán)隊正是用這種方式來檢驗SIMA 2的"通用能力"。
他們選了兩個SIMA 2在訓(xùn)練中從未接觸過的游戲來測試。第一個是《ASKA》,一款2024年才推出的維京生存游戲,玩家需要建設(shè)村莊、招募村民、分配任務(wù)。第二個是《我的世界》的MineDojo測試套件,包含50種不同的采礦、戰(zhàn)斗和制作任務(wù)。
![]()
測試結(jié)果非常有趣。在這兩個全新環(huán)境中,SIMA 2的表現(xiàn)大大超過了SIMA 1。以《ASKA》為例,SIMA 1基本只能完成最簡單的任務(wù),比如打開地圖或撿起腳邊的物品。而SIMA 2則能完成更復(fù)雜的任務(wù),比如找到篝火并走過去。更有意思的是,我們可以從SIMA 2的"自言自語"中看出它是如何思考的。當(dāng)被要求找篝火時,它會先說"我先看看周圍的環(huán)境",然后當(dāng)遠(yuǎn)處出現(xiàn)一個火光時,它會說"那個可能是篝火,我去看看",最后走到目的地時,它會確認(rèn)"我找到篝火了"。這種邊做邊想、邊想邊說的能力正是SIMA 2區(qū)別于前代產(chǎn)品的關(guān)鍵特征。
![]()
研究團(tuán)隊還做了一個更激進(jìn)的測試:讓SIMA 2在《The Gunk》這款完全不同風(fēng)格的游戲中行動。《The Gunk》是一款動作冒險游戲,玩家要用一個手持吸塵設(shè)備清理星球上的黑色污染物。這款游戲的畫面風(fēng)格、操作方式和游戲機(jī)制都與SIMA 2訓(xùn)練時接觸的游戲大相徑庭。然而,在人類的指導(dǎo)下,SIMA 2成功通過了游戲的前15到20分鐘,完成了掃描物體、攀爬臺階、跳過溝壑、清理污染區(qū)域等全新任務(wù)。它甚至學(xué)會了通過屏幕上顯示的"吸收"和"按住"提示來理解應(yīng)該如何操作新工具。
![]()
最令人震撼的測試來自于與Genie 3的結(jié)合。Genie 3是DeepMind開發(fā)的一個生成式世界模型,可以根據(jù)文字描述或初始圖像實時生成無限多樣的虛擬環(huán)境。研究團(tuán)隊用它生成了各種逼真的自然場景和城市環(huán)境,這些場景完全不是電子游戲的風(fēng)格,而更像是真實世界的照片。令人驚訝的是,盡管SIMA 2從未在這種逼真環(huán)境中訓(xùn)練過,它依然能夠?qū)Ш降街付ǖ哪繕?biāo)位置。這暗示了一種令人興奮的可能性:在虛擬游戲中學(xué)到的技能,或許真的可以遷移到更接近真實世界的場景中。
保住"聰明腦袋":一個微妙的平衡
當(dāng)你專心學(xué)習(xí)一門新技能時,有時候會發(fā)現(xiàn)自己以前會的東西變得生疏了。鋼琴家轉(zhuǎn)學(xué)吉他,可能會發(fā)現(xiàn)自己的鋼琴技巧退步了。對于AI來說,這種現(xiàn)象叫做"災(zāi)難性遺忘",當(dāng)模型被訓(xùn)練去做新任務(wù)時,它在原來任務(wù)上的能力可能會嚴(yán)重下降。
這對SIMA 2來說是一個特別棘手的問題。它的"大腦"Gemini原本是一個博學(xué)多才的通用模型,擅長回答問題、寫代碼、做數(shù)學(xué)題。但為了讓它學(xué)會在游戲里操控角色,研究團(tuán)隊需要給它"喂"大量的游戲操作數(shù)據(jù)。這些鼠標(biāo)移動、鍵盤按鍵的數(shù)據(jù),與Gemini原本學(xué)習(xí)的文章、圖片截然不同。過去的研究發(fā)現(xiàn),這種專門化訓(xùn)練往往會"摧毀"模型原有的對話和推理能力。
![]()
那么SIMA 2會不會變成一個"只會玩游戲的傻瓜"呢?研究團(tuán)隊做了測試。他們用三套標(biāo)準(zhǔn)測試來評估SIMA 2的"通用智力":LiveCodeBench測試編程能力,AIME測試高級數(shù)學(xué)推理,GPQA Diamond測試科學(xué)知識問答。結(jié)果讓人松了一口氣:SIMA 2在編程測試上只比原始Gemini模型下降了不到10%,在數(shù)學(xué)和科學(xué)測試上下降了15%到25%。考慮到SIMA 2獲得了在3D世界中行動的全新能力,這種程度的"代價"是相當(dāng)值得的。
研究團(tuán)隊是如何做到這一點(diǎn)的呢?秘訣在于訓(xùn)練數(shù)據(jù)的"混合搭配"。他們沒有只給SIMA 2喂游戲數(shù)據(jù),而是在訓(xùn)練過程中繼續(xù)混入Gemini原本的預(yù)訓(xùn)練數(shù)據(jù)。這就好像讓一個正在學(xué)習(xí)新手藝的學(xué)徒,每天也抽時間復(fù)習(xí)以前學(xué)過的知識,防止舊技能生銹。
當(dāng)學(xué)徒變成自學(xué)成才的大師
到目前為止,我們討論的都是SIMA 2如何在人類的指導(dǎo)下學(xué)習(xí)和成長。但研究團(tuán)隊實現(xiàn)了一個更加困難的目標(biāo):讓SIMA 2能夠自己教自己。
要理解這件事的難度,我們需要先想想人類是怎么學(xué)習(xí)新游戲的。當(dāng)你第一次玩一款新游戲時,通常會有教程告訴你該做什么,或者你有一個明確的目標(biāo)可以追求。但如果把你扔進(jìn)一個完全陌生的開放世界,沒有任何指引,你怎么知道該做什么?更重要的是,你怎么知道自己做得好不好?
![]()
研究團(tuán)隊用Gemini模型解決了這兩個問題。首先,他們讓一個Gemini模型充當(dāng)"任務(wù)設(shè)定者",觀察當(dāng)前的游戲畫面,然后想出一些SIMA 2可能完成的任務(wù)。比如,看到地上有漿果,它可能會提議"去收集那些漿果";看到附近有建筑物,它可能會說"去探索那棟房子"。其次,他們讓另一個Gemini模型充當(dāng)"評判員",觀看SIMA 2執(zhí)行任務(wù)的錄像,給出0到100的評分。評分標(biāo)準(zhǔn)不僅包括任務(wù)是否完成,還包括完成得是否高效,有沒有做很多無用功。
通過這套系統(tǒng),SIMA 2可以在一個全新的環(huán)境中自我進(jìn)化。研究團(tuán)隊選擇了《ASKA》作為試驗場,因為這款游戲在SIMA 2的訓(xùn)練中從未出現(xiàn)過。一開始,SIMA 2在這個環(huán)境中表現(xiàn)平平,很多任務(wù)都完不成。但隨著一輪又一輪的自我訓(xùn)練,它的表現(xiàn)穩(wěn)步提升。到最后,SIMA 2在所有測試任務(wù)上的平均得分都超過了50分的"成功線",在某些任務(wù)上甚至超過了經(jīng)驗豐富的人類玩家。
更令人印象深刻的是,SIMA 2在這個過程中學(xué)會了原本不會的全新技能。比如,它學(xué)會了《ASKA》的一個特有游戲機(jī)制,熄滅篝火,在SIMA 2訓(xùn)練過的其他游戲里根本不存在。它還學(xué)會了識別并導(dǎo)航到"雨水收集器"這種新物體,以及使用《ASKA》獨(dú)特的制作菜單。通過持續(xù)的自我訓(xùn)練,研究團(tuán)隊甚至讓SIMA 2在《ASKA》的科技樹上取得了顯著進(jìn)展,完成了從零開始建造一個庇護(hù)所所需的所有步驟。
這種"自我進(jìn)化"的能力為什么重要?因為它指向了人工智能研究的一個終極目標(biāo):創(chuàng)造能夠永不停歇地學(xué)習(xí)和成長的系統(tǒng)。想象一下,如果AI能夠在沒有人類監(jiān)督的情況下,自己給自己出題、自己評判、自己進(jìn)步,那它的學(xué)習(xí)速度和廣度將遠(yuǎn)遠(yuǎn)超過任何需要人類參與的系統(tǒng)。研究團(tuán)隊認(rèn)為,SIMA 2展示的這種自我改進(jìn)能力是朝向這個宏大目標(biāo)邁出的重要一步。
至頂AI實驗室洞見
DeepMind為什么要花這么大力氣讓AI學(xué)會玩電子游戲呢?其實,他們的最終目標(biāo)不是游戲,而是現(xiàn)實世界。
電子游戲提供了一個得天獨(dú)厚的訓(xùn)練場地。它們足夠復(fù)雜,能夠考驗AI的視覺理解、空間導(dǎo)航、物體操作、計劃推理等各種能力;但又足夠安全,AI在游戲里犯錯不會造成任何真實損失。最重要的是,游戲世界可以無限量地生成訓(xùn)練數(shù)據(jù),不像真實世界那樣數(shù)據(jù)收集困難且昂貴。
SIMA 2的成功表明,在游戲中學(xué)到的"具身智能"是可以遷移的,包括如何感知環(huán)境、做出行動、從結(jié)果中學(xué)習(xí)。一個在各種游戲中訓(xùn)練過的AI,面對它從未見過的新游戲時,不是從零開始,而是可以調(diào)用以前學(xué)到的通用技能。這種泛化能力是通往真正通用人工智能的關(guān)鍵。
研究團(tuán)隊在文章中謹(jǐn)慎地提出了這樣一種可能性:如果SIMA 2能夠在Genie 3生成的逼真環(huán)境中成功導(dǎo)航,那么從理論上講,它在虛擬游戲中學(xué)到的技能也許有一天能夠遷移到控制真實世界的機(jī)器人。當(dāng)然,這還是一個相當(dāng)遙遠(yuǎn)的愿景,但SIMA 2至少證明了:在虛擬世界中培養(yǎng)出來的具身能力,并不會被局限在虛擬世界中。
歸根結(jié)底,SIMA 2代表的是人工智能從"被動的知識庫"向"主動的行動者"轉(zhuǎn)變的重要一步。以前包括ChatGPT這樣的聊天機(jī)器人,主要是一動不動地回答問題、生成內(nèi)容。它們對世界的"理解"是靜態(tài)的、書本式的。而SIMA 2開始展示一種不同的智能:通過主動與環(huán)境互動來理解世界,通過行動的結(jié)果來學(xué)習(xí)因果關(guān)系,通過解決新問題來拓展自己的能力邊界。這種"具身化"的智能,或許才是通向真正理解世界的AI的必經(jīng)之路。
當(dāng)然SIMA 2遠(yuǎn)非完美,在需要精細(xì)運(yùn)動技能的任務(wù)中仍然吃力,它的推理能力在最困難的情況下仍會出錯,自我改進(jìn)速度也遠(yuǎn)不及人類學(xué)習(xí)新技能的速度。但作為一個概念驗證,它已經(jīng)足夠強(qiáng)大了。
論文地址:https://arxiv.org/abs/2512.04797v1
本文來自至頂AI實驗室,一個專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實驗室。致力于推動生成式AI在各個領(lǐng)域的創(chuàng)新與突破,挖掘其潛在的應(yīng)用場景,為企業(yè)和個人提供切實可行的解決方案。
Q&A
Q1:SIMA 2和普通的游戲AI有什么區(qū)別?
A:普通游戲AI通常是針對單一游戲?qū)iT設(shè)計的,只能在那個特定游戲中運(yùn)行。而SIMA 2是一個"通才型"選手,它在多種不同的游戲中訓(xùn)練,能夠把學(xué)到的技能遷移到全新的、從未見過的游戲環(huán)境中,甚至能在逼真的模擬世界里導(dǎo)航。
Q2:SIMA 2真的能像人類一樣聰明嗎?
A:SIMA 2在完成游戲任務(wù)方面接近人類水平,在某些簡單任務(wù)上甚至能超過人類新手。但它在需要快速反應(yīng)的戰(zhàn)斗類任務(wù)中表現(xiàn)較弱,面對全新環(huán)境時的學(xué)習(xí)速度也遠(yuǎn)不及人類。它更像是一個在特定領(lǐng)域非常能干的專家,而不是全方位的人類級智能。
Q3:這項研究跟我們普通人有什么關(guān)系?
A:雖然SIMA 2目前只是在游戲中展示能力,但它驗證了AI能夠?qū)W會"具身化"技能并遷移到新環(huán)境的可能性。未來,類似技術(shù)可能被用于訓(xùn)練能夠幫助人們完成家務(wù)、進(jìn)行遠(yuǎn)程操作或在復(fù)雜環(huán)境中工作的機(jī)器人助手。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.