DeepMind發(fā)布SIMA 2！打通「感知-推理-行動-反思」閉環(huán)

2026-01-09 11:22:46　來源: 新智元

北京舉報

分享至

新智元報道

編輯：peter東

【新智元導(dǎo)讀】Deepmind推出的SIMA 2，讓智能體能在虛擬環(huán)境（商業(yè)游戲）中，邊聊天邊進(jìn)行復(fù)雜的多模態(tài)推理。作為具身通用智能的原型，SIMA 2已從靜態(tài)數(shù)據(jù)集邁向無限程序化生成的訓(xùn)練場。

游戲領(lǐng)域的進(jìn)步，一直是可被視為邁向通用人工智能的前奏，從棋類到多人合作的即時戰(zhàn)略游戲，例如星際爭霸。

但之前的智能體在玩游戲的時候，需要程序開發(fā)者手動編程，2024年，Deepmind推出了SIMA（Scalable Instructable Multiworld Agent），允許智能體虛擬環(huán)境中遵循自然語言編寫的指令，例如你可以通過提示詞。讓游戲角色前往虛擬環(huán)境中的某地。

而近日新推出的SIMA 2，通過整合Gemini的多模態(tài)推理能力，讓SIMA正從一個指令執(zhí)行者演變?yōu)橐粋€互動游戲伙伴。

SIMA 2不僅能夠在虛擬世界中，遵循自然語言指令完成對應(yīng)的操作，它現(xiàn)在還可以思考自己的目標(biāo)，與用戶對話，并隨著時間的推移不斷自我提升。

一個與你互動的游戲搭子

相比只能通過「查看」屏幕并使用虛擬鍵盤和鼠標(biāo)，根據(jù)指令在固定游戲中執(zhí)行對應(yīng)操作的SIMA 1，SIMA 2的提升在于它不僅能夠響應(yīng)指令，還能夠經(jīng)由Gemini理解用戶的目標(biāo)，執(zhí)行復(fù)雜推理以達(dá)成目標(biāo)，并在游戲環(huán)境中熟練地進(jìn)行目標(biāo)導(dǎo)向的行為。這使得SIMA 2可以在它從未見過的游戲中完成任務(wù)，具體見下面視頻對SIMA 1和SIMA 2的對比。

除了執(zhí)行指令，SIMA 2還可以與用戶多輪對話，一邊推理自身行為及其所處環(huán)境，一邊描述其意圖執(zhí)行的操作，并詳細(xì)說明其完成目標(biāo)的步驟。這使得與SIMA 2中智能體的互動，感覺更像是與一個能夠理解當(dāng)前任務(wù)的伙伴協(xié)作，而不是在下達(dá)命令。

圖1：智能體-環(huán)境接口。智能體接收包含當(dāng)前指令的提示。根據(jù)最近的幀進(jìn)行條件建模，智能體輸出內(nèi)部推理、對話和動作，并在每一步指定要生成的模態(tài)類型。

SIMA的強大泛化能力

吹響邁向通用人工智能的號角

得益于Gemini模型本身的多模態(tài)特征，SIMA 2能夠理解多模態(tài)的提示詞，可以進(jìn)行多語言的對話，甚至能理解表情包。

圖2：SIMA 2 可以處理各種新穎且復(fù)雜的指令，包括分解指令以成功導(dǎo)航至特定房間。SIMA 2 還可以接受用戶手繪的草圖，以指定位置、路徑或物體。

圖3：通過使用Gemini，SIMA 2可以實現(xiàn)更復(fù)雜推理能力。例如上圖的智能體成功利用復(fù)雜圖表完成搭建營火的多步驟任務(wù)。整個過程中，智能體持續(xù)溝通其當(dāng)前行為和下一步計劃。

更關(guān)鍵的是，SIMA 2具有將所學(xué)概念遷移的能力。例如，在某一游戲中學(xué)到了如何「采礦」，而到了另一游戲中，就會用學(xué)到的技能來進(jìn)行「采集」。

這樣的遷移與泛化能力，是通用人工智能的基礎(chǔ)。事實上，由于這種能力，SIMA 2在廣泛的任務(wù)上的表現(xiàn)顯著接近人類玩家。

圖4：在所有訓(xùn)練游戲環(huán)境中中，SIMA 1、SIMA 2 和人類的任務(wù)完成成功率對比，SIMA 2相比SIMA 1平均成功率翻倍，在人類和自動評估時下均接近人類水平。

圖5：SIMA 2在多個技能類別中顯著優(yōu)于 SIMA 1。在交互和物體管理等類別中，SIMA 2的表現(xiàn)幾乎接近人類水平。然而，在資源收集和戰(zhàn)斗等其他類別中，SIMA 2 仍有提升空間。

為了測試 SIMA 2 的泛化能力極限，Deepmind的研究者將其與 Genie 3 結(jié)合使用，Genie 3 可以根據(jù)單個圖像或文本提示實時生成新的 3D 模擬世界。

當(dāng)SIMA 2在這些新生成的世界中進(jìn)行挑戰(zhàn)時，發(fā)現(xiàn)它能夠合理地定位自身，理解用戶指令，并朝著目標(biāo)采取有意義的行動，盡管它從未見過這些環(huán)境。它展現(xiàn)出了前所未有的適應(yīng)能力。例如下面視頻中，SIMA 2能夠引導(dǎo)蝴蝶在Genie 3生成的全新環(huán)境中，導(dǎo)航找到紅色的花朵。

可擴展的、多任務(wù)的自我提升

SIMA 2最令人興奮的新功能之一是其自我提升的能力。

在訓(xùn)練過程中，SIMA 2中的智能體通過試錯，以及將Gemini給的反饋作為指導(dǎo)，能夠執(zhí)行越來越復(fù)雜和新穎的任務(wù)。

例如，在最初從人類給的演示中學(xué)習(xí)之后，SIMA 2 可以通過自主游戲在新游戲中學(xué)習(xí)，無需額外示例，就能在之前未見過的世界中提升游戲技能。在后續(xù)訓(xùn)練中，SIMA 2 自己的經(jīng)驗數(shù)據(jù)可以用于訓(xùn)練下一個甚至更強大的智能體。

類似下圍棋的Alpha-zero能夠在完全不看人類棋譜的時候完成訓(xùn)練。研究者甚至能夠利用 SIMA 2的自我提升能力Genie新創(chuàng)建的環(huán)境中進(jìn)行訓(xùn)練，這將是向在多樣化生成世界中訓(xùn)練通用智能體的重要一步。

圖6：SIMA 2的自我提升循環(huán)始于Gemini為SIMA 2提供一個初始任務(wù)和對行為的獎勵估計。這些信息隨后被添加到自生成經(jīng)驗庫中，該經(jīng)驗庫用于后續(xù)版本的進(jìn)一步訓(xùn)練。

這種迭代改進(jìn)的良性循環(huán)為未來鋪平了道路，屆時智能體可以在極少的人類干預(yù)下學(xué)習(xí)和成長，成為具身智能中的開放性學(xué)習(xí)者。

圖7：在固定任務(wù)集上，SIMA 2的性能穩(wěn)步提升，逐漸接近，甚至在某些情況下超過了人類的得分。

由于可以在多種游戲環(huán)境中，執(zhí)行復(fù)雜的推理和操作，并通過自主游戲持續(xù)學(xué)習(xí)，SIMA 2是邁向人工通用智能（AGI）邁進(jìn)的重要一步，對機器人技術(shù)和通用AI智能體的未來發(fā)展具有重要意義。

SIMA 2的出現(xiàn)，說明了借助多樣化的多世界數(shù)據(jù)和Gemini等大模型強大的推理能力，可以成功地將許多特有系統(tǒng)的功能統(tǒng)一到一個連貫的通用智能智能體中，這為機器人領(lǐng)域的應(yīng)用提供了強有力的方向。

智能體在虛擬環(huán)境中所學(xué)到的技能，從導(dǎo)航和工具使用到協(xié)作任務(wù)執(zhí)行，都會是未來物理世界中 AI 助手所需技能的基本構(gòu)建模塊。

不過，研究者也承認(rèn)，SIMA 2中的智能體在處理超長時間跨度、復(fù)雜的任務(wù)時，仍然面臨需要大量多步驟推理和目標(biāo)驗證等挑戰(zhàn)。

此外，SIMA 2 對交互歷史的記憶相對較短。智能體必須使用有限的上下文窗口來實現(xiàn)低延遲的交互。而且通過鍵盤和鼠標(biāo)界面執(zhí)行精確的低級操作，以及在復(fù)雜的3D場景中實現(xiàn)穩(wěn)健的視覺理解，仍然是整個領(lǐng)域持續(xù)探索的開放性挑戰(zhàn)。

參考資料：

https://x.com/jparkerholder/status/2000543389918339412?s=20

秒追ASI

?點贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點亮星標(biāo)，鎖定新智元極速推送！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.