![]()
新智元報道
編輯:peter東
【新智元導(dǎo)讀】Deepmind推出的SIMA 2,讓智能體能在虛擬環(huán)境(商業(yè)游戲)中,邊聊天邊進(jìn)行復(fù)雜的多模態(tài)推理。作為具身通用智能的原型,SIMA 2已從靜態(tài)數(shù)據(jù)集邁向無限程序化生成的訓(xùn)練場。
游戲領(lǐng)域的進(jìn)步,一直是可被視為邁向通用人工智能的前奏,從棋類到多人合作的即時戰(zhàn)略游戲,例如星際爭霸。
但之前的智能體在玩游戲的時候,需要程序開發(fā)者手動編程,2024年,Deepmind推出了SIMA(Scalable Instructable Multiworld Agent),允許智能體虛擬環(huán)境中遵循自然語言編寫的指令,例如你可以通過提示詞。讓游戲角色前往虛擬環(huán)境中的某地。
而近日新推出的SIMA 2,通過整合Gemini的多模態(tài)推理能力,讓SIMA正從一個指令執(zhí)行者演變?yōu)橐粋€互動游戲伙伴。
SIMA 2不僅能夠在虛擬世界中,遵循自然語言指令完成對應(yīng)的操作,它現(xiàn)在還可以思考自己的目標(biāo),與用戶對話,并隨著時間的推移不斷自我提升。
![]()
一個與你互動的游戲搭子
相比只能通過「查看」屏幕并使用虛擬鍵盤和鼠標(biāo),根據(jù)指令在固定游戲中執(zhí)行對應(yīng)操作的SIMA 1,SIMA 2的提升在于它不僅能夠響應(yīng)指令,還能夠經(jīng)由Gemini理解用戶的目標(biāo),執(zhí)行復(fù)雜推理以達(dá)成目標(biāo),并在游戲環(huán)境中熟練地進(jìn)行目標(biāo)導(dǎo)向的行為。這使得SIMA 2可以在它從未見過的游戲中完成任務(wù),具體見下面視頻對SIMA 1和SIMA 2的對比。
除了執(zhí)行指令,SIMA 2還可以與用戶多輪對話,一邊推理自身行為及其所處環(huán)境,一邊描述其意圖執(zhí)行的操作,并詳細(xì)說明其完成目標(biāo)的步驟。這使得與SIMA 2中智能體的互動,感覺更像是與一個能夠理解當(dāng)前任務(wù)的伙伴協(xié)作,而不是在下達(dá)命令。
![]()
圖1:智能體-環(huán)境接口。智能體接收包含當(dāng)前指令的提示。根據(jù)最近的幀進(jìn)行條件建模,智能體輸出內(nèi)部推理、對話和動作,并在每一步指定要生成的模態(tài)類型。
SIMA的強大泛化能力
吹響邁向通用人工智能的號角
得益于Gemini模型本身的多模態(tài)特征,SIMA 2能夠理解多模態(tài)的提示詞,可以進(jìn)行多語言的對話,甚至能理解表情包。
![]()
圖2:SIMA 2 可以處理各種新穎且復(fù)雜的指令,包括分解指令以成功導(dǎo)航至特定房間。SIMA 2 還可以接受用戶手繪的草圖,以指定位置、路徑或物體。
![]()
圖3:通過使用Gemini,SIMA 2可以實現(xiàn)更復(fù)雜推理能力。例如上圖的智能體成功利用復(fù)雜圖表完成搭建營火的多步驟任務(wù)。整個過程中,智能體持續(xù)溝通其當(dāng)前行為和下一步計劃。
更關(guān)鍵的是,SIMA 2具有將所學(xué)概念遷移的能力。例如,在某一游戲中學(xué)到了如何「采礦」,而到了另一游戲中,就會用學(xué)到的技能來進(jìn)行「采集」。
這樣的遷移與泛化能力,是通用人工智能的基礎(chǔ)。事實上,由于這種能力,SIMA 2在廣泛的任務(wù)上的表現(xiàn)顯著接近人類玩家。
![]()
圖4:在所有訓(xùn)練游戲環(huán)境中中,SIMA 1、SIMA 2 和人類的任務(wù)完成成功率對比,SIMA 2相比SIMA 1平均成功率翻倍,在人類和自動評估時下均接近人類水平。
![]()
圖5:SIMA 2在多個技能類別中顯著優(yōu)于 SIMA 1。在交互和物體管理等類別中,SIMA 2的表現(xiàn)幾乎接近人類水平。然而,在資源收集和戰(zhàn)斗等其他類別中,SIMA 2 仍有提升空間。
為了測試 SIMA 2 的泛化能力極限,Deepmind的研究者將其與 Genie 3 結(jié)合使用,Genie 3 可以根據(jù)單個圖像或文本提示實時生成新的 3D 模擬世界。
當(dāng)SIMA 2在這些新生成的世界中進(jìn)行挑戰(zhàn)時,發(fā)現(xiàn)它能夠合理地定位自身,理解用戶指令,并朝著目標(biāo)采取有意義的行動,盡管它從未見過這些環(huán)境。它展現(xiàn)出了前所未有的適應(yīng)能力。例如下面視頻中,SIMA 2能夠引導(dǎo)蝴蝶在Genie 3生成的全新環(huán)境中,導(dǎo)航找到紅色的花朵。
可擴展的、多任務(wù)的自我提升
SIMA 2最令人興奮的新功能之一是其自我提升的能力。
在訓(xùn)練過程中,SIMA 2中的智能體通過試錯,以及將Gemini給的反饋作為指導(dǎo),能夠執(zhí)行越來越復(fù)雜和新穎的任務(wù)。
例如,在最初從人類給的演示中學(xué)習(xí)之后,SIMA 2 可以通過自主游戲在新游戲中學(xué)習(xí),無需額外示例,就能在之前未見過的世界中提升游戲技能。在后續(xù)訓(xùn)練中,SIMA 2 自己的經(jīng)驗數(shù)據(jù)可以用于訓(xùn)練下一個甚至更強大的智能體。
類似下圍棋的Alpha-zero能夠在完全不看人類棋譜的時候完成訓(xùn)練。研究者甚至能夠利用 SIMA 2的自我提升能力Genie新創(chuàng)建的環(huán)境中進(jìn)行訓(xùn)練,這將是向在多樣化生成世界中訓(xùn)練通用智能體的重要一步。
![]()
圖6:SIMA 2的自我提升循環(huán)始于Gemini為SIMA 2提供一個初始任務(wù)和對行為的獎勵估計。這些信息隨后被添加到自生成經(jīng)驗庫中,該經(jīng)驗庫用于后續(xù)版本的進(jìn)一步訓(xùn)練。
這種迭代改進(jìn)的良性循環(huán)為未來鋪平了道路,屆時智能體可以在極少的人類干預(yù)下學(xué)習(xí)和成長,成為具身智能中的開放性學(xué)習(xí)者。
![]()
圖7:在固定任務(wù)集上,SIMA 2的性能穩(wěn)步提升,逐漸接近,甚至在某些情況下超過了人類的得分。
由于可以在多種游戲環(huán)境中,執(zhí)行復(fù)雜的推理和操作,并通過自主游戲持續(xù)學(xué)習(xí),SIMA 2是邁向人工通用智能(AGI)邁進(jìn)的重要一步,對機器人技術(shù)和通用AI智能體的未來發(fā)展具有重要意義。
SIMA 2的出現(xiàn),說明了借助多樣化的多世界數(shù)據(jù)和Gemini等大模型強大的推理能力,可以成功地將許多特有系統(tǒng)的功能統(tǒng)一到一個連貫的通用智能智能體中,這為機器人領(lǐng)域的應(yīng)用提供了強有力的方向。
智能體在虛擬環(huán)境中所學(xué)到的技能,從導(dǎo)航和工具使用到協(xié)作任務(wù)執(zhí)行,都會是未來物理世界中 AI 助手所需技能的基本構(gòu)建模塊。
不過,研究者也承認(rèn),SIMA 2中的智能體在處理超長時間跨度、復(fù)雜的任務(wù)時,仍然面臨需要大量多步驟推理和目標(biāo)驗證等挑戰(zhàn)。
此外,SIMA 2 對交互歷史的記憶相對較短。智能體必須使用有限的上下文窗口來實現(xiàn)低延遲的交互。而且通過鍵盤和鼠標(biāo)界面執(zhí)行精確的低級操作,以及在復(fù)雜的3D場景中實現(xiàn)穩(wěn)健的視覺理解,仍然是整個領(lǐng)域持續(xù)探索的開放性挑戰(zhàn)。
參考資料:
https://x.com/jparkerholder/status/2000543389918339412?s=20
秒追ASI
?點贊、轉(zhuǎn)發(fā)、在看一鍵三連?
點亮星標(biāo),鎖定新智元極速推送!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.