近日,香港城市大學博士生方政儒和所在團隊讓一群智能體在虛擬迷宮里共同探索,只給它們一個極其簡單的目標——那就是學會預測同伴下一秒會看到什么以及會走到哪里。結果發現這些智能體不僅學會了高效合作,還在自己的“大腦”里自發形成了類似動物大腦中的“地圖細胞”,甚至發明了一套只有它們才懂的秘密語言。
他告訴 DeepTech:“我們的實驗表明,智能體在僅有第一人稱視角與嚴格帶寬限制下,不僅形成了類似網格細胞的空間表征與具備明確語義的離散符號系統,還分化出類似社會位置細胞的功能神經元,顯著提升了任務成功率與通信效率。”
這項研究為理解社會位置細胞的產生提供了計算模型,也為多機器人系統在低帶寬或通信受限場景中的高效協作提供了新思路。這意味著基于該成果不僅能讓機器人變得更加聰明,還能幫助我們理解人類大腦是如何學習和如何社交的,未來甚至能夠用于機器人倉庫搬運和災難救援等許多地方。
![]()
圖 | 方政儒(來源:方政儒)
在 Agent“大腦”里長出網絡地圖
大多數人都使用過手機上的地圖軟件。人類在一定程度上依靠地圖認路,而科學家發現老鼠和蝙蝠等動物的大腦中也有一種腦內地圖。2014 年,幾位科學家因為發現了大腦中的 GPS 細胞,也就是位置細胞和網格細胞,獲得了當年的諾貝爾獎。這些細胞等于是大腦里的導航儀:位置細胞可以告訴你現在在哪兒,網格細胞則像坐標紙一樣幫助我們測量走了多遠。
有趣的是,科學家后來還在蝙蝠大腦里發現了社會位置細胞,這種細胞能夠記住同伴的位置,讓動物們在覓食或者躲避天敵時能夠默契地配合。
![]()
(來源:左圖 Edwards (2018),右圖 Omer et al. (2018))
那么,Agent 能不能也長出這樣的腦細胞?本次研究中,方政儒等人并沒有教給 Agent 任何關于地圖的知識,只是讓它們在迷宮里一邊走、一邊試著預測自己和同伴接下來會看到什么。結果發現,Agent 的神經網絡中真的自發出現了一種類似網格細胞的激活模式,并呈現出整齊的六邊形圖案,就像蜜蜂巢穴一樣。
這種圖案和動物大腦中的網格細胞非常相似。更重要的是,如果人為地關掉這些細胞,Agent 就會突然不認路了。這說明,這些自發形成的結構對于 Agent 構建空間記憶至關重要。
![]()
(來源:方政儒、郭彧)
Agent 之間也會互相說悄悄話
但是,假如兩個 Agent 一起在迷宮里尋找目標,它們該如何交流呢?你可能會想:它們可以隨時互相發送所看到的一切信息。然而問題來了,如果迷宮很大或者信號很差,這時傳遞太多信息就會非常慢和非常耗電。
研究中,方政儒等人給 Agent 設置了這樣一個挑戰:讓它們只能傳遞很少的信息,以此觀察它們是如何合作的。結果發現這些 Agent 居然自己發明了一套高效的溝通模式:它們并不會不停地說話,而是只在最需要的時候使用很短的暗號進行交流。
比如,當一個 Agent 走進死胡同的時候,它會向其他 Agent 發出此路不通的信號;當 Agent 走到一個關鍵岔口的時候,它會發出一個“這里有三個方向可選”的信號。
更聰明的是,Agent 會判斷同伴最有可能在哪里猜錯,因此它可以只在對方最容易迷路或者漏看的地方才發出提示。這樣一來,它們即使將某個要傳遞的信息壓縮 32 倍,也能完成同一任務,而且成功率還比多次反復說的舊有方法高出了一大截。
除了地圖細胞和秘密語言,本次研究發現 Agent 還長出了第三種有趣的結構:專門負責追蹤同伴位置的社會神經元。方政儒等人發現 Agent 的神經網絡中會逐漸分化出三種不同的細胞:第一種細胞只關心自己在哪里,就像人腦的位置細胞一樣;第二種細胞只關心同伴在哪里,就像人腦的社會位置細胞一樣;第三種細胞則同時關注自己和同伴的位置。
而如果人為地抑制那些專門關注同伴的細胞,Agent 預測同伴位置的能力就會大大下降。這說明,這些細胞是在學會預測他人的過程中自然形成的,而不是被事先設計好的。
![]()
(來源:方政儒、郭彧)
這項研究最引人注意的地方在于,Agent 并沒有被直接教會怎么認路或者怎么聊天,它們只是被賦予了預測同伴這樣一個簡單的目標。而在實現這個目標的過程中,地圖、語言、社交細胞全部自己冒了出來。這就像我們讀書時和同學一起完成小組作業,不知不覺學會了分工、記筆記、甚至發明一些只有我們才懂的暗號一樣。
這種機制不僅可以幫助我們理解包含人類在內的動物大腦社交能力是如何涌現出來的,還能直接用在很多機器人合作的場景里。
例如,在倉儲物流領域,一群搬運機器人或許可以在大型倉庫里自主協作、高效地分揀貨物,即使信號不好也能默契配合;而在多機器人搜救場景,比如在地震現場或者火災現場,機器人隊伍可以快速地探索廢墟,使用最少的通信量來共享關鍵信息,更快地找到被困者;在理解社交障礙領域,通過模擬 Agent 社交能力的形成,科學家可以更好地研究自閉癥等社交障礙的神經機制,為治療提供新的思路。
另據悉,方政儒是香港城市大學賽馬會“智慧城市”創科實驗室的在讀博士生,同時也是清華大學深圳國際研究生院智能感知與機器人實驗室的訪問學生。未來,他將繼續深耕機器人通信感知與決策領域。
參考資料:
相關論文 https://arxiv.org/abs/2511.04235
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.