機器人也能像蛇一樣,靈活地在復雜的地面上蜿蜒前行,甚至遇到障礙物時還能自己決定向右轉還是向后退?
近日,26 歲的英國劍橋大學博士生霍永康和所在團隊研發出一種名為反彈式贏家通吃的全新神經形態控制架構。
它讓機器人從簡單的肌肉收縮到復雜的避障決策,全部使用同一種大腦語言,從而變得更智能、更敏捷和更可靠,并已經在一條五節機器蛇身上得到了生動驗證。
![]()
圖 | 霍永康(來源:霍永康)
該神經系統并非使用電腦芯片和復雜代碼寫成的,而是通過模仿動物大腦的工作原理,使用一套名為反彈贏家通吃的特殊神經元電路搭建的。
就像人腦里的神經細胞通過微弱的電信號傳遞信息一樣,這套系統里每一個人造神經元都能產生自己的電信號事件,比如一個快速的脈沖或是一連串持續的爆發信號。
![]()
(來源:資料圖)
什么是反彈式贏家通吃?
事實上,人類在走路和奔跑的背后正是大腦和脊髓在協同工作,它們既能產生有節奏的步伐比如左右腳交替,又能瞬間做出決定比如看到石頭就繞開。傳統的機器人控制器卻把這兩件事分開了:一部分電路只負責產生固定的節奏就像節拍器一樣,另一部分復雜的計算機程序負責做高級決策就像指揮官一樣。兩者之間需要復雜的翻譯才能溝通,這讓機器人系統變得笨重且難以調整。
霍永康告訴 DeepTech:“相比之下,生物神經系統并不會把做決定和調節肌肉分成兩套完全不同的系統,而是用同一套基于事件的神經活動同時完成節律生成和運動調節。我們受神經形態控制的思想啟發,希望找到一種既能做離散決策,又能做連續調節,而且可以層層擴展的統一架構。”
因此,本次研究的靈感直接來自生物學中的神經元。他們發現神經元有一個神奇的特性:反彈興奮性。簡單說,就是當神經元被強烈抑制比如被要求不準動的時候,一旦抑制解除,它反而會像一個被壓緊后松開的彈簧一樣,砰地一下爆發一個電脈沖,而這個脈沖就是一個事件。
另一方面,大腦中還存在贏家通吃的競賽原則。想象一群孩子在爭搶唯一的一個球,最終只有一個最強的孩子能夠搶到,其他人都會被暫時壓制。神經網絡也能以這樣的原理工作,以便確保在任何時刻,都只有一個贏家神經元能被激活。
這項研究的精髓,便是將細胞的反彈特性和網絡的贏家通吃競賽這兩個古老的概念進行完美結合,創造出了反彈式贏家通吃網絡。在這個網絡中:首先,反彈特性負責生成可靠的事件,就像確定彈簧的彈力大小一樣;其次,贏家通吃競賽負責編排事件的順序,就像規定好搶到球的孩子必須把球傳給某某一樣。
這樣一來,無論是對于節奏生成即何時動這一問題,還是對于決策制定即做什么這一問題,它倆都能使用同一種事件語言,在同一個物理網絡中無縫融合。
![]()
(來源:資料圖)
給機器蛇打造脊髓和大腦
為了展示這個架構的強大,霍永康等人設計并控制了一條五節連接的機器蛇。這條機器蛇的神經系統被分成了三層,但是全部使用同一種反彈式贏家通吃的基本單元搭建而成。
第一層是肌肉驅動層,它負責機器蛇的脊髓反射。
這一層的任務是控制機器蛇的每一個關節左右擺動。每個關節都由一個半中心振蕩器控制,它其實就是由兩個具有反彈特性的神經元互相抑制而成。這就好比一個蹺蹺板:左邊神經元負責點火,驅動向左的肌肉收縮,同時強烈抑制右邊的神經元;右邊神經元被抑制后進入反彈預備狀態,一旦左邊的脈沖結束,右邊就會因為反彈而點火,驅動向右的肌肉收縮,并對左邊產生抑制。如此循環一下,關節就實現了自主的左右交替擺動,就像脊髓中控制步行節奏的基本電路一樣。
第二層是協調層,它好比是機器蛇的運動節律指揮官。
每個關節可以自己擺動是遠遠不夠的,要想讓機器蛇前進或者后退,就得讓四個關節的擺動形成連貫的波浪。這就是協調層的任務。這一層包含兩個環形振蕩器,一個產生“1-2-3-4”順序的脈沖波以便讓機器蛇前進,另一個產生“4-3-2-1”的脈沖波讓機器蛇后退。兩個環形圈通過一個快速的贏家通吃競賽樞紐連接,確保同一時間只有一個環形圈是激活的。這個層級的輸出會巧妙地引導肌肉驅動層的那些蹺蹺板,讓所有關節按照既定的方向和順序依次動作,從而形成協調的全身運動波形,這相當于腦干針對步行節奏的高級調節。
第三層是監督控制層,它是機器蛇的智能決策大腦。
當機器蛇的頭部傳感器碰到障礙物的時候,它需要做出這樣一個高級決策:到底是原地右轉、還是向后撤退?這一層有一個雙狀態開關網絡。它同樣基于反彈式贏家通吃原理,但是運行在更慢的時間尺度上。它能記住當前武裝的是哪一種策略比如右轉。當觸發傳感器的時候,就可以執行這一策略。
更有趣的是,當傳感器離開障礙物的時候,一個特殊的下降沿繼電器神經元會發出一個反彈脈沖,就像波動開關一樣,可以將內部狀態切換到另一個策略比如后退。這樣一來當下一次再次遇到障礙,機器蛇就會采取不同的行動。這實現了簡單的交替避障策略,展現了基于事件的決策能力。
![]()
(來源:資料圖)
那么,為何這項技術如此有前景?
第一,在于其統一性與簡化性。即從肌肉驅動到高層決策,全部使用同一種神經元模型和事件通信機制。這就好比使用同一塊磚,既搭出了房子的地基,又搭出了頂尖的裝飾。無論是設計、調優還是優化,都變得前所未有的簡單和一致。
第二,在于其天然的魯棒性。由于事件生成和事件編排是解耦的,所以網絡拓撲結構可以立馬重置或改變當前的節奏相位,從而實現極快的反應。同時,緩慢變化的全局信號可以平滑地調節整個運動的頻率。
第三,在于其節省能量的特性。系統只在有事件發生也就是神經元放電的時候,才會消耗主要能量以便進行通信和計算,在靜息的時候耗電量非常低,這非常符合未來節能機器人和邊緣計算設備的需求。
“通過開發相應的機器學習算法,未來有望在大規模多時空尺度的智能機電系統中,作為一種標準化的神經形態控制中樞來使用。”霍永康表示。
他繼續闡述稱:“我個人很認同費曼的一句話:‘What I cannot create, I do not understand。’(我不能構造的,我也就還沒有真正理解。)在這項研究中,我們其實是在嘗試親手搭建一套類似生物神經網絡的架構,并讓它在真實的任務和約束下工作。”
某種意義上,這既是一種工程嘗試,也是理解生物神經系統的一種方式,通過不斷地設計、重構和檢驗這些仿生網絡。
他補充說道:“機器蛇是一個很好的展示例子,但這個架構本身并不局限于機器蛇。我們也在考慮把同樣的設計原則應用到足式機器人等場景,研究當系統自由度和任務復雜度進一步提升時,本次架構在可擴展性和調參難度方面的表現。”
總體來說,本次研究嘗試使用一種統一的神經形態事件驅動架構,把傳統上分散在算法和控制、離散和連續兩個世界里的問題重新放在一起思考。霍永康希望它不僅能為具體的機器人應用提供一種新的設計思路,也能在控制理論、神經科學和神經形態硬件之間搭起一座橋梁。
未來,隨著學習機制和硬件平臺的進一步發展,其希望這類事件驅動的人工神經系統能在更多真實場景中發揮作用,也能反過來為人們理解生物神經系統提供新的視角。
參考資料:
相關論文 https://arxiv.org/abs/2511.11924
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.