網易首頁 > 網易號 > 正文申請入駐

腦細胞組成的計算機跑起了《毀滅戰士》！代碼全部開源

2026-03-02 17:26:21　來源: DeepTech深科技

北京舉報

分享至

2026 年 2 月底，澳大利亞生物科技公司 Cortical Labs 在 YouTube 上發布了一段視頻。視頻里，大約 20 萬個活體人類神經元正在玩 1993 年的經典第一人稱射擊游戲《毀滅戰士》（Doom）。屏幕上，Doomguy 跌跌撞撞地穿行在走廊中，偶爾開槍，偶爾轉向，偶爾撞墻。

觀感更像一個從未碰過電腦的新手在胡亂摸索。但操控這一切的確實不是人手，也不是傳統意義上的 AI 算法，而是一團培養在多電極陣列（Multi-Electrode Array, MEA）上的人體神經細胞。

圖丨CL1（來源：Cortical Labs）

Cortical Labs 和它的 CL1 生物計算機，讀者可能已有所了解——這家公司 2022 年憑借“DishBrain”實驗成名，當時他們讓培養在芯片上的約 80 萬個神經元學會了玩 Pong。

那篇與倫敦大學學院 Karl Friston 教授合作的論文發表在《Neuron》期刊上，實驗設計的核心框架來自 Friston 的自由能原理（Free Energy Principle, FEP）：神經元做出“正確”動作時收到可預測的電信號反饋，做錯了則收到隨機刺激。細胞會自發調整放電模式來讓環境變得更可預測，學習在五分鐘內就出現了，而標準的深度強化學習算法做同樣的事大約需要 90 分鐘。

從 DishBrain 到商用的 CL1，電極從 8 個升至 59 個，延遲降到亞毫秒級，內置了完整的生命維持系統，神經元可存活最多六個月。單機售價 35,000 美元，30 臺機架版單臺 20,000 美元，整架功耗不到 1,000 瓦。首批 115 臺設備 2025 年開始出貨。

讓神經元從 Pong 跳到 Doom，難度有質的飛躍。Pong 是二維的，空間關系簡單直接。Doom 是三維迷宮，有敵人、武器、彈藥、走廊拐角，信息密度完全不在一個量級。CTO David Hogan 在視頻中解釋了基本原理：獨立研究者 Sean Cole 把游戲畫面轉化為電刺激模式輸入神經元，神經元的放電活動被解碼為游戲操作指令，特定模式對應射擊，另一種模式對應移動。

Cole 通過 Cortical Labs 的 API，在不到一周內完成了 Doom 版本的編寫。Cortical Labs 將這種協作框架命名為“皮層云”（Cortical Cloud），允許全球開發者通過 Python 接口遠程訪問 CL1 上的神經元。

（來源：Cortical Labs）

盡管它玩得磕磕絆絆，如 Kagan 所說：“它是電競冠軍嗎？絕對不是。”但他強調的重點是：Cortical Labs 已經解決了“接口問題”，即如何實時地與生物神經元進行雙向通信，并訓練和塑造它們的行為。

如果只看官方視頻和多數媒體報道，我們可能會對這件事的技術實質產生一種偏樂觀的認知。但值得注意的是，隨演示一同發布在 GitHub 上的代碼倉庫里，Sean Cole 在 README 中記錄了一個關鍵問題：他編寫的解碼器（把神經元放電信號映射為游戲動作的 PyTorch 模型）有一種趨勢，會逐漸變成一個“策略頭”（policy head）。也就是說，運行在普通硅基硬件上的軟件模塊可能正在學習繞過神經元，自己獨立完成游戲決策。

整個系統的架構是：游戲畫面被翻譯為電刺激傳給神經元，神經元的脈沖計數送入 PyTorch 解碼器，解碼器輸出游戲操作。而 PPO（Proximal Policy Optimization，近端策略優化）智能體、CNN 編碼器、整個獎勵循環，全部運行在外部的普通計算機上。Cole 在代碼注釋中表示：CL1 設備“不執行任何計算”，只負責接收刺激指令、施加到神經元、把脈沖計數發回來。

所以，CL1 作為硬件接口工作正常，雙向通信的延遲和穩定性已達到可用水平。但 20 萬個人類神經元到底在多大程度上承載了游戲策略，還是僅僅在“搭便車”，這個問題的答案我們不得而知。

因此我們有必要從兩個層面來區分 Cortical Labs 此次的成就。工程層面：他們建造了一套可商用的、能讓活體神經元在閉環系統中實時參與計算的硬件平臺，這在生物計算領域是獨一無二的。認知和計算層面：神經元是否在執行某種真正的策略推理或目標導向學習。

Cole 在 GitHub 倉庫的 FAQ 中部分回應了這個疑問：視頻中展示的游戲畫面是用零偏置線性解碼器錄制的，也就是說，游戲動作完全是 CL1 輸出脈沖的線性函數；當切換到消融模式（隨機脈沖或零脈沖）時，學習效果消失。這個回應有一定說服力，但還算不上鐵證。

線性解碼器加零偏置的設計確實限制了解碼器端的自主學習能力，但整個編碼器（那個決定以什么模式刺激神經元的 CNN）仍然是通過 PPO 策略梯度在硅基端訓練的。換句話說，哪怕神經元確實在對信號做出有意義的響應，當前系統中“智能”的歸屬權仍然是模糊的：是神經元在學習玩游戲，還是硅基端的強化學習算法在學習如何利用神經元？

官方宣傳傾向于暗示前者，但 GitHub 上的證據顯示這一點遠未驗證。曼徹斯特大學計算機科學教授 Steve Furber 在接受采訪時也指出，我們目前還不完全理解神經元如何在玩這個游戲、它們如何“知道”被期望做什么。

Cortical Labs 將自己的技術路線命名為“合成生物智能”（Synthetic Biological Intelligence, SBI），刻意與“人工智能”區分。背后有一個技術假設：真實神經元的自組織能力、樣本效率和能量效率，可能在某些維度上是硅基模擬神經網絡難以企及的。

DishBrain 實驗中五分鐘出現學習信號的數據，在樣本效率上給出了初步支撐。但從 Pong 到 Doom 再到真實世界任務，中間隔著可擴展性、可靠性和可重復性的巨大鴻溝。20 萬個神經元聽起來很多，但人類大腦有約 860 億個。

一臺 CL1 的神經元數量，大致相當于一只果蠅大腦的規模。而在這條賽道上，瑞士的 FinalSpark 也在做基于人類神經元的計算平臺，采用多巴胺等化學獎勵信號來訓練。Kagan 評價這種方法在實驗室可行，但擴展性有限。兩條路徑誰更有前途，目前沒有定論。

那么這次演示到底證明了什么？它證明了 CL1 的硬件接口和通信協議有效，活體神經元可以在實時閉環系統中被穩定地刺激和讀取，而且這套流程已經開放到了第三方開發者可以在一周內完成復雜游戲適配的程度。這是一個扎實的工程進展。

它同時產生了一個比它自身更重要的問題：在這樣的系統中，生物層到底在做什么？是在真正參與決策，還是作為一個被數字系統繞過的中繼節點？Cole 的消融測試為回答這個問題提供了方法論工具，但答案還尚未被揭曉。

參考資料：

1.https://github.com/SeanCole02/doom-neuron

2.https://youtu.be/yRV8fSw6HaE

3.https://gizmodo.com/a-dish-of-neurons-playing-doom-is-the-wildest-thing-ive-seen-in-ages-2000727674

運營/排版：何晨龍

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.