網易首頁 > 網易號 > 正文申請入駐

“26年具身智能，做不過來根本做不過來”：含陶大程教授獨家專訪

2026-03-23 17:31:43　來源: 親愛的數據

浙江舉報

分享至

2026年具身智能這么熱，

美國舊金山PIRobotics這家機器人創業公司，

你真得知道。

我也常看他們團隊發的新模型，

當然，很多國內具身智能小伙伴，

比我關注多了，

因為這家公司走開源路線，

有些東西國內也能跟著用。

公司投入大，工作扎實，高速發展，

是一個很好的觀察行業的“錨點”。

用新聞體說，就是，

PhysicalIntelligence是美國具身智能領域的翹楚，

（簡稱PI或π），他們家的模型叫π系列。

講真，機器人還沒有真正的記憶系統。

當然，有些短的記憶，

也能記清楚一些事情的先后順序。

這里有兩個概念，請看漫畫：

為啥說沒有記憶系統呢？

要么沒法存數分鐘到數小時的任務情況（上下文），

要么堆砌大量原始數據，導致反應遲緩。

這也是為什么大多數具身智能干活，

只能在“嚴格控制“幾分鐘”“短任務”里打轉，

還有說法是單點任務（技能）還行。

多個子任務串聯，

長時間，多階段就尷尬了。

也就是說，即便當下的模型，

單步技能點數很高，

但在面對長達十幾分鐘，

跨多個階段的任務時，

它們往往表現得像“金魚”：

只能記住最近幾秒鐘的視覺信息（攝像頭畫面里），

一旦時間長，

即使是最先進的機器人也會丟失狀態，

導致錯判和重復錯誤。

機器人干活缺啥能力？

第一，先前啥狀態；

第二，規劃后續做啥動作；

第三，環境變了，怎么動態調整；

真實環境從來不簡單。

我說得很婉轉，

在文藝晚會舞臺上跳舞的機器人，

這類機器人在仿真系統提升能力，

技能點很單一。

而在受限環境下行動，

換個新環境干別的活，

恐怕要犯老年癡呆。

35歲以上排隊領雞蛋的老年人表示，

這是史上被黑的最慘的一次。

對機器人來說，和金魚一樣的記憶力是不夠的。

1.記不住過去做過啥（步驟）；

2.一件東西，攝像頭照的那個區里看不見，

以前放哪也不記得了。

PI機器人的記憶模塊，

居然是可插拔的？

是的。

我觀察PI團隊，

是在模型大版本迭代后，

才單獨推出了一個可插拔的模塊，

（叫MEM，Multi-scaleEmbodiedMemory）。

按道理，應該和大版本一起推出，

然而并沒有。

中科視語CEO趙朝陽博士告訴我，

PI公司的模型，從π0.5到π0.6，

技術提升點很多，

記憶模塊并不在其中，

一方面是值得單獨拿出來解決，

另一個比較合理的解釋，

就是做大版本的時候，

這個模塊，還沒有準備好；

AI行業主打一個，

沖刺總在截止日期前，

每家AI公司都一樣，

好在，記憶模塊（MEM）是相對獨立的。

“記憶模塊是一個必備的技能。

所以只不過是去年這個節點上，

我們認為記憶這件事兒在具身上也可以弄了，

不像原來那樣那么虛了。”

誰不想要記憶模塊呢，

我也想要。

所以，有了記憶模塊有啥好？

以前的記憶技術要么只記細節記不住流程，

要么只記流程沒細節，

記憶模塊（MEM）直接全搞定，

還解決了兩個大問題：

第一，不卡殼。

視頻編碼器優化了速度，

哪怕處理多攝像頭畫面，

反應延遲也低。

第二，不翻車。

多源數據訓練避免了“記混動作”，

加了記憶還不影響操作精度，

以前加記憶會變慢的毛病徹底根治。

說實話，這都是長期困擾業界的難題。

似乎人人都在“記憶”上下功夫，

兩個月前，開源團隊Deepseek，

也推出了人家的記憶模塊（Engram）。

市面上的知名團隊都在下“記憶力”的功夫。

看上去，“記住”將是智能的下一個拐點。

從學術到產業，

圍繞AI記憶能力的研究正在迅速積聚。

具身智能也沒落下。

中科紫東太初具身智能部門負責人，

劉榮博士告訴我：

“大家緊盯著VLA狂卷，

因為VLA本身的難點實在也很多。”

具身智能常用的模型類型就是，

視覺-語言-動作一體化，簡稱VLA；

俗稱技術路線。

這個類型的模型，

核心概念已經清晰，

但方法、優化、跨任務能力仍在優化。

我的觀點是，該技術（模型）處于快速迭代階段，

其實目前這個架構不錯，

紅利還沒有吃完。

所以，大家都在這條道路上狂奔。

當然，還是得和行業一線專家聊一下。

中科紫東太初董事長王金橋，

他給了我更本質的理解：

“這個架構只是科研人員，

沿襲著大模型大力出奇跡的思路，

慣性探索，技術路線遠沒有定型。”

而中科紫東太初具身智能部門負責人，

劉榮博士告訴我：

“實現方法、跨本體跨任務能力仍要優化。”

我又和中科視語CEO趙朝陽博士，

聊了如何兼顧研發和工程實戰的打法：

一種思路，要么模型（VLA），

直接輸出機器人行動，

模型把“看到的東西，

得到的指令”和“該怎么動”，

結合在一起思考+行動，

視覺模塊，讓它知道所處環境長什么樣，

語言模塊，讓它理解任務目標，

動作模塊則把理解變成行為。

另一種思路，也是參考行業標桿，

FigureAI的路線。

要么用VLM+VLA，

追求極致工程化，

VLM模型協調指揮，決策判斷，

VLA模型負責單步動作執行，

如，拉開冰箱門是一個單步技術點，；

關上則可能是另一個。

而打掃客廳衛生，就涉及到客廳多大，

窗戶多高，幾件家具之類；

打掃客廳衛生，需要先擦玻璃、擦桌子，

再掃地，最后拖地。

沒做過保潔的人可能壓根不知道，

地，從來都是留到最后拖的。

沒搞過科研學術的人可能壓根不知道，

小環節小動作，都是“多個子任務”。

“兩個模型各負其責，

工程上也好調整。”劉榮博士如是說。

美國舊金山PI機器人團隊的出發點，

是想在長程任務上做得好。

阻礙機器人做一系列任務的核心障礙，

是記憶。

何時記住？

記住什么？

如何記住？

接著，用這些記憶去指導，

后面行為與策略規劃。

簡單地把機器人看見的（所有視覺幀），

填進模型的上下文窗口既不現實，

機器人會誤把無關過去行為，

當成當前決策依據。

比如，機器人試圖拿起一根小筷子。

如果沒有記憶功能，

機器人往往會反復以同樣的方式失敗。

因為它不記得之前的嘗試，

所以只會重復相同的行為。

配上BGM，

估計就成了一刀不剪的B站鬼畜視頻。

而有了記憶功能，

第一次失敗后，

會設法成功拿起筷子。

于是，他們團隊為具身智能設計的記憶架構，

就分為兩層。

第一層是短期記憶，

它記錄當下的視覺信息，

保持機器人對環境的持續感知。

第二層是長期記憶，

它用文字形式，

保存經驗和規則，

讓機器人能夠跨越較長時間，

保持任務狀態，

按需調整。

這里有點太技術了，

按中科視語CEO趙朝陽博士的說法，

從科研直覺去理解，

人類好久之前的記憶，

會被總結成經驗，

——一朝被蛇咬，十年怕井繩；

人類近期（短期）記憶，

更具體，更生動，更多細節，

非洲大草原上，

沉睡中的母獅，

被黑曼巴毒蛇咬了一口下巴，

獅頭立刻腫成表情包。

學術說法是：

短期使用細節信息支持即時行為，

長期用抽象語義保持任務語境和目標邏輯。

趙朝陽博士也聊到：

“記憶分層能設計得更細致，

長短，長中短，超長期記憶，等等。

甚至有些永遠不能被遺忘，比如安全底線。”

看來以后都可以這么玩了：

大大大記憶，小小小記憶，

久而久之，研發同學說話都結巴了，

這絕對是工傷。

細想起來，這倒是和很多年前，

阿西莫夫機器人三大定律遙相呼應：

機器人不會傷害人類。

記憶本身是個很宏大的主題，

記憶和現有系統未來會是什么形態？

記憶不只是存下什么，

而是進化的底層動力：

1.整體目標是什么

2.需要先做什么再做什么

3.現在做到哪一步了

4.這一步怎么做

5.下一步該做什么

具身智能目前在這個大趨勢上，

要做出來真正有記憶的機器人，

如何在復雜、長期任務中持續成長和自適應。

具身智能只是會感知、會執行，不夠。

而是會記住、會推理，

會運用過去的經驗來塑造未來的策略。

具身智能這么熱，還有一個原因，

中科紫東太初董事長王金橋

是這么說的：

“有太多事情可以做，

或者說，根本做不過來，

原因是走得最快的是大語言模型，

那么大語言模型踩過的坑，

一定指導多模態大模型。

多模態模型踩過的坑，

一定指導具身智能大模型。”

One More thing

下內容包含大量科研黑話和學術暴擊，

看不懂不丟人，能看完的都是狠人，

建議非戰斗人員提前服用冰美式。

為什么不用Transformer-XL自回歸？

答案：不用的原因有三個：

第一，必須逐步生成，每步依賴前一步輸出，

不支持并行推理，效率低。

第二，視覺幀或連續動作序列很長時處理長序列會越來越慢。

第三，缺乏直接視覺結構建模能力。

為什么PI機器人的記憶模塊可插拔？

這個問題，趙朝陽博士給我好好講了講。

模型π0.6和π0.6*一起發布的，

加入真機強化學習，

這將會是未來一段時間VLA的主流打法。

上一種利器尚且不夠，

再把記憶模塊也加持上。

而以前，

還在用Transformer-XL做自回歸的，

現在都不用了。

MEM設計成可插拔不可謂不巧妙，

雙重否定表達作者非常肯定。

MEM模型用了谷歌的Gemma3（4B），

這是在π0.5架構基礎上的升級版本，

π0.5使用的是Gemma2.6。

MEM的可插拔特性主要體現在記憶增強模塊上，

分為短期記憶和長期記憶兩部分。

在短期記憶方面，

模型對ViT模塊進行了優化，

使其能夠處理更多歷史觀察幀，

從而提升視覺信息的吞吐量。

具體來說，優化主要集中在時間注意力和空間注意力結構上，

因為MEM很新，廠商尚未開源，也可以理解。

長期記憶部分，就更重要了，

甚至可以說是最重要的“彈藥”，

那就是數據上下功夫。

用大語言模型生成訓練數據的方式來增強。

先總結（抽象在數據里），再讓模型學習。

Datateachingand machine learning.

模型會生成類似鏈式推理的摘要和總結數據，

造數據優化長期記憶，到底怎么做的呢？

我們認為：關鍵在于，

造一個帶摘要+總結的樣本數據，

還要跟他原本樣本的視頻幀情節時間步驟對應上

最后，再用這些數據訓練主干網絡，

（視覺-語言模型，Gemma），

這樣，長期記憶不僅能記錄下事件，

還抽象經驗，用于后續推理。

我感慨整個設計很巧妙，

保證了短期記憶專注于即時操作信息，

而長期記憶提供跨任務的連續上下文支持。

陶大程是大曉機器人首席科學家。目前，他任職于新加坡南洋理工大學，擔任杰出大學教授。同時，澳大利亞科學院院士，歐洲科學院外籍院士，當選IEEE、ACM、AAAS等多個國際權威學會會士。長期聚焦于將統計學和數學方法引入人工智能，在表征學習、計算機視覺與深度學習等方向具有奠基性貢獻。

問題一：記憶是個宏大命題，

以記憶模塊對現有具身系統的影響來看，

以您的見識，

未來會是個啥形態呢？

陶大程教授回答：未來的記憶，不會只是一個“外掛模塊”，而會成為具身系統的時間操作系統。因為ACE-Brain-0其實告訴我們，具身統一的難點，不在于單個技能，而在于如何把不同域、不同階段、不同粒度的知識組織起來并長期保留下來；它用spatialscaffold解決的是“跨embodiment的共享結構”問題。與之對稱，記憶解決的其實是“跨時間的共享結構”問題。一個解決“不同機器人/不同場景之間怎么統一”，一個解決“同一個機器人在不同時間怎么連續”。所以未來真正強的具身系統，一定不是單純的VLA，而是空間骨架+時間記憶的耦合系統。

因此，未來具身里的記憶形態，可能會有五層：

第一層是感知工作記憶。這層記最近幾秒到幾十秒的視覺、觸覺、位姿和交互狀態，用來處理遮擋、局部失誤、抓取重試、視野之外的短時補償。

第二層是情節記憶。它記錄“剛剛發生了什么、哪一步成功了、哪一步失敗了、失敗后換過什么策略”，服務分鐘級任務。

第三層是語義/程序記憶。它不是記細節畫面，而是記“我現在做到哪一步、這個任務的標準順序是什么、這個對象通常應該如何處理”。

第四層是空間記憶。這是ACE-Brain-0給你的重要啟發：未來記憶不能只是文本摘要，還必須帶有空間scaffold，也就是物體位置、相對關系、可達性、場景拓撲。

第五層是反事實記憶，也就是可執行的世界表征：不是只記“過去如何”，還要能內部模擬“未來可能如何”。這是worldmodel真正進入具身主干之后，記憶會新增的一層。

第六層是不可遺忘記憶。未來機器人一定會有一部分memory不是為了提升任務成功率，而是為了固化安全邊界、人體禁區、設備極限、規范流程。

未來的具身記憶，不是更大的contextwindow，而是“分層的、空間化的、可調用的、可修訂的、可執行的MemoryOS”。

問題二：具身借鑒LLM經驗，

借鑒VLM經驗是必然的，

本質該怎么理解？

陶大程教授回答：具身借鑒LLM/VLM，不是在借一個模型外形，而是在借一整套“如何從海量異構數據中提煉共享先驗、再把共享先驗遷移到具體任務”的方法論。

第一層本質，是抽象壓縮能力；

第二層本質，是跨模態對齊能力；

第三層本質，是空間共享能力

（ACE-Brain-0：sharedscaffold）；

第四層本質，是自舉改進能力

（self-evolutionlearning，

為worldmodel提供了機制性側證）；

第五層本質，是有組織的訓練

（ACE-Brain-0）。

第三層：ACE-Brain-0給出了自動駕駛、無人機、機器人操作雖然形態不同、動作空間不同，但都依賴3D空間理解、物體布局建模、幾何關系推理和空間后果預測。

第四層：ACE-Brain-0其實也在回答，

“為什么不能所有東西一鍋燉”。

混合jointtraining會帶來長尾分布、

梯度干擾、領域稀釋；

順序微調又會造成災難性遺忘。所以需要Specialize-Reconcile：

先建專業能力，最后再融合。

問題三：您的論文中曾強調，

“通用具身智能要求在異構具身

（例如自動駕駛、機器人和無人機），

之間具備強大的泛化能力。”

具身作為前沿技術技術，

您是如何理解目前具身產業的？

陶大程教授回答：

第一，不能把具身產業只理解成，

“人形機器人產業”。

第二，產業真正的壁壘不是模型本身，

而是“經驗回流閉環”。

產業中的記憶，不只是模型內部記憶，

更是企業級經驗記憶。

第三，產業落地不是單靠端到端autonomy，

而是“自動化+人類兜底+再學習”的混合系統。

第四，世界模型（WorldModel），

將成為產業主戰場，

支撐PhysicalAI的規模化訓練。

未來PhysicalAI的真正基礎設施，

會包括一個可擴展、可校準、可評測、可生成數據的worldmodel。

第五，數據供給方式本身，就是產業路線分水嶺。

Reference:

1. Ziyang Gong, Zehang Luo, Anke Tang, et al.: ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments. arXiv:2603.03198

2. Shi Fu, Yingjie Wang, Yuzhu Chen, Xinmei Tian, Dacheng Tao: A Theoretical Perspective: How to Prevent Model Collapse in Self-consuming Training Loops. ICLR 2025

（完）

聲明：個人原創，僅供參考

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.