![]()
![]()
![]()
2026年具身智能這么熱,
美國舊金山PIRobotics這家機器人創業公司,
你真得知道。
我也常看他們團隊發的新模型,
當然,很多國內具身智能小伙伴,
比我關注多了,
因為這家公司走開源路線,
有些東西國內也能跟著用。
公司投入大,工作扎實,高速發展,
是一個很好的觀察行業的“錨點”。
用新聞體說,就是,
PhysicalIntelligence是美國具身智能領域的翹楚,
(簡稱PI或π),他們家的模型叫π系列。
![]()
講真,機器人還沒有真正的記憶系統。
當然,有些短的記憶,
也能記清楚一些事情的先后順序。
這里有兩個概念,請看漫畫:
![]()
為啥說沒有記憶系統呢?
要么沒法存數分鐘到數小時的任務情況(上下文),
要么堆砌大量原始數據,導致反應遲緩。
這也是為什么大多數具身智能干活,
只能在“嚴格控制“幾分鐘”“短任務”里打轉,
還有說法是單點任務(技能)還行。
多個子任務串聯,
長時間,多階段就尷尬了。
也就是說,即便當下的模型,
單步技能點數很高,
但在面對長達十幾分鐘,
跨多個階段的任務時,
它們往往表現得像“金魚”:
只能記住最近幾秒鐘的視覺信息(攝像頭畫面里),
一旦時間長,
即使是最先進的機器人也會丟失狀態,
導致錯判和重復錯誤。
![]()
機器人干活缺啥能力?
第一,先前啥狀態;
第二,規劃后續做啥動作;
第三,環境變了,怎么動態調整;
真實環境從來不簡單。
我說得很婉轉,
在文藝晚會舞臺上跳舞的機器人,
這類機器人在仿真系統提升能力,
技能點很單一。
而在受限環境下行動,
換個新環境干別的活,
恐怕要犯老年癡呆。
35歲以上排隊領雞蛋的老年人表示,
這是史上被黑的最慘的一次。
對機器人來說,和金魚一樣的記憶力是不夠的。
1.記不住過去做過啥(步驟);
2.一件東西,攝像頭照的那個區里看不見,
以前放哪也不記得了。
![]()
![]()
PI機器人的記憶模塊,
居然是可插拔的?
是的。
我觀察PI團隊,
是在模型大版本迭代后,
才單獨推出了一個可插拔的模塊,
(叫MEM,Multi-scaleEmbodiedMemory)。
按道理,應該和大版本一起推出,
然而并沒有。
中科視語CEO趙朝陽博士告訴我,
PI公司的模型,從π0.5到π0.6,
技術提升點很多,
記憶模塊并不在其中,
一方面是值得單獨拿出來解決,
另一個比較合理的解釋,
就是做大版本的時候,
這個模塊,還沒有準備好;
AI行業主打一個,
沖刺總在截止日期前,
每家AI公司都一樣,
好在,記憶模塊(MEM)是相對獨立的。
“記憶模塊是一個必備的技能。
所以只不過是去年這個節點上,
我們認為記憶這件事兒在具身上也可以弄了,
不像原來那樣那么虛了。”
誰不想要記憶模塊呢,
我也想要。
所以,有了記憶模塊有啥好?
以前的記憶技術要么只記細節記不住流程,
要么只記流程沒細節,
記憶模塊(MEM)直接全搞定,
還解決了兩個大問題:
第一,不卡殼。
視頻編碼器優化了速度,
哪怕處理多攝像頭畫面,
反應延遲也低。
第二,不翻車。
多源數據訓練避免了“記混動作”,
加了記憶還不影響操作精度,
以前加記憶會變慢的毛病徹底根治。
說實話,這都是長期困擾業界的難題。
似乎人人都在“記憶”上下功夫,
兩個月前,開源團隊Deepseek,
也推出了人家的記憶模塊(Engram)。
市面上的知名團隊都在下“記憶力”的功夫。
看上去,“記住”將是智能的下一個拐點。
從學術到產業,
圍繞AI記憶能力的研究正在迅速積聚。
具身智能也沒落下。
![]()
![]()
中科紫東太初具身智能部門負責人,
劉榮博士告訴我:
“大家緊盯著VLA狂卷,
因為VLA本身的難點實在也很多。”
具身智能常用的模型類型就是,
視覺-語言-動作一體化,簡稱VLA;
俗稱技術路線。
這個類型的模型,
核心概念已經清晰,
但方法、優化、跨任務能力仍在優化。
我的觀點是,該技術(模型)處于快速迭代階段,
其實目前這個架構不錯,
紅利還沒有吃完。
所以,大家都在這條道路上狂奔。
當然,還是得和行業一線專家聊一下。
中科紫東太初董事長王金橋,
他給了我更本質的理解:
“這個架構只是科研人員,
沿襲著大模型大力出奇跡的思路,
慣性探索,技術路線遠沒有定型。”
而中科紫東太初具身智能部門負責人,
劉榮博士告訴我:
“實現方法、跨本體跨任務能力仍要優化。”
我又和中科視語CEO趙朝陽博士,
聊了如何兼顧研發和工程實戰的打法:
一種思路,要么模型(VLA),
直接輸出機器人行動,
模型把“看到的東西,
得到的指令”和“該怎么動”,
結合在一起思考+行動,
視覺模塊,讓它知道所處環境長什么樣,
語言模塊,讓它理解任務目標,
動作模塊則把理解變成行為。
![]()
另一種思路,也是參考行業標桿,
FigureAI的路線。
要么用VLM+VLA,
追求極致工程化,
VLM模型協調指揮,決策判斷,
VLA模型負責單步動作執行,
如,拉開冰箱門是一個單步技術點,;
關上則可能是另一個。
而打掃客廳衛生,就涉及到客廳多大,
窗戶多高,幾件家具之類;
打掃客廳衛生,需要先擦玻璃、擦桌子,
再掃地,最后拖地。
沒做過保潔的人可能壓根不知道,
地,從來都是留到最后拖的。
沒搞過科研學術的人可能壓根不知道,
小環節小動作,都是“多個子任務”。
“兩個模型各負其責,
工程上也好調整。”劉榮博士如是說。
![]()
美國舊金山PI機器人團隊的出發點,
是想在長程任務上做得好。
阻礙機器人做一系列任務的核心障礙,
是記憶。
何時記住?
記住什么?
如何記住?
接著,用這些記憶去指導,
后面行為與策略規劃。
簡單地把機器人看見的(所有視覺幀),
填進模型的上下文窗口既不現實,
機器人會誤把無關過去行為,
當成當前決策依據。
比如,機器人試圖拿起一根小筷子。
如果沒有記憶功能,
機器人往往會反復以同樣的方式失敗。
因為它不記得之前的嘗試,
所以只會重復相同的行為。
配上BGM,
估計就成了一刀不剪的B站鬼畜視頻。
而有了記憶功能,
第一次失敗后,
會設法成功拿起筷子。
于是,他們團隊為具身智能設計的記憶架構,
就分為兩層。
第一層是短期記憶,
它記錄當下的視覺信息,
保持機器人對環境的持續感知。
第二層是長期記憶,
它用文字形式,
保存經驗和規則,
讓機器人能夠跨越較長時間,
保持任務狀態,
按需調整。
這里有點太技術了,
按中科視語CEO趙朝陽博士的說法,
從科研直覺去理解,
人類好久之前的記憶,
會被總結成經驗,
——一朝被蛇咬,十年怕井繩;
人類近期(短期)記憶,
更具體,更生動,更多細節,
非洲大草原上,
沉睡中的母獅,
被黑曼巴毒蛇咬了一口下巴,
獅頭立刻腫成表情包。
學術說法是:
短期使用細節信息支持即時行為,
長期用抽象語義保持任務語境和目標邏輯。
趙朝陽博士也聊到:
“記憶分層能設計得更細致,
長短,長中短,超長期記憶,等等。
甚至有些永遠不能被遺忘,比如安全底線。”
看來以后都可以這么玩了:
大大大記憶,小小小記憶,
久而久之,研發同學說話都結巴了,
這絕對是工傷。
細想起來,這倒是和很多年前,
阿西莫夫機器人三大定律遙相呼應:
機器人不會傷害人類。
![]()
記憶本身是個很宏大的主題,
記憶和現有系統未來會是什么形態?
記憶不只是存下什么,
而是進化的底層動力:
1.整體目標是什么
2.需要先做什么再做什么
3.現在做到哪一步了
4.這一步怎么做
5.下一步該做什么
具身智能目前在這個大趨勢上,
要做出來真正有記憶的機器人,
如何在復雜、長期任務中持續成長和自適應。
具身智能只是會感知、會執行,不夠。
而是會記住、會推理,
會運用過去的經驗來塑造未來的策略。
具身智能這么熱,還有一個原因,
中科紫東太初董事長王金橋
是這么說的:
“有太多事情可以做,
或者說,根本做不過來,
原因是走得最快的是大語言模型,
那么大語言模型踩過的坑,
一定指導多模態大模型。
多模態模型踩過的坑,
一定指導具身智能大模型。”
![]()
One More thing
下內容包含大量科研黑話和學術暴擊,
看不懂不丟人,能看完的都是狠人,
建議非戰斗人員提前服用冰美式。
為什么不用Transformer-XL自回歸?
答案:不用的原因有三個:
第一,必須逐步生成,每步依賴前一步輸出,
不支持并行推理,效率低。
第二,視覺幀或連續動作序列很長時處理長序列會越來越慢。
第三,缺乏直接視覺結構建模能力。
為什么PI機器人的記憶模塊可插拔?
這個問題,趙朝陽博士給我好好講了講。
模型π0.6和π0.6*一起發布的,
加入真機強化學習,
這將會是未來一段時間VLA的主流打法。
上一種利器尚且不夠,
再把記憶模塊也加持上。
而以前,
還在用Transformer-XL做自回歸的,
現在都不用了。
MEM設計成可插拔不可謂不巧妙,
雙重否定表達作者非常肯定。
MEM模型用了谷歌的Gemma3(4B),
這是在π0.5架構基礎上的升級版本,
π0.5使用的是Gemma2.6。
MEM的可插拔特性主要體現在記憶增強模塊上,
分為短期記憶和長期記憶兩部分。
在短期記憶方面,
模型對ViT模塊進行了優化,
使其能夠處理更多歷史觀察幀,
從而提升視覺信息的吞吐量。
具體來說,優化主要集中在時間注意力和空間注意力結構上,
因為MEM很新,廠商尚未開源,也可以理解。
長期記憶部分,就更重要了,
甚至可以說是最重要的“彈藥”,
那就是數據上下功夫。
用大語言模型生成訓練數據的方式來增強。
先總結(抽象在數據里),再讓模型學習。
Datateachingand machine learning.
模型會生成類似鏈式推理的摘要和總結數據,
造數據優化長期記憶,到底怎么做的呢?
我們認為:關鍵在于,
造一個帶摘要+總結的樣本數據,
還要跟他原本樣本的視頻幀情節時間步驟對應上
最后,再用這些數據訓練主干網絡,
(視覺-語言模型,Gemma),
這樣,長期記憶不僅能記錄下事件,
還抽象經驗,用于后續推理。
我感慨整個設計很巧妙,
保證了短期記憶專注于即時操作信息,
而長期記憶提供跨任務的連續上下文支持。
![]()
陶大程是大曉機器人首席科學家。目前,他任職于新加坡南洋理工大學,擔任杰出大學教授。同時,澳大利亞科學院院士,歐洲科學院外籍院士,當選IEEE、ACM、AAAS等多個國際權威學會會士。長期聚焦于將統計學和數學方法引入人工智能,在表征學習、計算機視覺與深度學習等方向具有奠基性貢獻。
問題一:記憶是個宏大命題,
以記憶模塊對現有具身系統的影響來看,
以您的見識,
未來會是個啥形態呢?
陶大程教授回答:未來的記憶,不會只是一個“外掛模塊”,而會成為具身系統的時間操作系統。因為ACE-Brain-0其實告訴我們,具身統一的難點,不在于單個技能,而在于如何把不同域、不同階段、不同粒度的知識組織起來并長期保留下來;它用spatialscaffold解決的是“跨embodiment的共享結構”問題。與之對稱,記憶解決的其實是“跨時間的共享結構”問題。一個解決“不同機器人/不同場景之間怎么統一”,一個解決“同一個機器人在不同時間怎么連續”。所以未來真正強的具身系統,一定不是單純的VLA,而是空間骨架+時間記憶的耦合系統。
因此,未來具身里的記憶形態,可能會有五層:
第一層是感知工作記憶。這層記最近幾秒到幾十秒的視覺、觸覺、位姿和交互狀態,用來處理遮擋、局部失誤、抓取重試、視野之外的短時補償。
第二層是情節記憶。它記錄“剛剛發生了什么、哪一步成功了、哪一步失敗了、失敗后換過什么策略”,服務分鐘級任務。
第三層是語義/程序記憶。它不是記細節畫面,而是記“我現在做到哪一步、這個任務的標準順序是什么、這個對象通常應該如何處理”。
第四層是空間記憶。這是ACE-Brain-0給你的重要啟發:未來記憶不能只是文本摘要,還必須帶有空間scaffold,也就是物體位置、相對關系、可達性、場景拓撲。
第五層是反事實記憶,也就是可執行的世界表征:不是只記“過去如何”,還要能內部模擬“未來可能如何”。這是worldmodel真正進入具身主干之后,記憶會新增的一層。
第六層是不可遺忘記憶。未來機器人一定會有一部分memory不是為了提升任務成功率,而是為了固化安全邊界、人體禁區、設備極限、規范流程。
未來的具身記憶,不是更大的contextwindow,而是“分層的、空間化的、可調用的、可修訂的、可執行的MemoryOS”。
問題二:具身借鑒LLM經驗,
借鑒VLM經驗是必然的,
本質該怎么理解?
陶大程教授回答:具身借鑒LLM/VLM,不是在借一個模型外形,而是在借一整套“如何從海量異構數據中提煉共享先驗、再把共享先驗遷移到具體任務”的方法論。
第一層本質,是抽象壓縮能力;
第二層本質,是跨模態對齊能力;
第三層本質,是空間共享能力
(ACE-Brain-0:sharedscaffold);
第四層本質,是自舉改進能力
(self-evolutionlearning,
為worldmodel提供了機制性側證);
第五層本質,是有組織的訓練
(ACE-Brain-0)。
第三層:ACE-Brain-0給出了自動駕駛、無人機、機器人操作雖然形態不同、動作空間不同,但都依賴3D空間理解、物體布局建模、幾何關系推理和空間后果預測。
第四層:ACE-Brain-0其實也在回答,
“為什么不能所有東西一鍋燉”。
混合jointtraining會帶來長尾分布、
梯度干擾、領域稀釋;
順序微調又會造成災難性遺忘。所以需要Specialize-Reconcile:
先建專業能力,最后再融合。
問題三:您的論文中曾強調,
“通用具身智能要求在異構具身
(例如自動駕駛、機器人和無人機),
之間具備強大的泛化能力。”
具身作為前沿技術技術,
您是如何理解目前具身產業的?
陶大程教授回答:
第一,不能把具身產業只理解成,
“人形機器人產業”。
第二,產業真正的壁壘不是模型本身,
而是“經驗回流閉環”。
產業中的記憶,不只是模型內部記憶,
更是企業級經驗記憶。
第三,產業落地不是單靠端到端autonomy,
而是“自動化+人類兜底+再學習”的混合系統。
第四,世界模型(WorldModel),
將成為產業主戰場,
支撐PhysicalAI的規模化訓練。
未來PhysicalAI的真正基礎設施,
會包括一個可擴展、可校準、可評測、可生成數據的worldmodel。
第五,數據供給方式本身,就是產業路線分水嶺。
Reference:
1. Ziyang Gong, Zehang Luo, Anke Tang, et al.: ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments. arXiv:2603.03198
2. Shi Fu, Yingjie Wang, Yuzhu Chen, Xinmei Tian, Dacheng Tao: A Theoretical Perspective: How to Prevent Model Collapse in Self-consuming Training Loops. ICLR 2025
(完)
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.