<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      “26年具身智能,做不過來根本做不過來”:含陶大程教授獨家專訪

      0
      分享至







      2026年具身智能這么熱,

      美國舊金山PIRobotics這家機器人創業公司,

      你真得知道。

      我也常看他們團隊發的新模型,

      當然,很多國內具身智能小伙伴,

      比我關注多了,

      因為這家公司走開源路線,

      有些東西國內也能跟著用。

      公司投入大,工作扎實,高速發展,

      是一個很好的觀察行業的“錨點”。

      用新聞體說,就是,

      PhysicalIntelligence是美國具身智能領域的翹楚,

      (簡稱PI或π),他們家的模型叫π系列。



      講真,機器人還沒有真正的記憶系統。

      當然,有些短的記憶,

      也能記清楚一些事情的先后順序。

      這里有兩個概念,請看漫畫:



      為啥說沒有記憶系統呢?

      要么沒法存數分鐘到數小時的任務情況(上下文),

      要么堆砌大量原始數據,導致反應遲緩。

      這也是為什么大多數具身智能干活,

      只能在“嚴格控制“幾分鐘”“短任務”里打轉,

      還有說法是單點任務(技能)還行。

      多個子任務串聯,

      長時間,多階段就尷尬了。

      也就是說,即便當下的模型,

      單步技能點數很高,

      但在面對長達十幾分鐘,

      跨多個階段的任務時,

      它們往往表現得像“金魚”:

      只能記住最近幾秒鐘的視覺信息(攝像頭畫面里),

      一旦時間長,

      即使是最先進的機器人也會丟失狀態,

      導致錯判和重復錯誤。



      機器人干活缺啥能力?

      第一,先前啥狀態;

      第二,規劃后續做啥動作;

      第三,環境變了,怎么動態調整;

      真實環境從來不簡單。

      我說得很婉轉,

      在文藝晚會舞臺上跳舞的機器人,

      這類機器人在仿真系統提升能力,

      技能點很單一。

      而在受限環境下行動,

      換個新環境干別的活,

      恐怕要犯老年癡呆。

      35歲以上排隊領雞蛋的老年人表示,

      這是史上被黑的最慘的一次。

      對機器人來說,和金魚一樣的記憶力是不夠的。

      1.記不住過去做過啥(步驟);

      2.一件東西,攝像頭照的那個區里看不見,

      以前放哪也不記得了。





      PI機器人的記憶模塊,

      居然是可插拔的?

      是的。

      我觀察PI團隊,

      是在模型大版本迭代后,

      才單獨推出了一個可插拔的模塊,

      (叫MEM,Multi-scaleEmbodiedMemory)。

      按道理,應該和大版本一起推出,

      然而并沒有。

      中科視語CEO趙朝陽博士告訴我,

      PI公司的模型,從π0.5到π0.6,

      技術提升點很多,

      記憶模塊并不在其中,

      一方面是值得單獨拿出來解決,

      另一個比較合理的解釋,

      就是做大版本的時候,

      這個模塊,還沒有準備好;

      AI行業主打一個,

      沖刺總在截止日期前,

      每家AI公司都一樣,

      好在,記憶模塊(MEM)是相對獨立的。

      “記憶模塊是一個必備的技能。

      所以只不過是去年這個節點上,

      我們認為記憶這件事兒在具身上也可以弄了,

      不像原來那樣那么虛了。”

      誰不想要記憶模塊呢,

      我也想要。

      所以,有了記憶模塊有啥好?

      以前的記憶技術要么只記細節記不住流程,

      要么只記流程沒細節,

      記憶模塊(MEM)直接全搞定,

      還解決了兩個大問題:

      第一,不卡殼。

      視頻編碼器優化了速度,

      哪怕處理多攝像頭畫面,

      反應延遲也低。

      第二,不翻車。

      多源數據訓練避免了“記混動作”,

      加了記憶還不影響操作精度,

      以前加記憶會變慢的毛病徹底根治。

      說實話,這都是長期困擾業界的難題。

      似乎人人都在“記憶”上下功夫,

      兩個月前,開源團隊Deepseek,

      也推出了人家的記憶模塊(Engram)。

      市面上的知名團隊都在下“記憶力”的功夫。

      看上去,“記住”將是智能的下一個拐點。

      從學術到產業,

      圍繞AI記憶能力的研究正在迅速積聚。

      具身智能也沒落下。





      中科紫東太初具身智能部門負責人,

      劉榮博士告訴我:

      “大家緊盯著VLA狂卷,

      因為VLA本身的難點實在也很多。”

      具身智能常用的模型類型就是,

      視覺-語言-動作一體化,簡稱VLA;

      俗稱技術路線。

      這個類型的模型,

      核心概念已經清晰,

      但方法、優化、跨任務能力仍在優化。

      我的觀點是,該技術(模型)處于快速迭代階段,

      其實目前這個架構不錯,

      紅利還沒有吃完。

      所以,大家都在這條道路上狂奔。

      當然,還是得和行業一線專家聊一下。

      中科紫東太初董事長王金橋,

      他給了我更本質的理解:

      “這個架構只是科研人員,

      沿襲著大模型大力出奇跡的思路,

      慣性探索,技術路線遠沒有定型。”

      而中科紫東太初具身智能部門負責人,

      劉榮博士告訴我:

      “實現方法、跨本體跨任務能力仍要優化。”

      我又和中科視語CEO趙朝陽博士,

      聊了如何兼顧研發和工程實戰的打法:

      一種思路,要么模型(VLA),

      直接輸出機器人行動,

      模型把“看到的東西,

      得到的指令”和“該怎么動”,

      結合在一起思考+行動,

      視覺模塊,讓它知道所處環境長什么樣,

      語言模塊,讓它理解任務目標,

      動作模塊則把理解變成行為。



      另一種思路,也是參考行業標桿,

      FigureAI的路線。

      要么用VLM+VLA,

      追求極致工程化,

      VLM模型協調指揮,決策判斷,

      VLA模型負責單步動作執行,

      如,拉開冰箱門是一個單步技術點,;

      關上則可能是另一個。

      而打掃客廳衛生,就涉及到客廳多大,

      窗戶多高,幾件家具之類;

      打掃客廳衛生,需要先擦玻璃、擦桌子,

      再掃地,最后拖地。

      沒做過保潔的人可能壓根不知道,

      地,從來都是留到最后拖的。

      沒搞過科研學術的人可能壓根不知道,

      小環節小動作,都是“多個子任務”。

      “兩個模型各負其責,

      工程上也好調整。”劉榮博士如是說。



      美國舊金山PI機器人團隊的出發點,

      是想在長程任務上做得好。

      阻礙機器人做一系列任務的核心障礙,

      是記憶。

      何時記住?

      記住什么?

      如何記住?

      接著,用這些記憶去指導,

      后面行為與策略規劃。

      簡單地把機器人看見的(所有視覺幀),

      填進模型的上下文窗口既不現實,

      機器人會誤把無關過去行為,

      當成當前決策依據。

      比如,機器人試圖拿起一根小筷子。

      如果沒有記憶功能,

      機器人往往會反復以同樣的方式失敗。

      因為它不記得之前的嘗試,

      所以只會重復相同的行為。

      配上BGM,

      估計就成了一刀不剪的B站鬼畜視頻。

      而有了記憶功能,

      第一次失敗后,

      會設法成功拿起筷子。

      于是,他們團隊為具身智能設計的記憶架構,

      就分為兩層。

      第一層是短期記憶,

      它記錄當下的視覺信息,

      保持機器人對環境的持續感知。

      第二層是長期記憶,

      它用文字形式,

      保存經驗和規則,

      讓機器人能夠跨越較長時間,

      保持任務狀態,

      按需調整。

      這里有點太技術了,

      按中科視語CEO趙朝陽博士的說法,

      從科研直覺去理解,

      人類好久之前的記憶,

      會被總結成經驗,

      ——一朝被蛇咬,十年怕井繩;

      人類近期(短期)記憶,

      更具體,更生動,更多細節,

      非洲大草原上,

      沉睡中的母獅,

      被黑曼巴毒蛇咬了一口下巴,

      獅頭立刻腫成表情包。

      學術說法是:

      短期使用細節信息支持即時行為,

      長期用抽象語義保持任務語境和目標邏輯。

      趙朝陽博士也聊到:

      “記憶分層能設計得更細致,

      長短,長中短,超長期記憶,等等。

      甚至有些永遠不能被遺忘,比如安全底線。”

      看來以后都可以這么玩了:

      大大大記憶,小小小記憶,

      久而久之,研發同學說話都結巴了,

      這絕對是工傷。

      細想起來,這倒是和很多年前,

      阿西莫夫機器人三大定律遙相呼應:

      機器人不會傷害人類。



      記憶本身是個很宏大的主題,

      記憶和現有系統未來會是什么形態?

      記憶不只是存下什么,

      而是進化的底層動力:

      1.整體目標是什么

      2.需要先做什么再做什么

      3.現在做到哪一步了

      4.這一步怎么做

      5.下一步該做什么

      具身智能目前在這個大趨勢上,

      要做出來真正有記憶的機器人,

      如何在復雜、長期任務中持續成長和自適應。

      具身智能只是會感知、會執行,不夠。

      而是會記住、會推理,

      會運用過去的經驗來塑造未來的策略。

      具身智能這么熱,還有一個原因,

      中科紫東太初董事長王金橋

      是這么說的:

      “有太多事情可以做,

      或者說,根本做不過來,

      原因是走得最快的是大語言模型,

      那么大語言模型踩過的坑,

      一定指導多模態大模型。

      多模態模型踩過的坑,

      一定指導具身智能大模型。”



      One More thing

      下內容包含大量科研黑話和學術暴擊,

      看不懂不丟人,能看完的都是狠人,

      建議非戰斗人員提前服用冰美式。

      為什么不用Transformer-XL自回歸?

      答案:不用的原因有三個:

      第一,必須逐步生成,每步依賴前一步輸出,

      不支持并行推理,效率低。

      第二,視覺幀或連續動作序列很長時處理長序列會越來越慢。

      第三,缺乏直接視覺結構建模能力。

      為什么PI機器人的記憶模塊可插拔?

      這個問題,趙朝陽博士給我好好講了講。

      模型π0.6和π0.6*一起發布的,

      加入真機強化學習,

      這將會是未來一段時間VLA的主流打法。

      上一種利器尚且不夠,

      再把記憶模塊也加持上。

      而以前,

      還在用Transformer-XL做自回歸的,

      現在都不用了。

      MEM設計成可插拔不可謂不巧妙,

      雙重否定表達作者非常肯定。

      MEM模型用了谷歌的Gemma3(4B),

      這是在π0.5架構基礎上的升級版本,

      π0.5使用的是Gemma2.6。

      MEM的可插拔特性主要體現在記憶增強模塊上,

      分為短期記憶和長期記憶兩部分。

      在短期記憶方面,

      模型對ViT模塊進行了優化,

      使其能夠處理更多歷史觀察幀,

      從而提升視覺信息的吞吐量。

      具體來說,優化主要集中在時間注意力和空間注意力結構上,

      因為MEM很新,廠商尚未開源,也可以理解。

      長期記憶部分,就更重要了,

      甚至可以說是最重要的“彈藥”,

      那就是數據上下功夫。

      用大語言模型生成訓練數據的方式來增強。

      先總結(抽象在數據里),再讓模型學習。

      Datateachingand machine learning.

      模型會生成類似鏈式推理的摘要和總結數據,

      造數據優化長期記憶,到底怎么做的呢?

      我們認為:關鍵在于,

      造一個帶摘要+總結的樣本數據,

      還要跟他原本樣本的視頻幀情節時間步驟對應上

      最后,再用這些數據訓練主干網絡,

      (視覺-語言模型,Gemma),

      這樣,長期記憶不僅能記錄下事件,

      還抽象經驗,用于后續推理。

      我感慨整個設計很巧妙,

      保證了短期記憶專注于即時操作信息,

      而長期記憶提供跨任務的連續上下文支持。



      陶大程是大曉機器人首席科學家。目前,他任職于新加坡南洋理工大學,擔任杰出大學教授。同時,澳大利亞科學院院士,歐洲科學院外籍院士,當選IEEE、ACM、AAAS等多個國際權威學會會士。長期聚焦于將統計學和數學方法引入人工智能,在表征學習、計算機視覺與深度學習等方向具有奠基性貢獻。

      問題一:記憶是個宏大命題,

      以記憶模塊對現有具身系統的影響來看,

      以您的見識,

      未來會是個啥形態呢?

      陶大程教授回答:未來的記憶,不會只是一個“外掛模塊”,而會成為具身系統的時間操作系統。因為ACE-Brain-0其實告訴我們,具身統一的難點,不在于單個技能,而在于如何把不同域、不同階段、不同粒度的知識組織起來并長期保留下來;它用spatialscaffold解決的是“跨embodiment的共享結構”問題。與之對稱,記憶解決的其實是“跨時間的共享結構”問題。一個解決“不同機器人/不同場景之間怎么統一”,一個解決“同一個機器人在不同時間怎么連續”。所以未來真正強的具身系統,一定不是單純的VLA,而是空間骨架+時間記憶的耦合系統。

      因此,未來具身里的記憶形態,可能會有五層:

      第一層是感知工作記憶。這層記最近幾秒到幾十秒的視覺、觸覺、位姿和交互狀態,用來處理遮擋、局部失誤、抓取重試、視野之外的短時補償。

      第二層是情節記憶。它記錄“剛剛發生了什么、哪一步成功了、哪一步失敗了、失敗后換過什么策略”,服務分鐘級任務。

      第三層是語義/程序記憶。它不是記細節畫面,而是記“我現在做到哪一步、這個任務的標準順序是什么、這個對象通常應該如何處理”。

      第四層是空間記憶。這是ACE-Brain-0給你的重要啟發:未來記憶不能只是文本摘要,還必須帶有空間scaffold,也就是物體位置、相對關系、可達性、場景拓撲。

      第五層是反事實記憶,也就是可執行的世界表征:不是只記“過去如何”,還要能內部模擬“未來可能如何”。這是worldmodel真正進入具身主干之后,記憶會新增的一層。

      第六層是不可遺忘記憶。未來機器人一定會有一部分memory不是為了提升任務成功率,而是為了固化安全邊界、人體禁區、設備極限、規范流程。

      未來的具身記憶,不是更大的contextwindow,而是“分層的、空間化的、可調用的、可修訂的、可執行的MemoryOS”。

      問題二:具身借鑒LLM經驗,

      借鑒VLM經驗是必然的,

      本質該怎么理解?

      陶大程教授回答:具身借鑒LLM/VLM,不是在借一個模型外形,而是在借一整套“如何從海量異構數據中提煉共享先驗、再把共享先驗遷移到具體任務”的方法論。

      第一層本質,是抽象壓縮能力;

      第二層本質,是跨模態對齊能力;

      第三層本質,是空間共享能力

      (ACE-Brain-0:sharedscaffold);

      第四層本質,是自舉改進能力

      (self-evolutionlearning,

      為worldmodel提供了機制性側證);

      第五層本質,是有組織的訓練

      (ACE-Brain-0)。

      第三層:ACE-Brain-0給出了自動駕駛、無人機、機器人操作雖然形態不同、動作空間不同,但都依賴3D空間理解、物體布局建模、幾何關系推理和空間后果預測。

      第四層:ACE-Brain-0其實也在回答,

      “為什么不能所有東西一鍋燉”。

      混合jointtraining會帶來長尾分布、

      梯度干擾、領域稀釋;

      順序微調又會造成災難性遺忘。所以需要Specialize-Reconcile:

      先建專業能力,最后再融合。

      問題三:您的論文中曾強調,

      “通用具身智能要求在異構具身

      (例如自動駕駛、機器人和無人機),

      之間具備強大的泛化能力。”

      具身作為前沿技術技術,

      您是如何理解目前具身產業的?

      陶大程教授回答:

      第一,不能把具身產業只理解成,

      “人形機器人產業”。

      第二,產業真正的壁壘不是模型本身,

      而是“經驗回流閉環”。

      產業中的記憶,不只是模型內部記憶,

      更是企業級經驗記憶。

      第三,產業落地不是單靠端到端autonomy,

      而是“自動化+人類兜底+再學習”的混合系統。

      第四,世界模型(WorldModel),

      將成為產業主戰場,

      支撐PhysicalAI的規模化訓練。

      未來PhysicalAI的真正基礎設施,

      會包括一個可擴展、可校準、可評測、可生成數據的worldmodel。

      第五,數據供給方式本身,就是產業路線分水嶺。

      Reference:

      1. Ziyang Gong, Zehang Luo, Anke Tang, et al.: ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments. arXiv:2603.03198

      2. Shi Fu, Yingjie Wang, Yuzhu Chen, Xinmei Tian, Dacheng Tao: A Theoretical Perspective: How to Prevent Model Collapse in Self-consuming Training Loops. ICLR 2025

      (完)





      聲明:個人原創,僅供參考

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      西方軍事專家:只有吉爾吉斯斯坦知道,中國早就是最強超級大國了

      西方軍事專家:只有吉爾吉斯斯坦知道,中國早就是最強超級大國了

      混沌錄
      2026-04-05 16:33:12
      松島3-4遭逆轉追平歷史,日媒驚嘆險勝世界第一

      松島3-4遭逆轉追平歷史,日媒驚嘆險勝世界第一

      曦言說
      2026-04-06 01:24:02
      退休不是“自由身”!2026嚴管:機關事業單位退休人員兼職紅線

      退休不是“自由身”!2026嚴管:機關事業單位退休人員兼職紅線

      寶哥精彩賽事
      2026-04-05 21:40:44
      特朗普:美軍執行了“美國歷史上最大膽的搜救行動之一”,第二名失蹤飛行員“已平安無事”

      特朗普:美軍執行了“美國歷史上最大膽的搜救行動之一”,第二名失蹤飛行員“已平安無事”

      星島記事
      2026-04-05 12:32:17
      頂格處罰!選手乘摩托作弊還拒退賽,絕不姑息!

      頂格處罰!選手乘摩托作弊還拒退賽,絕不姑息!

      老王談跑步
      2026-04-05 16:15:47
      云南3歲女童在家被眼鏡王蛇咬傷全身癱瘓,假死3天奇跡生還

      云南3歲女童在家被眼鏡王蛇咬傷全身癱瘓,假死3天奇跡生還

      大象新聞
      2026-04-05 00:48:02
      以軍稱打擊伊朗120多個防空和導彈系統目標

      以軍稱打擊伊朗120多個防空和導彈系統目標

      新華社
      2026-04-05 16:13:02
      一大早NBA傳來4個勁爆消息:湖人遭三重打擊,火箭勇士迎來好消息

      一大早NBA傳來4個勁爆消息:湖人遭三重打擊,火箭勇士迎來好消息

      毒舌NBA
      2026-04-05 07:59:11
      霍爾木茲航運追蹤:海峽七天通航量創戰后之最 首艘法國船只穿行

      霍爾木茲航運追蹤:海峽七天通航量創戰后之最 首艘法國船只穿行

      財聯社
      2026-04-05 07:58:06
      一級致癌物已經公布,世衛組織呼吁停止食用,看完轉告父母

      一級致癌物已經公布,世衛組織呼吁停止食用,看完轉告父母

      劉哥談體育
      2026-04-05 00:07:28
      醫生告誡:每天睡前玩手機的人,不用半年時間,睡眠或有這6變化

      醫生告誡:每天睡前玩手機的人,不用半年時間,睡眠或有這6變化

      白話電影院
      2026-04-05 15:34:47
      藍營震蕩!鄭麗文再獲一大靠山,大佬集體轉向,唯有一人不肯低頭

      藍營震蕩!鄭麗文再獲一大靠山,大佬集體轉向,唯有一人不肯低頭

      共工之錨
      2026-04-04 19:28:55
      停手!不要掏耳屎了

      停手!不要掏耳屎了

      大象新聞
      2026-04-03 07:33:05
      女子赴發小婚禮穿瑜伽褲,打扮過于火辣,網友直呼跟沒穿似的

      女子赴發小婚禮穿瑜伽褲,打扮過于火辣,網友直呼跟沒穿似的

      一盅情懷
      2026-03-16 17:28:45
      陜西女警花臥底被揪出,被歹徒折磨7天解救:人都已經垮了

      陜西女警花臥底被揪出,被歹徒折磨7天解救:人都已經垮了

      罪案洞察者
      2025-03-07 08:59:25
      33歲程序員午休健身時猝死!公司:屬于工作時間,人社局:不算工傷!法院判了……

      33歲程序員午休健身時猝死!公司:屬于工作時間,人社局:不算工傷!法院判了……

      環球網資訊
      2026-04-05 13:56:06
      被戰爭打醒了!外媒稱阿聯酋放棄投資陣風,退單狂潮即將上演?

      被戰爭打醒了!外媒稱阿聯酋放棄投資陣風,退單狂潮即將上演?

      肖茲探秘說
      2026-04-05 19:24:03
      2020年,那個因洗白侵華,被開除黨籍的教授梁艷萍,如今怎樣?

      2020年,那個因洗白侵華,被開除黨籍的教授梁艷萍,如今怎樣?

      阿器談史
      2026-03-16 21:30:35
      陪玩陪睡根本不夠!繼要求結扎后,王晶再爆潛規則,單依純被牽連

      陪玩陪睡根本不夠!繼要求結扎后,王晶再爆潛規則,單依純被牽連

      秋姐居
      2026-04-04 22:48:00
      補時2球+點球決戰!利茲聯6-4西漢姆 足總杯4強誕生 黑馬攪局豪門

      補時2球+點球決戰!利茲聯6-4西漢姆 足總杯4強誕生 黑馬攪局豪門

      萬花筒體育球球
      2026-04-06 07:05:12
      2026-04-06 08:00:49
      親愛的數據 incentive-icons
      親愛的數據
      《我看見了風暴:人工智能基建革命》一書作者
      693文章數 219913關注度
      往期回顧 全部

      科技要聞

      花200薅5千算力,Claude冷血斷供“龍蝦”

      頭條要聞

      伊朗媒體:多名美士兵在營救行動中身亡 美軍試圖摧毀遺體

      頭條要聞

      伊朗媒體:多名美士兵在營救行動中身亡 美軍試圖摧毀遺體

      體育要聞

      CBA最老球員,身價7500萬美元

      娛樂要聞

      王燦兮否認婆媳不和 曬與杜淳媽合影

      財經要聞

      誰造出了優思益這頭“怪物”?

      汽車要聞

      家用SUV沒駕駛樂趣?極氪8X第一個不同意

      態度原創

      健康
      房產
      教育
      數碼
      軍事航空

      干細胞抗衰4大誤區,90%的人都中招

      房產要聞

      小陽春全面啟動!現房,才是這波行情里最穩的上車票

      教育要聞

      成都七中,不愧是成都人眼中的愛馬仕

      數碼要聞

      大膽復古美學,海盜船推出原子紫配色K65 PLUS WIRELESS機械鍵盤

      軍事要聞

      美飛行員獲救細節:美伊發生激烈交火 至少4死1傷

      無障礙瀏覽 進入關懷版