![]()
物理動作前的思考,要用物理空間中的視頻進行推理。
作者丨劉欣
編輯丨高景輝
![]()
相比于虛擬世界,真實的世界充斥著動態變化的環境變量和各種各樣的物理規則,這要求基礎模型不僅具備強大的感知與計算能力,更需擁有理解物理規律、預判場景變化的綜合能力。
在此背景下,基礎模型的能力邊界不斷被突破,而新一代AI架構與物理世界建模作為全球AI領域最核心的前沿探索方向之一,更是成為技術突破的關鍵抓手。
如何通過新一代AI架構的創新迭代,賦能物理世界建模的精準化、高效化,讓AI更好地理解、建模并交互物理環境。這是中山大學計算機學院的青年研究員、博士生導師,同時也是拓元智慧首席科學家的王廣潤博士所一直鉆研的問題。
2025年12月13日,在雷峰網舉辦的第八屆GAIR全球人工智能與機器人大會現場,王廣潤博士做了題為《創新基礎模型,強化物理世界建模》的分享。
以下為他的演講內容,AI科技評論做了不改變原意的編輯:
我的題目是《創新基礎模型,強化物理世界建模》,我們實驗室叫HCP,大概在十幾年前就取這個名字了,其中就包括了physical intelligence,我們知道在具身智能領域有一家比較好的公司就叫Physical Intelligence,所以向大家匯報一下。
01
什么是物理空間智能
![]()
我們希望物理空間模型能夠成為“物理世界操作系統”的內核,也希望未來的物理空間的智能能夠通過相對應的圖靈測試:可以看到這是一個比較臟亂的房間,當我們早上出去的時候,這個房間還很臟亂,回來之后它就變得很干凈了,以至于我們分不清這個房間是人打掃的還是有一個AI來幫我們打掃的。有人認為這樣就通過了圖靈測試,但是我不這么認為。
![]()
今天在做物理模型或具身智能的時候,經常能聽到一個詞叫端到端,其實端到端這個詞很早以前就有了。我這邊放了兩個slide:左邊是十年前王曉剛老師在波士頓的演講,他就提到了端到端;右邊是何愷明老師在2016年紐約的一個匯報。
大家可能認為端到端有一些比較好的特點,是非端到端的分層學習所不具備的。我們今天在做物理建模的時候,也希望我們的物理模型能實現相對應的端到端,其中包括把模型里面的感知、規劃和執行用端到端來實現。
![]()
如上圖所示,我們的模型是相應的文本、圖象還有其他的信息,先前的做法會有一個感知,得到感知之后就做相應的規劃,之后就會執行。端到端的話就是把整個東西變成一個黑盒或者一個系統,一口氣出來。
這樣的一個端到端的物理模型,它有很多的應用,比如機器人、航天,還有自動駕駛等。我們最近有很多的相關工作。值得注意的是,前幾天航天已經可以商業化使用了,所以這也是一個很好的方向。
但是端到端的特點就是需要非常多的數據來訓練它,這也是為什么端到端和物理模型比較困難的原因。
![]()
端到端的系統可以進一步簡化成這樣的端到端:輸入為各式各樣的東西,比如圖象、文本還有其他的狀態,輸出也是相應的多模態,例如文本和動作等等。
![]()
一個更加典范的端到端系統是這樣的,輸入是包括物理世界的一些東西,它經過一個空間的建模,得到相應的信息。然后我們再給一個指令,經過物理建模之后,它會輸出物理世界的預測以及指令的分解。
不同的人對物理世界模型的理解不太一樣,有一些人認為物理世界模型是對未來世界的預測、相應的分解,這是我們說的一種物理世界模型的理解。在這一框架下,預測得到的未來物理世界狀態會與當前的物理世界表示共同進入空間建模與物理建模模塊,從而生成具體的動作決策;這些動作最終被執行,用以與真實物理世界進行交互。
特別值得注意的是,我們發現其中的空間建模模塊本身具備良好的自適應能力,這是一個非常重要的特性。進一步地,我們觀察到,現階段對大模型的微調在很大程度上可能只需要對空間建模中的一小部分參數進行微調,而其他模塊并不需要調整,相關原因我將在后文中進一步說明。
![]()
我們今天圍繞《創新基礎模型,強化物理世界建模》的題目來講,主要包括三個方面的內容,一個是框架,一個是模型,還有是基準。
02
框架:全局迭代生成
框架的進展近十年是非常緩慢的,大概在80年代到2017年,分別有三個相應的框架,比如多層感知器,卷積神經網絡以及Transformer等等,對應著也有很多獎項。
![]()
但是從2017年1月之后一直到現在,現在馬上到2026年1月份了,這十年的進展是比較緩慢的。
![]()
雖然很緩慢,但還是有不同的研究機構和很多的公司都想推進框架。比如Deepseek它也一直想推進一些新的架構的發展,Demis Hassibis的一個雄心壯志是想推出一個新的架構,原話是:我們發明了Transformer,所以下一個出來的架構可能也是我們做出來的。
我們的團隊在框架探索方面也做了一些努力,包括在單元結算、結構計算和推理計算方面提出了一些自己的框架,我今天主要介紹第三個。
![]()
一個大模型的生成有幾種形式,最常見的一種是數據生成,好比左邊所示,它的字是一個一個出來的。這就是一個順序生成的過程。
還有一種方法是全局迭代生成,比如要生成一個結果,一段文本,它可能就是先出來一個文本的整體的框架,再進行相應的調整,一下子就出來整個文章,因為這樣的全局生成是非常快的。
![]()
全局迭代生成有一些優勢:首先它是一個考慮全局性的漸進精化的過程,天然的自帶推理能力。以左邊這張圖為例,這是毛主席的一首詩詞,他在寫這首詞的時候可能先寫完,再對其中一些不滿意的地方修改,然后出來相應的詩詞。這一種生成方式就是生成之后還會對其中一些進行推理推敲。相比之下,現有大模型在生成時往往采用嚴格的順序生成方式,逐字輸出,一旦生成便無法回溯修改。這種方式更接近于“謄寫”而非“創作”,體現的是不同的生成范式。
全局迭代生成的第二個優勢是很快,剛才的例子一眨眼就出來了,這里也體現了另一個例子,在代碼設計方面,它也是比逐個的自回歸生成快很多。
第三個優勢是它能實現多模態的統一,因為我們的圖像也是這樣一個迭代的生成,如果文本和其他的模態也是這樣生成的話,都會有利于他們之間的統一。
剛剛講到了圖像的生成是利用一個連續的擴散模型,是在連續信號上做這樣的生成,比如我要生成一個小鹿,它最開始的時候是相應的一個噪聲,這個噪聲經過幾次迭代之后,慢慢出來一個小鹿。
![]()
這個東西不可以直接用在語言上的,因為語言是一個離散的信號,比如圖中的“this is a cat”,這就沒辦法往上面加噪聲,而且它的訓練的損失函數也是一個交叉熵的損失函數。
![]()
在語言生成領域,已有一類方法被稱為離散擴散模型,它主要有三種:第一種最傳統,是用馬爾可夫的性質實現它,一開始輸出相應的文本,再跳轉別的文本,慢慢出現這種文本,但是這種方法是目前最差的,因為它依賴馬爾可夫的假設,很容易形成這樣相應的誤差。
![]()
第二種方法是在連續的embedding空間中做擴散,例如將輸入 “this is a cat” 映射到嵌入空間后,在該連續表示上進行去噪。但這種方法存在天然缺陷:embedding模型和擴散模型需要同時學習,容易發生表示坍塌。模型可能走捷徑,將embedding投影到接近零的空間,使去噪變得過于容易,從而產生shortcut learning,最終難以學到有效表示。
為了避免shortcut learning,一種常見思路是借鑒Stable Diffusion的做法,先預訓練一個自編碼器,將文本映射到連續的潛在空間中。然而,在這種分階段訓練框架下,自編碼器本身的學習仍然較為困難,且整體的分階段訓練在性能上往往并不理想。
![]()
其實在擴散語言模型中,現在用得最多的方法是基于mask的方法,這便是第三種方法。這個方法是把詞給隨機的蓋住,來預測蓋住的是什么詞語,通過交叉熵的形式預測出來。這種方法跟BERT架構是非常接近的,它其實跟圖像領域的擴散模型還是很不一樣,它是通過掩蓋的形式預測出來,我們也證明了它在超額風險上存在一些不足,所以現在的擴散語言模型用這套方法還是不太理想。
![]()
所以我們提出了一個非常不一樣的全新的擴散模型,叫做原位推理的離散擴散模型。原位的意思是指我們離散的信號可以編碼成這樣一個one-hot的表示,就是001這樣的一個編碼。我們可以直接在one-hot表示上加噪聲,然后給它去噪。這個方法是直接在離散信號上做加噪去噪,取得了意想不到的好的效果。
![]()
它的前向過程是直接對one-hot進行加噪,去噪就是給一個隨機的高斯噪聲,慢慢去噪,最后跟我們的離散擴散模型非常的一致。
![]()
我們也給出了一些理論上的分析,因為它遵循了Tweddie’s formula這個比較著名的恒等式,所以滿足這個fisher divergence的特點,所以使得它的訓練和測試都非常穩定。
![]()
我們也做了一些相應的實驗,比如這是單個token的生成,結果非常好。
![]()
在一些文本生成的實驗上,我們比現有的基于Mask的方法(MDD這一行)也有比較大的提升。可以看到圖中的第二行的最后一列,這是現有的基于Mask的方法出來的結果,出來的句子其實是比較差的。相比之下,我們剛才非常簡單的方法,出來的效果就非常好。我們也正在準備發布一個這樣的比較大的語言模型。
![]()
這是去噪的過程,可以看到隨著迭代的變化,token從一個非常不確定的狀態,慢慢的把離散信號給預測出來了。
![]()
這是一個去噪的可視化結果,可以看出來,在第90的時候還是比較亂的,慢慢的到第10之后,相應的文本就會出來。
03
模型:E0具身大模型
![]()
有了跟別人不一樣的框架之后,就開始訓練我們的模型。現在機器人的模型里面大家用的比較多的是VLA模型,但它存在著很多的瓶頸:首先,其泛化能力不是很強,機器人在一個環境中使用,但是到另外一個環境,跌得特別厲害。
![]()
其次,動作控制的精度仍然較為粗糙,例如讓機器人完成插插頭這類精細操作在實際中仍然非常困難。第三,則是建模范式上的不一致性。以剛才提到的經典模型 Π0 和 Π0.5 為例,其前端依賴預訓練的語言模型,采用的是離散建模過程,而后端則引入了基于連續信號的擴散模型。這種從離散到連續的建模切換在范式上并不完全兼容。事實上,現有許多知名的VLA模型大致都可以歸為這兩類:要么基于離散建模,要么基于連續擴散建模。
![]()
我們提出了一種新的具身大模型E0,其核心采用了我們新提出的擴散模型。該模型能夠實現對動作精度的高分辨率建模與分級,從而具備更高的控制靈活性。此外,我們還引入了球面視角表示來訓練模型,以增強其對復雜空間結構的建模能力。
![]()
這就是我們提出的整體框架,其中包含一個VLM,以及我們剛剛提出的一種新的離散擴散模型。
![]()
可以看一下我們的結果:在很多數據集上都表現得非常優秀,例如LIBERO、ManiSkill、VLABench上都取得非常好的效果,跟那些基線模型在相同情況下對比,可以發現我們在精細操作、場景理解、長程任務上都表現得非常突出。
![]()
這個是RoboTwin的另外一個數據集,可以看出左邊這一列是單臂的機器人,右邊是雙臂的機器人,我們的方法在很多任務上都有明顯的提升。
![]()
我們的模型在真機實驗上也比較優秀,采用了五個短程任務和三個長程任務來做實驗。最下面這行是跟 Π0 相比的結果,效果還是有比較大的提升,并且在很多的任務上有很強的泛化性。
![]()
從消融實驗可以看出來,我們支持任意大小的離散化分塊數量,控制程度可以非常的精細,控制動作的維度跟真實的機器人接近時表現更好。
![]()
這是LIBERO的數據集,是大家用得非常多的一個數據集,可以看到我們在很多任務上都做得非常好。
![]()
這是另外一個數據集ManiSkill,有一個比較難的任務就是插銷和插插座,看起來這個任務簡單,但在真實的應用中,插插座還是非常難的,因為我們可以做到非常精細的控制,這種任務也完成的不錯。
![]()
這是另外一個數據集上的結果VLABench,這里我們讓機器人打牌或打麻將,它能夠比較好的識別到我們要取的是哪張牌,哪個麻將,來進行相應的操作。
![]()
我們來看幾個真機的任務,比如撿方塊、按按鈕、關微波爐門,開抽屜以及疊方塊等等,這些任務上都表現得非常棒。尤其是在長程任務上,例如先拉開抽屜再放入方塊、將碟子放入微波爐并關閉爐門、以及依次將方塊疊放在碟子上,模型展現出了非常穩定且出色的表現。
![]()
還在一些沒有見過的場景里面,它的泛化也是非常強的,這些都是我們沒有訓練過的場景,以及在被人為打斷的任務中,它原來要拿兩個方塊,拿到一半的時候,有人把這個東西推開了,它還是很棒的執行下來。
![]()
我這里還想分享一個觀點,在具身機器人VLA的任務中,有一個比喻是:我們在一個監控中心看不同房間的監控視頻,通過監控視頻來遙操我們的機器人做一些事情。
我的意思是:當我們通過熟悉某一個房間中監控視頻與機械臂運動之間的對應關系后,確實可以學會遠程操控該房間內的機器人完成任務;但當場景切換到另一個房間時,是否能夠立即泛化到新的監控視頻與機械臂運動關系,從而直接成功遙控另一臺機器人?實際上,這是做不到的。人已經是一個非常泛化的智能體了,但是到了一個新場景,再去控制機器人的話還是做不到。這說明了一個問題,為什么現在具身智能這么難的原因,是因為我們需要進行一個解耦,把物理模型和空間模型進行解耦。
![]()
我認為人在相應的環境下需要做相應的適應。舉個例子:一臺能夠在你家環境中完成家務的機器人,當被部署到我家時,能否通過一次快速的環境適配過程(類似于機器自檢或校準),同樣勝任我家環境中的家務任務?
所以我們提出的新方法,就是把物理模型解耦成兩部分,一個是物理建模,一個是空間建模。以圖中所示框架為例,這是一個典型的 Π0 / Π0.5 架構。我們的實驗表明,整個模型在適配新環境時無需對大部分模塊進行微調,只需在視覺模塊中調整約四千個或者4M個參數,便可實現良好的適應效果;僅使用一條樣本即可完成有效微調。
![]()
這就是剛剛講的例子,我們在一個新的環境下不要調一個個具身模型有20億個參數,只要對視覺模塊里面非常小的一部分參數,用一條樣本來微調,就已經能達到很好的效果。
![]()
這是微調前的視覺特征,去到一個新環境,如果沒有微調,它相應的視覺特征是比較混淆的。做一個小的微調之后,它的特征就可以分得比較清,就可以實現非常好的泛化。
值得注意的是,這一結論在真實機器人環境中同樣成立。眾所周知,現有的機器人模型在部署到真實環境時通常需要進行一定程度的微調;而在我們的方法中,即便是在真機條件下,也只需使用極少量的樣本(例如僅一條),并對視覺模塊中極少數參數進行微調,便能夠完成抓取任務。
![]()
關于世界模型我想舉一個例子,比如在這個圖的左下邊,輸入圖片以后,問車的狀態是怎么樣的。在語言模型里面會用語言的方式分析這個圖象,最終得出這個車門是打開的,這是語言模型的推理。
在物理世界中的推理顯然是不一樣的,如果問我掃地機器人能不能對房間進行一個很好的打理,只用語言文本和多模態模型來推理其實是做不到的,它對空間的感知能力是很差的。
我們的方法是,我們在做相應的物理動作前要進行思考,這個思考是要用視頻的方式進行,也就是我們要做相應的規劃,在物理空間做相應的視頻推理,才能給出來相應的答案。
04
基準:無人化物理智能測評平臺
![]()
講完框架和模型之后,最后介紹一下基準。具身智能這個領域很多都是用仿真的數據集來測試,真機上的話,大家都在自己的機器上做,你做你的,我做我的,比較難統一,也不是很公平,而且有些團隊也沒有很好的真機基礎。
![]()
所以我們也提出了一個真實的評測基礎,我們搭建了一個框架:用戶只需要在互聯網端調用相應的框架,就可以在我們實驗室的機器人來完成相應的評測,進行相應的使用。
我今天分享就這么多,謝謝大家。
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!
公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.