過去一年,具身智能領(lǐng)域反復(fù)被問到一個問題:它到底只是多模態(tài)模型的一個應(yīng)用,還是一種全新的基礎(chǔ)模型?
對此,自變量機器人創(chuàng)始人兼CEO王潛表示:
- 具身智能模型是物理世界的基礎(chǔ)模型,獨立于、平行于語言模型、多模態(tài)模型等虛擬世界的模型。
這一判斷背后,首先是對物理世界與虛擬世界本質(zhì)差異的重新認(rèn)識。
語言模型和多模態(tài)模型所面對的,是高度可復(fù)現(xiàn)、低隨機性的符號世界;而機器人所處的物理世界,則充滿連續(xù)性、隨機性、不完全可觀測性以及大量與力、接觸和時序強相關(guān)的過程。
沿用以語言和視覺為中心建立起來的建模范式,本身就存在結(jié)構(gòu)性的錯位。
也正因為如此,自變量機器人在實踐中選擇了一條更長期的路線:不把具身智能當(dāng)作應(yīng)用層問題,而是從模型架構(gòu)、數(shù)據(jù)范式、推理方式乃至硬件形態(tài)上,系統(tǒng)性地重做一套“物理世界的智能底座”。
![]()
為了完整體現(xiàn)王潛的思考,在不改變原意的基礎(chǔ)上,量子位對演講內(nèi)容進(jìn)行了編輯整理,希望能給你帶來更多啟發(fā)。
MEET2026智能未來大會是由量子位主辦的行業(yè)峰會,近30位產(chǎn)業(yè)代表與會討論。線下參會觀眾近1500人,線上直播觀眾350萬+,獲得了主流媒體的廣泛關(guān)注與報道。
核心觀點梳理
- 最近具身智能領(lǐng)域有一個爭論:具身智能究竟應(yīng)被視為應(yīng)用,還是應(yīng)當(dāng)被定位為獨立的基礎(chǔ)模型?我們非常明確地認(rèn)為,具身智能模型獨立或平行于虛擬世界中的語言、多模態(tài)模型,是一種專門面向物理世界的基礎(chǔ)模型。
- 物理世界的特性與虛擬世界差異巨大,尤其是物理事件存在高度隨機性。
- 現(xiàn)有的模型架構(gòu)、訓(xùn)練方法和數(shù)據(jù)能力,很難對高度隨機性的現(xiàn)象做出充分準(zhǔn)確的刻畫。
- 如果以未來十年為尺度,具身智能基礎(chǔ)模型甚至有可能反過來吞噬現(xiàn)有多模態(tài)模型的生存空間。
- 要構(gòu)建一個統(tǒng)一的基礎(chǔ)模型,它自然應(yīng)是完全端到端的。這一點在當(dāng)下某種程度上已經(jīng)成為行業(yè)共識。
以下為王潛演講全文:
具身智能模型是平行于語言模型的獨立基礎(chǔ)模型
大家好,最近具身智能領(lǐng)域存在一個爭論:究竟要把具身智能看成是一個AI應(yīng)用,還是一個獨立的基礎(chǔ)模型?
很多人會疑惑,今天所有的具身智能模型仍然是在一個多模態(tài)模型的基礎(chǔ)上加上Action的部分,做后訓(xùn)練的微調(diào),少部分有預(yù)訓(xùn)練,也只涉及到視覺,沒有涉及到語言。
這種情況下,是不是能稱之為是一個獨立、專門服務(wù)于物理世界的基礎(chǔ)模型?可能有些爭議。
作為一線從業(yè)者,我們還是非常明確地認(rèn)為,我們在做的具身智能模型的確就是一個完全獨立于或者平行于虛擬世界中的語言模型、多模態(tài)模型的另外一個專門為物理世界使用的基礎(chǔ)模型。
這件事情真的這么重要嗎?它的確非常重要。
我們在實際使用過程中,確實碰到了以往的架構(gòu)所解決不了的問題。
另外,當(dāng)視角轉(zhuǎn)變過來,將具身智能看作是一個獨立的基礎(chǔ)模型時。我們會發(fā)現(xiàn)對于模型架構(gòu)、數(shù)據(jù)、包括后續(xù)產(chǎn)品的商業(yè)化,整個視角都會發(fā)生巨大的變化。
這也是今天雖然還是使用多模態(tài)的模型去做backbone,在其上做后訓(xùn)練,做微調(diào),我們?nèi)匀贿€是很堅定地認(rèn)為在做的是一個基礎(chǔ)模型的最核心原因。
為什么需要一個單獨的基礎(chǔ)模型
為什么我們需要一個單獨的基礎(chǔ)模型,原因非常簡單:
物理世界的特性和虛擬世界差異太大了,在物理世界中最常見的一個問題就是隨機性,用相同的角度、相同的力度推一個相同的杯子,可能十次會停在十個不同的地方。
這在虛擬世界幾乎是不會發(fā)生的,如果內(nèi)存狀態(tài)一樣,跑十次代碼,十次基本是相同的結(jié)果。
![]()
當(dāng)然不排除有什么宇宙射線把它的比特翻轉(zhuǎn),這個情況是極少數(shù)發(fā)生的。
所有物理世界發(fā)生的事情都具有高度隨機的特性。現(xiàn)有的模型架構(gòu)、訓(xùn)練方法、數(shù)據(jù),很難精確描述高度隨機性的現(xiàn)象。
盡管今天所有的具身模型還是建立在語言和多模態(tài)模型,或者視覺模型的基礎(chǔ)上,但語言和視覺本質(zhì)上并不是特別好的一個用來描述動作、描述物理過程的工具。
一個非常明顯的現(xiàn)象是,語言只能描述一些長序列的事情,比如發(fā)生時間在10秒鐘以上的事情,如果描述一些精細(xì)的操作,如怎么炒菜還是不太現(xiàn)實的。
![]()
圖像比語言精度好很多,但同樣會面臨很多問題,比如工具使用、遮擋。
大量涉及力的過程、接觸的過程,沒有辦法靠語言和圖像去做。
這就提出了一個根本性的問題:現(xiàn)有的模型是建立在語言和視覺模型的基礎(chǔ)上,這樣到底對不對?
很明顯是不正確的。實際上我們需要某種意義上完全另起爐灶,把它重新訓(xùn)練成一個專門供物理世界使用的基礎(chǔ)模型。
![]()
剛才我提到的這些,本質(zhì)上都是一個問題,即物理世界的復(fù)雜性本質(zhì)上不同于虛擬世界,所被壓縮出來的世界的結(jié)構(gòu)和虛擬世界有很大不同。
多模態(tài)模型的未來
當(dāng)轉(zhuǎn)變這一思路后,會給模型架構(gòu)帶來很多不一樣的視角和觀點。
其中一個非常重要,在感知和決策的層面上,之前都是沿用在虛擬世界中學(xué)習(xí)的結(jié)構(gòu)。
這會帶來一個實質(zhì)性的問題,也是在今天多模態(tài)領(lǐng)域存在的一個實質(zhì)性問題,就是人類在物理世界中學(xué)習(xí)和感知的方式和在虛擬世界中完全不同。
![]()
在虛擬世界中學(xué)習(xí),比如怎么樣判定一只狗是一只狗,而不是一只貓,需要在一萬張圖片里抽取出共同的Feature,看到一個新的圖片時將這個Feature去匹配,這是統(tǒng)計學(xué)習(xí)到今天最常用的范式。
實際上,我們在日常生活中碰到一只狗,不是這么去學(xué)的,也不需要一萬張狗的圖片,只需要看到一只狗,讓它轉(zhuǎn)一圈,在這個過程中,便獲得了一個帶有因果性、時序信息的連續(xù)觀察流。
同時,因為有空間位置信息,大致上能夠感受得到狗的三維結(jié)構(gòu)。
除此之外,我們還可以主動和狗互動,比如和它握握手,進(jìn)而獲得了一個和觀察策略相關(guān)的觀察結(jié)果,叫做Interactive Perception,過程叫做Active Perception。
在這個過程中,其實和在虛擬世界的學(xué)習(xí)方式產(chǎn)生了大量根本性的不同,這應(yīng)該是多模態(tài)模型未來重要的發(fā)展方向。
如果還是堅持之前靜態(tài)的、固定的數(shù)據(jù)的學(xué)習(xí)方式,是做不到像人類一樣高效率,實現(xiàn)節(jié)省數(shù)據(jù)和算力的學(xué)習(xí)結(jié)果。
如果以十年為周期,具身智能的基礎(chǔ)模型很可能會反過來吞噬現(xiàn)有的多模態(tài)模型的生存空間。
當(dāng)前模型架構(gòu)的trade off
既然要做統(tǒng)一的基礎(chǔ)模型,自然是完全端到端,這在今天已經(jīng)逐漸達(dá)成共識。那沒有形成共識的是什么?
要做快慢系統(tǒng),是因為統(tǒng)一模型的推理速度會變得比較慢。
我個人的看法是,這是在目前的模型架構(gòu)下所采用的一種Trade off(權(quán)衡)的形式。
要根本解決模型的問題,還是需要把它當(dāng)成另外一個完全不同于已有模型,專門需要考慮端側(cè)部署和推理,在設(shè)計時就要考慮這些問題的模型,這也是自變量探索的結(jié)果。
剛才這個視頻,在這種高度復(fù)雜的任務(wù)上,自變量已經(jīng)很好地實現(xiàn)了非常快的速度,而且這個速度是要超過人類當(dāng)時給它做訓(xùn)練,收集數(shù)據(jù)時的速度。
![]()
【此處無法插入視頻,遺憾……可到量子位公眾號查看~】
完全1倍速記錄,比遙操作的速度快很多,同時能維持非常好的準(zhǔn)確率和最終效果,這個任務(wù)難度也非常高。
另外一個問題就是機器人本體泛化問題,某種意義上也是因為還在沿用過往的模型架構(gòu)做機器人。
這個視頻是自變量實現(xiàn)的非常典型的跨本體泛化任務(wù),我們從夾爪的模型上遷移到高自由度靈巧手上,15個主動自由度,一共20個自由度的高自由度靈巧手,只用了非常少量的樣本,這說明模型本質(zhì)上已經(jīng)學(xué)會了一些基礎(chǔ)的物理規(guī)律,物體的基本屬性,一些基本的動作模式。
![]()
【此處無法插入視頻,遺憾……可到量子位公眾號查看~】
這一模型可能在當(dāng)時的時間點上是最領(lǐng)先的,也可能是唯一一個用端到端的VLA模型驅(qū)動高自由度靈巧手的例子。
![]()
另外我們希望具身模型不止是生成動作去控制機器人,還期望它是一個世界模型,這樣就可以用生成出來的未來世界的狀態(tài)做各種各樣的事情,也希望它是Spatial intelligence,這樣就可以利用三維結(jié)構(gòu)。
也希望它仍然延續(xù)了VLA的語言能力,實際上自變量今天做的就是把所有的能力都放在同一個模型上,讓它擁有語言能力、世界模型的能力,視頻生成的能力、三維重現(xiàn)的能力。
在這基礎(chǔ)上,今天的一些爭論點可能并不是十分合理,很多人認(rèn)為VLA和世界模型是不是互相替代的關(guān)系,或者是兩個不同的技術(shù)分支。
在剛才的架構(gòu)里,這些只是同一個模型不同的輸出而已,是在同一個物理世界基礎(chǔ)模型的框架下所做的不同努力,這就是一定要把具身智能模型單獨分離出來,作為一個新的范式最重要的原因之一。
順便打打廣告,自變量自研的WALL-OSS,也是目前領(lǐng)先的開源物理世界基礎(chǔ)模型,具備VLA模型控制機器人的能力。
![]()
同時也具備非常好的泛化和智能跟隨的能力,同時能夠做Subtask的區(qū)分,從而構(gòu)建長序列的思維鏈,解決非常復(fù)雜和長序列的問題。
具身智能的Scaling Law
剛才提到了改變視角對于模型架構(gòu)的變化,另一方面,改變視角對于數(shù)據(jù)的看法也更本質(zhì)。
過去在大模型領(lǐng)域,Scaling Law是核心考慮的事情,其中數(shù)據(jù)的Scaling Law普遍被稱為在機器人上最困難的事。
雖然都是要做更多、更好的數(shù)據(jù),是否需要用虛擬數(shù)據(jù)、合成數(shù)據(jù),還是要在真實數(shù)據(jù)里挖掘一些動作等,還是可以有更好的方法實現(xiàn)。
受限于時間,自變量也做了大量工作,我們認(rèn)為現(xiàn)實世界的數(shù)據(jù)應(yīng)該是最主要的來源。
我們從以往的大模型的學(xué)習(xí)中獲得了一個重要的insight,就是訓(xùn)練還是要分階段,所以數(shù)據(jù)也是要分階段的,需要有預(yù)訓(xùn)練的數(shù)據(jù),也需要有后訓(xùn)練的數(shù)據(jù)。
更重要的,我們發(fā)現(xiàn)了第三個Scaling Law,在后訓(xùn)練之后還可以在推理時做拓展,在推理時用CoT的方式、用其他推理的拓展方式,讓模型表現(xiàn)變得更加好。
![]()
剛才有其他嘉賓提到了這個范式天然非常適合于具身智能、機器人。
我們在物理世界中是一個持續(xù)學(xué)習(xí)的過程,不會把所有的數(shù)據(jù)上傳到云上,形成一個完全的批次,反過來再下載到端側(cè)上,我們還是希望端側(cè)上每收集到的一個新數(shù)據(jù)能夠?qū)崟r更新,在整個生命歷程里都能夠有體驗學(xué)習(xí)的過程。
這應(yīng)該是一個本質(zhì)上優(yōu)于以往集中式批次式訓(xùn)練的方法,當(dāng)然這帶來了很多額外的難度。
在體系架構(gòu)上,在System上,在硬件上都會有相應(yīng)的調(diào)整。但如果不把具身智能看作是一個獨立的基礎(chǔ)模型,獨立的發(fā)展方向,一定還是會受制于以往在其他模態(tài)的模型里面所碰到的一些問題。
讓AI來定義硬件
一個全新的學(xué)習(xí)范式,自然需要改造在物理世界中的硬件載體,在具身智能中非常核心的一點是,一定要讓AI定義硬件,而不是先去制造一個完美的硬件,然后再在上面做AI的模型。
自變量堅持軟硬一體同步發(fā)展,目前已經(jīng)實現(xiàn)了兩款全自研的輪式底盤人形機器人,以及高自由度的靈巧手,現(xiàn)在也已經(jīng)開始向市場銷售。
最后想說一件事情,大家普遍意義上還是有點低估了具身智能的發(fā)展和影響,普遍還是認(rèn)為在AI領(lǐng)域語言、數(shù)學(xué)、代碼這些領(lǐng)域要比具身智能有本質(zhì)的重要性。
但這一觀點有一個隱藏的Hypothesis,以前都會說有一個所謂的奇點,超過這個奇點時,一個很聰明的AGI能夠發(fā)明一個更聰明的AGI,所以人類被徹底拋在后面。
但這個假設(shè)今天是不對的,我們怎么樣發(fā)明一個真正聰明的AGI,甚至超越人類的ASI,是需要更多的算力,更多的芯片,更多的電力,更多的能源,更多的數(shù)據(jù),所有這些東西都是從物理世界中來的。
怎么樣在物理世界中獲取更多的資源,其實在第一次工業(yè)革命時就有一個概念:所謂的機器制造機器,一臺能夠制造十臺,十臺制造一百臺。
![]()
這樣有一個指數(shù)級的增長,但今天我們并沒有看到指數(shù)級增長發(fā)生在現(xiàn)實世界,模型在物理世界中并沒有帶來有虛擬世界這么巨大的影響,核心的一個卡點就是人手的勞動。
一切商品,一切服務(wù)都不能脫離人手的勞動這一步,這使得沒有任何一個東西可以100%的依靠機器自動的做出來,除了芯片。
如果具身智能實現(xiàn)的話,萬事萬物都可以走向類似于芯片摩爾定律的發(fā)展規(guī)律。
在這個過程中,自然而然帶來了更多的芯片,更多的電力,更多的數(shù)據(jù),我們可以做一個更加聰明的ASI,從此走向一個真正意義上通用智能的未來。
我們還是認(rèn)為具身智能具有本質(zhì)性的重要性,同時也應(yīng)該是一個獨立于、平行于已有的虛擬世界模型的另外一個物理世界基礎(chǔ)模型。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.