![]()
編輯|張倩
國(guó)內(nèi)具身智能,接下來(lái)可能是「大腦」的戰(zhàn)場(chǎng)了。
2026 開(kāi)年,自變量機(jī)器人傳出融資消息,字節(jié)、紅杉出手,融資額達(dá)到 10 億。雖然自變量是一家軟硬一體的公司,但這場(chǎng)融資背后,真正說(shuō)服投資人的可能是他們對(duì)于機(jī)器人「大腦」的思考。
和之前的 locomotion(移動(dòng))、navigation(導(dǎo)航)戰(zhàn)場(chǎng)不同,「大腦」所主導(dǎo)的 manipulation(操作)涉及頻繁的物理世界交互,隨機(jī)性、不確定性充斥著每一個(gè)看似簡(jiǎn)單的任務(wù)。這也是為什么,在我們看了多年的機(jī)器人跳舞、跑酷、玩雜技之后,機(jī)器人在自主操作上依然沒(méi)有拿出一個(gè)技驚四座的 demo。而這個(gè)「自主操作」,才是決定機(jī)器人能否大規(guī)模走入人類世界的關(guān)鍵。
在自變量看來(lái),「操作」這類任務(wù)的復(fù)雜性決定了,機(jī)器人必須有一個(gè)由「物理世界基礎(chǔ)模型」所支撐的「大腦」。這個(gè)「大腦」不是像很多人想的「把 DeepSeek 塞進(jìn)宇樹(shù)」那么簡(jiǎn)單,它不是 AI 模型的「應(yīng)用層」,而是獨(dú)立、平行于語(yǔ)言大模型、多模態(tài)模型等虛擬世界模型的新范式。
對(duì)于這個(gè)新范式應(yīng)該是什么樣子、如何去打造,自變量已經(jīng)有了一套體系化的方法論,并且自研出了一些成果。這些大膽的嘗試,或許會(huì)為具身智能領(lǐng)域帶來(lái)新的變量。
具身智能 ≠ AI 模型下游應(yīng)用
我們知道,最近幾年機(jī)器人「大腦」的進(jìn)化主要還是依賴語(yǔ)言模型和多模態(tài)模型。于是很多人就認(rèn)為,具身智能是 AI 模型的一個(gè)應(yīng)用方向。但自變量 CEO 王潛曾在多個(gè)場(chǎng)合強(qiáng)調(diào),這個(gè)定位存在偏差。
舉例來(lái)說(shuō),圖中有兩個(gè)礦泉水瓶,一個(gè)瓶蓋擰緊,一個(gè)沒(méi)有完全擰緊。只靠視覺(jué)去看,它們?cè)趫D像里差別很小,但一旦把它們拿起來(lái)、翻轉(zhuǎn)或傾倒,結(jié)果卻完全不同 —— 一個(gè)會(huì)漏水,一個(gè)不會(huì)。
![]()
物理世界里真正關(guān)鍵的信息,往往就藏在這些「看不出來(lái)但會(huì)影響行為」的細(xì)節(jié)中。這些差異只有在與世界發(fā)生真實(shí)交互時(shí)才會(huì)暴露出來(lái),而不是靜態(tài)觀察就能輕易判斷。
更重要的是,這類信息往往并不會(huì)在當(dāng)下立刻給出反饋。比如擰瓶蓋這個(gè)動(dòng)作本身,并不會(huì)產(chǎn)生任何可見(jiàn)變化,真正的差異要等到下一步、甚至再下一步操作時(shí)才顯現(xiàn)出來(lái)。對(duì)模型來(lái)說(shuō),這意味著它必須能夠把一連串感知、動(dòng)作和結(jié)果在時(shí)間上串聯(lián)起來(lái)理解,而不是只處理某一幀畫面、某一個(gè)瞬間的輸入輸出。
這正是物理世界對(duì)智能提出的一個(gè)隱性要求:模型不僅要能感知,還要能處理足夠長(zhǎng)的行為序列,理解因果是如何在時(shí)間中逐步展開(kāi)的。否則,它就永遠(yuǎn)學(xué)不會(huì)那些「現(xiàn)在看不出來(lái)、但之后會(huì)出問(wèn)題」的物理規(guī)律。
而在很多真實(shí)任務(wù)中,問(wèn)題甚至不只是時(shí)間跨度變長(zhǎng)這么簡(jiǎn)單。機(jī)器人往往需要在行動(dòng)之前,對(duì)未來(lái)進(jìn)行某種形式的推演。比如在倒水之前,它需要判斷瓶子會(huì)不會(huì)漏;在整理桌面之前,它需要決定先拿走什么、再放回什么。這類判斷并不是對(duì)當(dāng)前狀態(tài)的直接反應(yīng),而是對(duì)「接下來(lái)會(huì)發(fā)生什么」的內(nèi)部演算。
也正因?yàn)槿绱耍瑔渭円蕾囲o態(tài)信息訓(xùn)練出的語(yǔ)言模型或多模態(tài)模型,在物理世界里往往顯得力不從心。它們并不真正理解「擰緊」和「沒(méi)擰緊」在物理后果上的差別,也難以應(yīng)對(duì)充滿連續(xù)變化、隨機(jī)擾動(dòng)和部分不可觀測(cè)的現(xiàn)實(shí)環(huán)境。
在自變量看來(lái),這并不是靠給現(xiàn)有模型打補(bǔ)丁就能解決的問(wèn)題,而是指向了一個(gè)更底層的結(jié)論:我們需要一種「生于物理世界、用于物理世界」的基礎(chǔ)模型。這種模型應(yīng)當(dāng)與語(yǔ)言模型、多模態(tài)模型平行存在,而不是作為它們的下游應(yīng)用。自變量的目標(biāo),正是要打造這樣一個(gè)基礎(chǔ)模型。
構(gòu)建物理世界基礎(chǔ)模型——
要端到端、要做通才模型
要打造這個(gè)模型,自變量認(rèn)為有兩點(diǎn)非常重要:
一是要有一個(gè)統(tǒng)一的架構(gòu),因?yàn)檎嬲奈锢碇悄苄枰氖钦w性的、具身的理解,而不是模塊化的知識(shí)拼接。
舉個(gè)例子,人類在使用錘子時(shí),注意力不在「這是一個(gè)錘子」「錘子有多重」,而是在木頭、釘子和要完成的目標(biāo)上。錘子作為一種工具,會(huì)被納入行動(dòng)本身,在認(rèn)知中「隱退」。但對(duì)于現(xiàn)在很多機(jī)器人來(lái)說(shuō),情況恰恰相反,每一次使用工具,它們都要重新經(jīng)歷一整套流程:看見(jiàn)這是錘子,理解錘子的用途,規(guī)劃怎么用,再執(zhí)行動(dòng)作。自變量認(rèn)為,這種方式永遠(yuǎn)無(wú)法達(dá)到人類那種直覺(jué)的工具使用境界。
歸根結(jié)底,這種局面是把模型拼接起來(lái)的分層架構(gòu)所帶來(lái)的 —— 視覺(jué)模塊先把世界壓縮成向量,語(yǔ)言模塊再接手理解,規(guī)劃模塊再根據(jù)語(yǔ)言輸出動(dòng)作。一套流程下來(lái),模塊之間彼此「看不見(jiàn)」「聽(tīng)不見(jiàn)」對(duì)方真正關(guān)心的東西。每跨一次模塊,細(xì)節(jié)、關(guān)聯(lián)和物理直覺(jué)都會(huì)被削掉一層。這就像把一幅油畫描述給盲人,再讓盲人轉(zhuǎn)述給聾人。
這就不難解釋,為什么自變量從成立第一天就是「端到端」路線的堅(jiān)定信徒。他們看到的是這一路線的底層邏輯:信息必須在一個(gè)統(tǒng)一的空間里流動(dòng),系統(tǒng)才能發(fā)現(xiàn)不同東西之間深層的關(guān)聯(lián)。早期,這一選擇飽受質(zhì)疑,但如今,Google Robotics、Physical Intelligence 等頭部具身智能團(tuán)隊(duì)也都走到了這條路上。
二是模型要足夠通用,因?yàn)橹挥羞@樣才能學(xué)到物理世界的共性結(jié)構(gòu)。
這條路已經(jīng)被語(yǔ)言模型走過(guò)一遍。大家發(fā)現(xiàn),相比于最初針對(duì)單一任務(wù)分別做專用模型,把翻譯、問(wèn)答、寫作、推理等任務(wù)放進(jìn)同一個(gè)模型里,反而能讓模型學(xué)到更底層的邏輯和常識(shí)。物理世界也是一樣,當(dāng)模型同時(shí)學(xué)習(xí)足夠多、足夠雜的任務(wù),它會(huì)被迫去發(fā)現(xiàn)這些任務(wù)背后的共性結(jié)構(gòu) —— 物理規(guī)律、物體屬性、因果關(guān)系。一旦掌握了這些共性,模型學(xué)新任務(wù)所需的數(shù)據(jù)量就會(huì)驟降,甚至出現(xiàn)「涌現(xiàn)」。
提到語(yǔ)言模型,它的成功其實(shí)還有一個(gè)常被忽視的關(guān)鍵:它找到了一個(gè)極好的損失函數(shù) —— 預(yù)測(cè)下一個(gè)詞。這個(gè)看似簡(jiǎn)單的目標(biāo),能夠把海量文本中的結(jié)構(gòu)、邏輯、常識(shí)全部壓縮進(jìn)模型里。
但機(jī)器人面對(duì)的是一個(gè)更復(fù)雜的局面,它的損失函數(shù)應(yīng)該預(yù)測(cè)什么?
自變量認(rèn)為,不能只停留在「預(yù)測(cè)動(dòng)作」。如果只預(yù)測(cè)動(dòng)作,模型很容易淪為一個(gè)「模仿者」,它只學(xué)會(huì)了手勢(shì)的形狀,卻不懂得背后的原因。真正的突破口在于:將損失函數(shù)從「動(dòng)作預(yù)測(cè)」升級(jí)為「多模態(tài)狀態(tài)的預(yù)測(cè)」。
當(dāng)模型試圖預(yù)測(cè)「如果我推倒這個(gè)杯子,下一秒視覺(jué)畫面會(huì)如何變化、指尖的觸感會(huì)如何消失」時(shí),它實(shí)際上是在強(qiáng)迫自己理解因果律,把物理世界的復(fù)雜性壓縮進(jìn)模型里。
這也解釋了為什么自變量的 WALL-A 模型不只輸出動(dòng)作。它還能用語(yǔ)言和人對(duì)話,能根據(jù)圖片重建三維環(huán)境,能像世界模型一樣預(yù)測(cè)未來(lái)。這些能力看似五花八門,但背后的邏輯是一致的:如果一個(gè)模型真正理解了物理世界,它就應(yīng)該能用各種方式表達(dá)這種理解,無(wú)論是控制機(jī)械臂,還是描述它在做什么,還是預(yù)測(cè)物體會(huì)怎么滾動(dòng)。在這個(gè)模型身上,我們已經(jīng)能夠看到自變量所追求的物理世界基礎(chǔ)模型的雛形。
![]()
在國(guó)內(nèi),這種活動(dòng)也是非常有益的嘗試,因?yàn)閺恼Z(yǔ)言模型發(fā)展來(lái)看,整個(gè)技術(shù)社區(qū)的發(fā)展離不開(kāi)開(kāi)源文化,具身智能領(lǐng)域也需要自己的 DeepSeek。
重走嬰兒的路
物理世界沒(méi)有捷徑
看到語(yǔ)言模型的蓬勃發(fā)展,很多人可能都會(huì)思考一個(gè)問(wèn)題,為什么機(jī)器人遲遲等不來(lái)它們的涌現(xiàn)時(shí)刻?
一個(gè)可能的答案是:語(yǔ)言本身就是一種高度壓縮的符號(hào)系統(tǒng),人類已經(jīng)用幾千年的時(shí)間把世界的復(fù)雜性「預(yù)處理」成了文字。模型要做的,只是學(xué)會(huì)這套現(xiàn)成的編碼規(guī)則。但物理世界沒(méi)有這樣的捷徑。重力、摩擦、碰撞、形變,這些規(guī)律從未被誰(shuí)顯式地寫下來(lái),它們散落在每一次交互的細(xì)節(jié)里。
這也意味著,物理世界基礎(chǔ)模型的構(gòu)建,某種程度上是在重走人類嬰兒的路。物理世界基礎(chǔ)模型要學(xué)的,是那些人類「做得出但說(shuō)不清」的東西,這可能才是智能更本源的形態(tài)。
這條路注定漫長(zhǎng),也足夠迷人。而自變量正走在這條路上。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.