![]()
編輯|張倩
國內具身智能,接下來可能是「大腦」的戰場了。
2026 開年,自變量機器人傳出融資消息,字節、紅杉出手,融資額達到 10 億。雖然自變量是一家軟硬一體的公司,但這場融資背后,真正說服投資人的可能是他們對于機器人「大腦」的思考。
和之前的 locomotion(移動)、navigation(導航)戰場不同,「大腦」所主導的 manipulation(操作)涉及頻繁的物理世界交互,隨機性、不確定性充斥著每一個看似簡單的任務。這也是為什么,在我們看了多年的機器人跳舞、跑酷、玩雜技之后,機器人在自主操作上依然沒有拿出一個技驚四座的 demo。而這個「自主操作」,才是決定機器人能否大規模走入人類世界的關鍵。
在自變量看來,「操作」這類任務的復雜性決定了,機器人必須有一個由「物理世界基礎模型」所支撐的「大腦」。這個「大腦」不是像很多人想的「把 DeepSeek 塞進宇樹」那么簡單,它不是 AI 模型的「應用層」,而是獨立、平行于語言大模型、多模態模型等虛擬世界模型的新范式。
對于這個新范式應該是什么樣子、如何去打造,自變量已經有了一套體系化的方法論,并且自研出了一些成果。這些大膽的嘗試,或許會為具身智能領域帶來新的變量。
具身智能 ≠ AI 模型下游應用
我們知道,最近幾年機器人「大腦」的進化主要還是依賴語言模型和多模態模型。于是很多人就認為,具身智能是 AI 模型的一個應用方向。但自變量 CEO 王潛曾在多個場合強調,這個定位存在偏差。
舉例來說,圖中有兩個礦泉水瓶,一個瓶蓋擰緊,一個沒有完全擰緊。只靠視覺去看,它們在圖像里差別很小,但一旦把它們拿起來、翻轉或傾倒,結果卻完全不同 —— 一個會漏水,一個不會。
![]()
物理世界里真正關鍵的信息,往往就藏在這些「看不出來但會影響行為」的細節中。這些差異只有在與世界發生真實交互時才會暴露出來,而不是靜態觀察就能輕易判斷。
更重要的是,這類信息往往并不會在當下立刻給出反饋。比如擰瓶蓋這個動作本身,并不會產生任何可見變化,真正的差異要等到下一步、甚至再下一步操作時才顯現出來。對模型來說,這意味著它必須能夠把一連串感知、動作和結果在時間上串聯起來理解,而不是只處理某一幀畫面、某一個瞬間的輸入輸出。
這正是物理世界對智能提出的一個隱性要求:模型不僅要能感知,還要能處理足夠長的行為序列,理解因果是如何在時間中逐步展開的。否則,它就永遠學不會那些「現在看不出來、但之后會出問題」的物理規律。
而在很多真實任務中,問題甚至不只是時間跨度變長這么簡單。機器人往往需要在行動之前,對未來進行某種形式的推演。比如在倒水之前,它需要判斷瓶子會不會漏;在整理桌面之前,它需要決定先拿走什么、再放回什么。這類判斷并不是對當前狀態的直接反應,而是對「接下來會發生什么」的內部演算。
也正因為如此,單純依賴靜態信息訓練出的語言模型或多模態模型,在物理世界里往往顯得力不從心。它們并不真正理解「擰緊」和「沒擰緊」在物理后果上的差別,也難以應對充滿連續變化、隨機擾動和部分不可觀測的現實環境。
在自變量看來,這并不是靠給現有模型打補丁就能解決的問題,而是指向了一個更底層的結論:我們需要一種「生于物理世界、用于物理世界」的基礎模型。這種模型應當與語言模型、多模態模型平行存在,而不是作為它們的下游應用。自變量的目標,正是要打造這樣一個基礎模型。
構建物理世界基礎模型——
要端到端、要做通才模型
要打造這個模型,自變量認為有兩點非常重要:
一是要有一個統一的架構,因為真正的物理智能需要的是整體性的、具身的理解,而不是模塊化的知識拼接。
舉個例子,人類在使用錘子時,注意力不在「這是一個錘子」「錘子有多重」,而是在木頭、釘子和要完成的目標上。錘子作為一種工具,會被納入行動本身,在認知中「隱退」。但對于現在很多機器人來說,情況恰恰相反,每一次使用工具,它們都要重新經歷一整套流程:看見這是錘子,理解錘子的用途,規劃怎么用,再執行動作。自變量認為,這種方式永遠無法達到人類那種直覺的工具使用境界。
歸根結底,這種局面是把模型拼接起來的分層架構所帶來的 —— 視覺模塊先把世界壓縮成向量,語言模塊再接手理解,規劃模塊再根據語言輸出動作。一套流程下來,模塊之間彼此「看不見」「聽不見」對方真正關心的東西。每跨一次模塊,細節、關聯和物理直覺都會被削掉一層。這就像把一幅油畫描述給盲人,再讓盲人轉述給聾人。
這就不難解釋,為什么自變量從成立第一天就是「端到端」路線的堅定信徒。他們看到的是這一路線的底層邏輯:信息必須在一個統一的空間里流動,系統才能發現不同東西之間深層的關聯。早期,這一選擇飽受質疑,但如今,Google Robotics、Physical Intelligence 等頭部具身智能團隊也都走到了這條路上。
二是模型要足夠通用,因為只有這樣才能學到物理世界的共性結構。
這條路已經被語言模型走過一遍。大家發現,相比于最初針對單一任務分別做專用模型,把翻譯、問答、寫作、推理等任務放進同一個模型里,反而能讓模型學到更底層的邏輯和常識。物理世界也是一樣,當模型同時學習足夠多、足夠雜的任務,它會被迫去發現這些任務背后的共性結構 —— 物理規律、物體屬性、因果關系。一旦掌握了這些共性,模型學新任務所需的數據量就會驟降,甚至出現「涌現」。
提到語言模型,它的成功其實還有一個常被忽視的關鍵:它找到了一個極好的損失函數 —— 預測下一個詞。這個看似簡單的目標,能夠把海量文本中的結構、邏輯、常識全部壓縮進模型里。
但機器人面對的是一個更復雜的局面,它的損失函數應該預測什么?
自變量認為,不能只停留在「預測動作」。如果只預測動作,模型很容易淪為一個「模仿者」,它只學會了手勢的形狀,卻不懂得背后的原因。真正的突破口在于:將損失函數從「動作預測」升級為「多模態狀態的預測」。
當模型試圖預測「如果我推倒這個杯子,下一秒視覺畫面會如何變化、指尖的觸感會如何消失」時,它實際上是在強迫自己理解因果律,把物理世界的復雜性壓縮進模型里。
這也解釋了為什么自變量的 WALL-A 模型不只輸出動作。它還能用語言和人對話,能根據圖片重建三維環境,能像世界模型一樣預測未來。這些能力看似五花八門,但背后的邏輯是一致的:如果一個模型真正理解了物理世界,它就應該能用各種方式表達這種理解,無論是控制機械臂,還是描述它在做什么,還是預測物體會怎么滾動。在這個模型身上,我們已經能夠看到自變量所追求的物理世界基礎模型的雛形。
![]()
在國內,這種活動也是非常有益的嘗試,因為從語言模型發展來看,整個技術社區的發展離不開開源文化,具身智能領域也需要自己的 DeepSeek。
重走嬰兒的路
物理世界沒有捷徑
看到語言模型的蓬勃發展,很多人可能都會思考一個問題,為什么機器人遲遲等不來它們的涌現時刻?
一個可能的答案是:語言本身就是一種高度壓縮的符號系統,人類已經用幾千年的時間把世界的復雜性「預處理」成了文字。模型要做的,只是學會這套現成的編碼規則。但物理世界沒有這樣的捷徑。重力、摩擦、碰撞、形變,這些規律從未被誰顯式地寫下來,它們散落在每一次交互的細節里。
這也意味著,物理世界基礎模型的構建,某種程度上是在重走人類嬰兒的路。物理世界基礎模型要學的,是那些人類「做得出但說不清」的東西,這可能才是智能更本源的形態。
這條路注定漫長,也足夠迷人。而自變量正走在這條路上。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.