網易首頁 > 網易號 > 正文申請入駐

自變量：具身模型不是把DeepSeek塞進機器人

2026-01-14 15:17:28　來源: 機器之心Pro

北京舉報

分享至

編輯｜張倩

國內具身智能，接下來可能是「大腦」的戰場了。

2026 開年，自變量機器人傳出融資消息，字節、紅杉出手，融資額達到 10 億。雖然自變量是一家軟硬一體的公司，但這場融資背后，真正說服投資人的可能是他們對于機器人「大腦」的思考。

和之前的 locomotion（移動）、navigation（導航）戰場不同，「大腦」所主導的 manipulation（操作）涉及頻繁的物理世界交互，隨機性、不確定性充斥著每一個看似簡單的任務。這也是為什么，在我們看了多年的機器人跳舞、跑酷、玩雜技之后，機器人在自主操作上依然沒有拿出一個技驚四座的 demo。而這個「自主操作」，才是決定機器人能否大規模走入人類世界的關鍵。

在自變量看來，「操作」這類任務的復雜性決定了，機器人必須有一個由「物理世界基礎模型」所支撐的「大腦」。這個「大腦」不是像很多人想的「把 DeepSeek 塞進宇樹」那么簡單，它不是 AI 模型的「應用層」，而是獨立、平行于語言大模型、多模態模型等虛擬世界模型的新范式。

對于這個新范式應該是什么樣子、如何去打造，自變量已經有了一套體系化的方法論，并且自研出了一些成果。這些大膽的嘗試，或許會為具身智能領域帶來新的變量。

具身智能 ≠ AI 模型下游應用

我們知道，最近幾年機器人「大腦」的進化主要還是依賴語言模型和多模態模型。于是很多人就認為，具身智能是 AI 模型的一個應用方向。但自變量 CEO 王潛曾在多個場合強調，這個定位存在偏差。

舉例來說，圖中有兩個礦泉水瓶，一個瓶蓋擰緊，一個沒有完全擰緊。只靠視覺去看，它們在圖像里差別很小，但一旦把它們拿起來、翻轉或傾倒，結果卻完全不同 —— 一個會漏水，一個不會。

物理世界里真正關鍵的信息，往往就藏在這些「看不出來但會影響行為」的細節中。這些差異只有在與世界發生真實交互時才會暴露出來，而不是靜態觀察就能輕易判斷。

更重要的是，這類信息往往并不會在當下立刻給出反饋。比如擰瓶蓋這個動作本身，并不會產生任何可見變化，真正的差異要等到下一步、甚至再下一步操作時才顯現出來。對模型來說，這意味著它必須能夠把一連串感知、動作和結果在時間上串聯起來理解，而不是只處理某一幀畫面、某一個瞬間的輸入輸出。

這正是物理世界對智能提出的一個隱性要求：模型不僅要能感知，還要能處理足夠長的行為序列，理解因果是如何在時間中逐步展開的。否則，它就永遠學不會那些「現在看不出來、但之后會出問題」的物理規律。

而在很多真實任務中，問題甚至不只是時間跨度變長這么簡單。機器人往往需要在行動之前，對未來進行某種形式的推演。比如在倒水之前，它需要判斷瓶子會不會漏；在整理桌面之前，它需要決定先拿走什么、再放回什么。這類判斷并不是對當前狀態的直接反應，而是對「接下來會發生什么」的內部演算。

也正因為如此，單純依賴靜態信息訓練出的語言模型或多模態模型，在物理世界里往往顯得力不從心。它們并不真正理解「擰緊」和「沒擰緊」在物理后果上的差別，也難以應對充滿連續變化、隨機擾動和部分不可觀測的現實環境。

在自變量看來，這并不是靠給現有模型打補丁就能解決的問題，而是指向了一個更底層的結論：我們需要一種「生于物理世界、用于物理世界」的基礎模型。這種模型應當與語言模型、多模態模型平行存在，而不是作為它們的下游應用。自變量的目標，正是要打造這樣一個基礎模型。

構建物理世界基礎模型——

要端到端、要做通才模型

要打造這個模型，自變量認為有兩點非常重要：

一是要有一個統一的架構，因為真正的物理智能需要的是整體性的、具身的理解，而不是模塊化的知識拼接。

舉個例子，人類在使用錘子時，注意力不在「這是一個錘子」「錘子有多重」，而是在木頭、釘子和要完成的目標上。錘子作為一種工具，會被納入行動本身，在認知中「隱退」。但對于現在很多機器人來說，情況恰恰相反，每一次使用工具，它們都要重新經歷一整套流程：看見這是錘子，理解錘子的用途，規劃怎么用，再執行動作。自變量認為，這種方式永遠無法達到人類那種直覺的工具使用境界。

歸根結底，這種局面是把模型拼接起來的分層架構所帶來的 —— 視覺模塊先把世界壓縮成向量，語言模塊再接手理解，規劃模塊再根據語言輸出動作。一套流程下來，模塊之間彼此「看不見」「聽不見」對方真正關心的東西。每跨一次模塊，細節、關聯和物理直覺都會被削掉一層。這就像把一幅油畫描述給盲人，再讓盲人轉述給聾人。

這就不難解釋，為什么自變量從成立第一天就是「端到端」路線的堅定信徒。他們看到的是這一路線的底層邏輯：信息必須在一個統一的空間里流動，系統才能發現不同東西之間深層的關聯。早期，這一選擇飽受質疑，但如今，Google Robotics、Physical Intelligence 等頭部具身智能團隊也都走到了這條路上。

二是模型要足夠通用，因為只有這樣才能學到物理世界的共性結構。

這條路已經被語言模型走過一遍。大家發現，相比于最初針對單一任務分別做專用模型，把翻譯、問答、寫作、推理等任務放進同一個模型里，反而能讓模型學到更底層的邏輯和常識。物理世界也是一樣，當模型同時學習足夠多、足夠雜的任務，它會被迫去發現這些任務背后的共性結構 —— 物理規律、物體屬性、因果關系。一旦掌握了這些共性，模型學新任務所需的數據量就會驟降，甚至出現「涌現」。

提到語言模型，它的成功其實還有一個常被忽視的關鍵：它找到了一個極好的損失函數 —— 預測下一個詞。這個看似簡單的目標，能夠把海量文本中的結構、邏輯、常識全部壓縮進模型里。

但機器人面對的是一個更復雜的局面，它的損失函數應該預測什么？

自變量認為，不能只停留在「預測動作」。如果只預測動作，模型很容易淪為一個「模仿者」，它只學會了手勢的形狀，卻不懂得背后的原因。真正的突破口在于：將損失函數從「動作預測」升級為「多模態狀態的預測」。

當模型試圖預測「如果我推倒這個杯子，下一秒視覺畫面會如何變化、指尖的觸感會如何消失」時，它實際上是在強迫自己理解因果律，把物理世界的復雜性壓縮進模型里。

這也解釋了為什么自變量的 WALL-A 模型不只輸出動作。它還能用語言和人對話，能根據圖片重建三維環境，能像世界模型一樣預測未來。這些能力看似五花八門，但背后的邏輯是一致的：如果一個模型真正理解了物理世界，它就應該能用各種方式表達這種理解，無論是控制機械臂，還是描述它在做什么，還是預測物體會怎么滾動。在這個模型身上，我們已經能夠看到自變量所追求的物理世界基礎模型的雛形。

在國內，這種活動也是非常有益的嘗試，因為從語言模型發展來看，整個技術社區的發展離不開開源文化，具身智能領域也需要自己的 DeepSeek。

重走嬰兒的路

物理世界沒有捷徑

看到語言模型的蓬勃發展，很多人可能都會思考一個問題，為什么機器人遲遲等不來它們的涌現時刻？

一個可能的答案是：語言本身就是一種高度壓縮的符號系統，人類已經用幾千年的時間把世界的復雜性「預處理」成了文字。模型要做的，只是學會這套現成的編碼規則。但物理世界沒有這樣的捷徑。重力、摩擦、碰撞、形變，這些規律從未被誰顯式地寫下來，它們散落在每一次交互的細節里。

這也意味著，物理世界基礎模型的構建，某種程度上是在重走人類嬰兒的路。物理世界基礎模型要學的，是那些人類「做得出但說不清」的東西，這可能才是智能更本源的形態。

這條路注定漫長，也足夠迷人。而自變量正走在這條路上。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.