![]()
![]()
“VLA是彎路?”
作者丨齊鋮湧
編輯丨林覺民
具身智能的賽道正在分裂。
一邊是智元、自變量代表的“VLA派”,視覺-語言-動作端到端,用海量數據訓練機器人疊衣服、抓取物體,估值一路飆到數百億;一邊是至簡動力、維他動力等“智駕降維派”,華為ADS、小鵬、理想背景的團隊涌入,把自動駕駛的BEV、端到端經驗移植到人形機器人上,動輒融資數億美金。
兩條路線都指向同一個終點:讓機器人真正“看懂”世界、自主行動。但兩條路都還沒跑通——VLA困于泛化與成本,智駕派困于場景遷移。行業共識遠未形成,資本卻在瘋狂押注。
時間來到2026年,我們發現業界出現了另一支派系:“大模型派”。
近期,多家創業公司都選擇了類似的技術路線,某種意義上,這是“大模型派”對“VLA派”的宣戰。
最近,我們約到了一些相信能夠能將具身大腦和多模態大模型結合的創業團隊,來跟他們聊聊這個新的流派和思路。
牛建偉,進入了我們的視線,這位地平線前智能座艙產品線總經理,帶著一支“成建制的大模型團隊”進軍具身智能賽道。他做過百度首個深度學習語音系統,做過國內首個車規級AI芯片+多模態人機交互方案量產,對多模態大模型和系統落地有極為精確量化的認知——2015年余凱邀請他進去,正是為了那個“瓦力”般的機器人夢想。直到十年后,這個夢想得以延續。
十年后殺回具身,他卻說:VLA是彎路。真正的答案,是“物理世界的GPT”。
這是一個AI老兵對舊日經驗的“出走”。在具身智能的戰國時代,牛建偉選擇了一條不一樣的路,以認知驅動的大模型范式,來解決具身的問題。不是做最會疊衣服的機器人,而是做最懂物理世界的“大腦”。
以下是牛建偉與雷峰網的對話,雷峰網作了不改變原意的編輯:
01
2015年就想做的事,現在終于能做了
雷峰網:先聊聊你的背景。2012年你在百度IDL實習,搭建了國內第一個基于深度學習的語音系統。當時是什么情況?
牛建偉:當時語音的主流方案還是以GMM的傳統方案為主,局限性很大。而深度學習范式剛剛興起,我作為主力去搭建了IDL首個使用GPU并行訓練的深度學習框架,花了9個月,把基于深度神經網絡的語音識別模型推上線,支撐了百度語音搜索和語音輸入法等產品。
那時候叫“大模型”,現在看只有不到0.1B參數,但當時已經是行業突破了。
雷峰網:為什么2015年去地平線?語音和芯片似乎很遠。
牛建偉:我跟余凱在IDL就已經共事。地平線創立之初就想做機器人,凱哥拉我入伙負責機器人的人機交互系統。
機器人的核心是什么?理解人的意圖、執行人的指令、給人反饋。沒有優秀的人機交互系統,機器人就是聾子啞巴。
當時地平線的構想很大,要做“機器人OS+芯片”,辦公室還擺了個“瓦力”模型——那個《機器人總動員》里的智能體,我們做機器人最早的種子就是這個。
雷峰網:但是那時做機器人似乎有些早。
牛建偉:是的,當時的AI技術還不足以支撐做一個可用的機器人,本體也不成熟。機器人要聽懂話、理解意圖、執行任務,這些鏈條都是斷的。
我們花了半年時間探索,發現做不下來,后面就調整了方向,去圍繞智能汽車進行芯片加AI的產品研發和落地。行業的共識,汽車就是“四個輪子的機器人”,最早就是我們提出的。
大概18年,我領導團隊做面向智能座艙的AI解決方案,在行業內率先提出了“多模態交互”的理念,整體方案我們研發打磨了三年,走完了痛苦的0到1的完整過程,最終拿下長安汽車這個重要的客戶,把地平線首款車規級芯片和行業首個多模態AI解決方案落地到了長安 UNI-T車型上,UNI-T也是當年的爆款車型。
我們創造了一款全新的AI芯片在汽車行業最快量產的速度記錄。
雷峰網:這十年你一直在琢磨機器人?
牛建偉:對我們這代最早的AI從業者而言,機器人的愿景其實一直沒變過。2018年提"多模態交互"的時候,背后有個認知:AI的核心是對多維度信息的全面、深度的計算,信息越多、計算的越多就越有價值。
機器人的智能來自于對外部世界和本體的全模態感知與理解的能力。當時我們就想,如果能在座艙里對人的行為狀態和所處的環境,進行全模態的感知理解,我們就能構建出汽車的智能大腦。
雷峰網:什么時候決定創業?
牛建偉:地平線完整做完了“從0到1”和“從1到10”,內心總會有個聲音去做更大的事情。
有個實際的契機,當時我帶著團隊探索,用大模型通過GUI Agent的能力直接操作手機上的美團APP完成下單,當時就覺得:像人一樣感知世界、使用工具解決復雜問題的大腦雛形出現了。時機到了。
之前大模型更多的是作為Chatbot被使用,伴隨著大模型的多模態感知和Agent能力的巨大提升,它能自如的操作手機、電腦完成復雜任務了。如果把它放到機器人上呢?
正如OpenClaw改變了AI“只能說、不能做”的現狀,我們也要改變機器人“只能做,不能學”的現狀。以前沒人相信我,現在全都懂了。
![]()
雷峰網:你認為現在入場時機成熟么?具身目前是超級紅海。
牛建偉:兩個前提條件很清晰了,才會決定入場。第一,如果我做的和別人一樣,那肯定泯然眾人了;第二,如果沒有一個過硬的團隊來實現真正的具身“智能大腦”,那肯定也活不到最后。簡單來說,具身還沒達到“GPT時刻”,還沒有“范式基座”。而過去十年的積累和身邊人的信任,把我推出來了。
雷峰網:在超過200家具身公司的競爭中能沖出來?
牛建偉:地平線當時的競爭環境不必這好,我們不也沖出來了(笑)?而且這件事我已經想了超過十年。
02
VLA在用大模型最不擅長的方式做事
雷峰網:但現在行業主流是VLA。智元,銀河通用、自變量都在做VLA。你為什么不做?
牛建偉:VLA正在用大模型最不擅長的范式解決運動控制問題。大語言模型的根本局限在于離散token化表示——它本質上是文本的概率生成器,而非數值計算器。
一個經典例證是9.9和9.10的比較:由于token化機制將'9.10'切分為['9', '.', '10'],模型會因字符串'10'大于'9'而產生數值幻覺。即便進行三位數的乘法計算,目前最好的大模型也做不到100%的準確率,主流做法都是大模型通過調用計算工具進行計算。
VLA的結構性矛盾正在于此:要求模型將視覺-語言理解直接映射為連續空間中的關節坐標、動作軌跡或路徑點,這種“語言token→連續數值序列”的轉換,存在明顯的模態錯配和信息損失。VLA架構在通過“揚短避長”的方式在利用大模型的能力,大模型真正擅長的對于任務規劃推理、工具調用的能力被明顯弱化了。
雷峰網:但VLA能疊衣服、能抓取,視頻看起來很流暢。
牛建偉:動作不是關鍵,智能才是。小學生疊十年衣服,不會變成大學生。
VLA能疊衣服,是因為它針對這個任務采了大量數據,但換個場景、換個本體,就要重新采。你找一個小學生讓他搬十年箱子,他腦子也不會變聰明;但反過來,讓他腦子變聰明,看別人疊一遍衣服就會了,而且不只會疊衣服,讓他干什么都行。
簡言之,我們要先做個能學習的大學生,也許笨拙,但有自主進化的能力。
雷峰網:具體說,VLA的問題在哪?
牛建偉:三個問題。
第一,模型太小。VLA通常3B-7B參數,根據Scaling Law 隨著數據規模的指數級增加,模型參數規模也需要同比例增加。100萬小時視頻按照一秒鐘抽取2幀圖片,那么就對應7.2B張圖像幀,你用7B模型去學必然會出現Underfitting。能夠充分學習1000萬小時視頻數據的模型,參數量要到100B級別,我預計十年內沒有端側芯片能跑下來。
第二,與本體綁定太深。特斯拉Optimus迭代了好幾代,硬件差別很大,你綁著一代去弄,每代都要花大錢。
第三,沒有有效的反饋和記憶機制。VLA直接輸出動作序列,將認知和執行強耦合,無法通過外界的反饋來糾正和學習更好的完成任務。舉個例子,OpenClaw是可以在用戶的使用過程中通過記憶和SKILL的能力持續成長,核心在于解耦了認知和執行,就可以利用大模型擅長的in-context learning的能力實現在線學習。
雷峰網:但VLA派會說,端到端才是未來,分層架構是老派的模塊化方案。
牛建偉:端到端是單點方案。但具身智能是通用問題——機器人要會開車、做飯、打掃,是人的化身。VLA方案還在嘗試解決自動駕駛的L3問題,目前還沒有有效結局。想解決通用任務目前看很難。你看人怎么看自動駕駛:我會開車,只是我的一個技能而已。機器人也一樣,開車只是它的技能之一,它還要做很多通用的事。
03
我們要做萬億參數的空間智能大模型
雷峰網:你的方案是什么?
牛建偉:分層架構。
上面是萬億參數的“空間智能大模型”,是大腦,做任務規劃、推理、記憶;下面是VA(Vision-to-Action)小模型,0.1B-1B參數,是手和腳,專門執行基礎操作。
大模型擅長什么?推理、任務編排、調用工具。我們的方案就是充分利用大模型在邏輯推理、任務規劃和工具調用方面的能力。現有的GPT類大模型在空間理解與推理,物理世界任務規劃方面有較大的欠缺,因為它們都是基于互聯網數據訓練的,天然缺少物理世界的數據、對具身的任務也沒有針對性訓練。我們會在數據和訓練算法兩方面進行大模型的優化,來實現一個更懂物理世界的空間智能大模型。
業內能打通空間智能大模型和行為小腦的團隊很少,真正做過長周期、大參數、閉環落地的,才能做成這套方案。
![]()
雷峰網:為什么是萬億參數?創業公司能訓么?
牛建偉:物理世界的復雜度不比數字世界低,只會更高。
GPT處理數字世界需要萬億參數,機器人理解三維世界的空間關系和物理規律,也需要這個量級。我們站在巨人肩膀上,千問、Llama已經開源,技術路線摸清楚了。重新做一個千問要1000億人民幣,我們在開源基礎上增加三維世界數據重新訓練,可能幾十億就夠了。
預訓練階段加入大量弱標注的三維數據,后訓練用幾千小時精標數據激發能力。不需要像VLA要采100萬小時、1000萬小時的操作數據。(編者注:幾乎每個問題,牛建偉的表達都是精細到具體數字量級的)
雷峰網:具體怎么訓練?
牛建偉:大模型范式已經很清楚了。預訓練用海量弱標注數據,學習物理世界的知識和規律;后訓練用少量的通用任務的精標數據,激發能力,讓智能涌現。
GPT就是這樣干的,Coding能力不是預訓練直接得到的,是后訓練用相對少量人類專家數據激發的。我們也一樣,預訓練加三維真實世界數據,讓大模型具備物理規律的理解;后訓練用精標數據,激發它做任務規劃、工具調用、反饋學習的能力。
雷峰網:VA是什么?和VLA有什么區別?
牛建偉:VA是Vision-to-Action,弱化語言部分,視覺直接驅動動作。通過VA模型來實現機器人的基礎操作能力。VLA是Vision-Language-Action,語言部分參數量太大,推理慢。VA做到0.XB參數規模,推理速度更快,延遲更低。
雷峰網:這樣會不會限制能力?VLA可以端到端學習任意動作。
牛建偉:VLA看似靈活,但是是由數據驅動的。它只能做訓練數據里有的動作,換個方式拿杯子就不會了。
我們的方案,大模型負責任務規劃,知道“為什么要拿杯子”;VA負責執行,知道“怎么拿”。比如向前走這個動作,人形機器人用雙足、輪臂機器人用輪子,只是調用不同的VA模型,大腦完全復用。
04
特斯拉有Grok,國內只學了Optimus的一半
雷峰網:怎么看待行業內的大規模數據采集的計劃?
牛建偉:總體上是為行業做貢獻,很好的補充了之前匱乏的具身行業數據。但問題是,如果算法范式錯了,采越多越浪費。我覺得目前的人的第一視角的數據逐漸成為了行業的一種共識,之前采集的很多遙操數據的價值可能就弱化了很多。
雷峰網:展開說說?
牛建偉:自動駕駛就是例子。過去十年,自動駕駛行業經歷了多次的技術迭代和硬件傳感器的迭代,每次迭代都會讓之前積累的數據價值弱化,甚至變得不可用。
具身的本體和技術方案都在發展的早期階段,我們應該從第一性原理出發,從智能的終局出發來考慮如何采集和標注數據。我覺得大模型行業的經驗值得借鑒,將預訓練的數據和任務相關的數據分離開是一種思路。
雷峰網:但投資人認這個。頭部公司都融了很多錢。
牛建偉:現在投資圈特別認智駕背景,覺得做VLA是降維打擊。但這是錯的。
VLA可以非常快地實現一個很好的Demo效果,不管是抓取柔性物品還是執行特定場景的表演動作集,但最后消費者和B端客戶買的不是“電器”,而是智能體。
自動駕駛是單點問題,具身智能是通用問題。或者說要實現L4級的自動駕駛問題可能也需要站在空間智能的角度,按照一種通用方式來解決。就像翻譯作為語言大模型的一個子任務被較好的解決了一樣。
雷峰網:你認為具身智能的三派之爭誰會贏?
牛建偉:三派。本體派,比如波士頓動力只會運控,沒有環境感知,VLA出來就把他們打懵了;VLA派只會操作,沒有大腦,國內只看到本體上的VLA,沒看到大腦;大模型派(特斯拉、谷歌、我們)做大腦,做任務規劃、推理、記憶。
雷峰網:谷歌、特斯拉的具體方案是什么?
牛建偉:谷歌有Gemini,特斯拉有Grok,都是萬億參數大模型做大腦,做任務拆解和推理;本體上用VLA或類似模型做執行。這是完整的方案。
05
我們要做物理世界的OpenClaw
雷峰網:你們現在產品到什么階段了?
牛建偉:我們已經在機器人上跑通了物理agent架構,可以直接通過對話交互的方式修正機器人的任務執行,并積累到機器人的skill中去。你可以簡單的理解,我們已經搭成了一個物理世界的OpenClaw,下階段是skill的問題。
雷峰網:具體能做什么?
牛建偉:告訴它“把杯子拿起來放到收納盒里”,它自己拆解任務:調用相機看杯子位置,調用深度感知測距離,調用VA模型執行拿取,然后移動到收納盒上方,執行放置。每個步驟都是大模型規劃,調用不同工具完成。
雷峰網:這和VLA的端到端有什么區別?
牛建偉:VLA對于長程任務的規劃能力其實是不足的,另外一個重要區別是我們的方案引入了物理Agent的架構,在我們的方案下機器人不僅知道如何做一個任務,還能夠實時監督和反饋任務完成的情況,并通過記憶和反思的能力,實現任務越做越好。
我們通過Agent的開發范式構建了感知、決策、執行、評估與反思記憶的完整閉環,使得機器人可以在和環境的交互和與人的互動中持續的學習與成長。
雷峰網:反饋學習怎么做?
牛建偉:就像養“小龍蝦”。你告訴它“郵箱應該這樣發”,它不用重新訓練就能學會;執行任務報錯,它能自己查資料修正。女主人說“杯子以后放廚房”,Agent記住,形成記憶,不需要做任何模型層面的調整,在線就完成了體驗優化。VLA干不了這個,它訓練好了就是這樣,能力的泛化有限。
“我們等了十年,不差這一兩年。”
雷峰網:如果這次錯了呢?如果三年后VLA成了主流?
牛建偉:如果VLA成為了通向通用具身智能的主流方案并且具備了很高的智能,這應該是是一件特別好的事情。云端萬億參數的大模型完全可以參照VLA來進行模型的尺寸小型化,這個會節省非常多的成本和能源消耗。但我很難相信,一個參數規模比人腦神經元數量(100B)還少的模型可以實現接近人的智能水平。
雷峰網:萬一還是做不成呢?
牛建偉:我們等了十年,不差這一兩年。但邏輯是通的,大模型給我們最大的啟示就是:用通用方案解決問題,持續提升智能,新的能力就會涌現。VLA是反著來的,針對每個場景堆數據,這是小模型的范式。
06
后記
某種意義上,“大模型派”的出現,是對“VLA派”的宣戰,也是具身發展進入戰國時代的一個標志,這一條更慢、更重、但也可能更通吃的路能實現么?
我們會持續關注,(本文作者近期也將帶來更多大模型派的創業公司的對談,關注具身創業公司和技術發展的讀者,歡迎添加微信zxc316920327交流)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.