作者 | 華衛
本文為《2025 年度盤點與趨勢洞察》系列內容之一,由 InfoQ 技術編輯組策劃。本系列覆蓋大模型、Agent、具身智能、AI Native 開發范式、AI 工具鏈與開發、AI+ 傳統行業等方向,通過長期跟蹤、與業內專家深度訪談等方式,對重點領域進行關鍵技術進展、核心事件和產業趨勢的洞察盤點。內容將在 InfoQ 媒體矩陣陸續放出,歡迎大家持續關注。
我們采訪了真機智能董事長兼首席科學家劉智勇,聽他講述了視覺語言導航(VLN)技術的當前難題、具身智能領域在 2025 年的各類進展以及今年在能力邊界上的兩個突破方向和技術決勝點。他表示,一旦世界模型的因果推理能力取得突破,無論是機器人的安全性還是行為和推理的安全性問題,都能得到很好的解決。
“2026 年本體廠商肯定會收縮,估計中國最終只會剩下 5 到 8 家本體機器人公司。”他指出,核心是在某個單一場景實現盈利,不是毛利而是不依賴大量售后成本的凈利。但單純的整機銷售并非很好的商業模式,如果只賣硬件,后續的售后壓力會非常大,用戶一次性付太多錢也承受不了。
下面是詳細對話內容,以饗讀者。
VLN 和世界模型上“大分”
Q:2025 年具身智能領域有哪些突破性進展讓您印象深刻,包括技術、產業化和生態建設上?這些進展是否已經為具身智能從實驗室走向特定場景的“初步普及”奠定了基礎?
劉智勇: 我印象比較深刻的是 VLN 方向的相關進展。過去我們主要是以 SLAM 為核心的技術路線,但從去年到現在,涌現出了大量基于視覺語言作為多模態輸入的導航模型。這種視覺語言模型能解決零樣本泛化的問題,我們不再需要預先構建地圖了。把一個機器人放到任何全新的固定場景里,它都能實現零樣本泛化,自主完成導航任務。另外,像 UniNavid、ETPNav、FSR - VLN 這些代表性工作,也讓機器人門到門配送的實現出現了曙光和可能性。這就是從幾何測量的導航范式,轉變到學習增強的導航范式。當前的瓶頸在于未達極高的導航成功率。
從場景普及的角度來說,核心是我們不再需要預先建圖了。這就意味著,把機器人放在任何新的位置上,它都能立刻開始工作,直接解鎖了很多之前無法覆蓋的場景。最關鍵的一點是,零樣本能力等同于部署成本的大幅降低。部署成本降下來之后,整個成本結構就能適配場景化的盈利模式,這正是為場景普及奠定的核心基礎。技術成熟后,前期的準備和部署工作會大幅減少,這也為未來的產業發展打下了很好的基礎。
Q:具身智能的核心技術棧正在如何演變?2025 年這一年有哪些值得關注的新范式或共識?
劉智勇: 從算法角度來看,核心變化是從之前感知、決策、執行分離的多模塊化范式,逐漸轉向 VLN 或 VLA 的端到端統一范式。從數據角度來說,發展方向是從單純的真實數據采集,逐步轉向合成數據、離線軌跡挖掘以及世界模型這些領域。訓練范式也發生了改變,從強化學習調參慢慢轉向世界模型驅動。現在世界模型算是行業內解決數據問題的一個共識,原因很簡單,不管是在長程層面模擬預測未來狀態、在底層層面預測動態物體軌跡,還是彌補數據的 corner case,世界模型都起到了不可或缺的作用。
Q:世界模型被寄予厚望,被認為是實現高級推理和規劃的關鍵。現階段來看,它對機器人實際能力的提升體現在何處?之后還有哪些方面的潛力?
劉智勇: 現階段來看,主要體現在三個方面。第一,機器人執行長程任務時容易陷入短視困境,而世界模型可以模擬未來的長程狀態,對全局規劃能力有非常重要的提升;第二,動態環境下靜態地圖容易失效,無法準確指引路徑軌跡,世界模型能夠預測動態物體的軌跡,讓機器人的本地行動更安全;第三,世界模型能較好地生成相關數據,減少數據泛化鴻溝。我們認為,世界模型是 VLN 突破長程規劃和動態適應瓶頸的充分非必要條件。但現在世界模型的主要問題是黑盒,而非白盒可微。
Q:大模型的快速發展,為具身智能的“智能”部分帶來了哪些質變?
劉智勇: 從我們的實踐來看,最核心的變化是導航和路徑規劃的技術范式發生了轉變。過去我們采用的是 SLAM 方案,現在則轉向了 VLN 范式。過去的 SLAM 方案存在幾個明顯的局限,一是方案本身不具備語義理解能力,二是依賴靜態地圖,必須預先建圖才能使用,三是需要對特定的傳感器做專門標定。而 VLN 范式完全不同,它可以結合語言和視覺實現語義層面的理解,同時能應對非靜態環境,實現動態適配。更關鍵的是,這個方案不再依賴高規格的激光雷達,也不需要預先部署地圖,成本和效率都實現了大幅優化。大模型的快速發展,推動技術范式從幾何測量的 SLAM 轉向學習增強的 VLN,這正是帶來質變的核心原因。行動、觀測和語言本來屬于三個空間,現在要把三個空間統一起來,這也是目前的核心難點。
大規模落地現在卡在哪兒?
Q:幾乎所有專家都指出,高質量、大規模的物理交互數據稀缺是當前最大瓶頸。面對真實數據采集成本高昂的困境,仿真合成數據、人類視頻數據等替代方案能走多遠?“數據工廠”是可行的解決方案嗎?
劉智勇: 我們面臨的主要數據瓶頸有兩個,一是數據的場景覆蓋不足,比如現在常用的數據集大多基于 Mate Port 3D、Habitat、AI2THOR 等 構建,只包含 固定的訓練環境,場景覆蓋肯定不夠;二是做 VLN 的數據采集成本很高,有時需要 3D 數據采集,標注成本也比 2D 圖像高出一個量級。對 VLN 來說,現在數據是完全不足的,既存在場景覆蓋問題,又有成本高昂的問題。
目前,我們在采用多種數據解決方案。第一是采集真實數據,采集 RGBD 視頻流,以及數字手套等,再結合人工標注指令,像 Atomic 和一些基準數據集的主要來源就是真機數據。第二是比較常見的用仿真器生成,比如借助模擬器搭載 3D 場景庫,批量生成視覺語言軌跡三元組。第三是采用 新范式,不用額外改動 3D 環境,通過改寫人類標注數據的方式生成新樣本,這是一種靜態片段生成的新范式。另外,未來還有一種發展方向是離線數據、離線軌跡挖掘的方式,有點類似實行微克隆。
Q:當前的硬件如靈巧手、關節驅動、傳感器等,在哪些方面最能滿足機器人的技術需求?又在哪些方面構成了發展的主要制約?
劉智勇: 要講滿足技術需求的地方,我們可以和輪式機器人做個比較。之前的輪式機器人只能移動到樓下,沒辦法開單元門、摁電梯,只能在樓下送貨或者在室內移動。而現在的靈巧手、一體化關節,再加上一些觸覺傳感器,能讓機器人具備開門、按電梯的能力,這是輪式機器人到人形機器人的一個巨大轉變。
不過目前硬件也存在幾方面的制約。第一,我們還需要高分辨率的柔性觸覺皮膚。因為機器人需要用機械靈巧手摁電梯,如果觸覺不夠靈敏,盲按的波動率大,成功率就會比較低。第二,門把手的種類太多了,如果機器人沒有觸覺反饋,根本沒辦法應對成千上萬種門的情況,也很難實現場景泛化。再就是機器人要進行成千上萬次的反復操作,電機、執行器、絲杠這些部件的脆弱性,可能在我們的應用場景中被放大 100 倍。所以從硬件角度來講,目前主要的制約就是開門要做得好、觸覺要做得好這兩點。
Q:目前為止,制約具身智能大規模落地應用難題還有哪些?
劉智勇: 對于我們的 VLN 技術來說,主要有兩方面的難題。第一是感知決策的延遲問題,這甚至可能是致命的。簡單來說,長程規劃和行動頻率的匹配很關鍵,如果感知和決策環節出現延遲,機器人在開放環境中運作就會遇到很多麻煩,這就要求必須在端側做好部署。第二是硬件性能短板,既要讓硬件能靈敏地感知外部世界,又要保證它能反復進行操作,而目前這類硬件的耐疲勞性、反脆弱性能還不夠強。對于世界模型來說,核心瓶頸是隱式神經表征,而非顯式 3D 高斯,可能在開門和按鍵上缺少精準幾何信息。
具身智能該告別 “一錘子買賣”?
Q:面對這樣的機遇與挑戰,您們在接下來一年的戰略重點和核心發力方向是什么?
劉智勇: 真機智能其實分成了北京真機和蘇州真機兩個公司。北京真機關注的還是比較傳統的 SLAM 加輪式機器人的技術棧和方案,蘇州真機則聚焦于 VLN 加人形機器人的技術棧及方案。
蘇州真機接下來有兩個關注重點,第一是通過視覺語言導航的方式,實現無需額外提前部署的門到門配送。過去部署成本太高了,大概占了整個機器人售價成本的 38% 左右。我們希望能實現零樣本泛化,換句話說,就是讓機器人能夠直接理解環境,直接完成導航任務。第二是全身運動控制,要解決的核心問題是開門。之前的控制是基于機器人靜態的假設來實現的,哪怕是協作機器人也是保持自身不動去拉開門,這種方式需要的扭矩非常大。我們希望通過全身控制打破靜態平衡的限制,依靠動態平衡的方法更泛化地解決開門的問題。
把這兩個點結合起來,我們既能實現無需預先建圖的門到門配送任務,同時又能解決開門和按電梯的任務。這兩個方案結合之后,就可以實現最后五公里的門到門配送,既能開門、操作電梯,又能以無建圖、無 GPS 的方式完成導航。室內本身沒有 GPS 信號,但又需要實現導航,這時候視覺和語言理解的作用就非常關鍵了。
Q:除了直接銷售機器人整機,具身智能未來的商業模式可能有哪些創新?
劉智勇: 整機銷售和租賃這兩種方式都會存在。但我個人覺得,單純的整機銷售并不是很好的商業模式,更好的方式是 “整機銷售 + 每年服務費” 的組合模式。如果只賣硬件,一次性賣完其實很虧,后續的售后壓力會非常大。“整機銷售 + 每年服務費” 就比較合理,既能保證長期的最大收益,又能解決售后問題,還能讓設備商一次性回本。通過這種組合模式,能把原本不賺錢的 “賣鐵生意”,變成能持續盈利的長期現金流生意。另一方面,用戶一次性付太多錢確實承受不了。
除此之外,未來還可能出現按單收費的商業模式。比如人形配送機器人測算下來每單成本能控制在兩到三元人民幣,和達達這類上游公司合作,機器人完成一單就賺一筆費用。
本體廠商大收縮,要拼什么?
Q:到 2026 年,我們有望看到具身智能在能力邊界上實現怎樣的突破?整個具身智能領域的技術決勝點可能會是什么方面?
劉智勇:2026 年可能會有兩個關鍵突破方向。第一是機器人在非結構化場景中實現穩定作業。要做到這一點,需要機器人具備一定的社交行為表現和自主導航能力。解決了之后,一些之前沒想到的非結構化環境下的任務機器人也可能完成了。目前行業內大多還聚焦在結構化環境,所以這會是一個重要突破。第二是突破莫拉維克悖論(Moravec's Paradox)。以往大家覺得,機器能完成人類覺得難的事,但難以完成人類覺得簡單的事,而 2026 年可能機器人也能勝任這類任務,會在人類覺得簡單的事情上取得突破。
至于技術決勝點,我認為有幾個關鍵因素,其中最重要的是世界模型的因果推理能力。一旦這項能力取得突破,無論是機器人的安全性還是行為和推理的安全性問題,都能得到很好的解決。
Q:2026 年,全球具身智能公司的競爭情況將如何變化?中國公司與國際巨頭各自的優勢和賽點分別會在哪里?
劉智勇:2026 年本體廠商肯定會收縮,馬太效應會非常明顯,估計中國最終只會剩下 5 到 8 家本體機器人公司。不過應用場景相關的公司和上游企業會多一些。
中國和國際企業的優勢不一樣,國際公司的大模型技術更先進,基礎模型能力更強,國內企業還處在追趕狀態,但中國企業擁有供應鏈成本優勢。另外競爭維度也在升級,現在大家可能還在追求單點技術的先進性,到了 2026 年,整體系統的效率會變得更重要。
至于賽點,我覺得核心是在某個單一場景實現盈利,不是毛利而是不依賴大量售后成本的凈利。誰能做到這一點,誰就能形成數據飛輪,有了數據之后,模型和方法能力會進一步提升,之后再推進跨場景復制。
聲明:本文為 AI 前線整理,不代表平臺觀點,未經許可禁止轉載。
技術人的年度儀式感! 年度盤點與趨勢洞察 啟動!
《2025 年度盤點與趨勢洞察》由 InfoQ 技術編輯組策劃。覆蓋大模型、Agent、具身智能、AI Native 開發范式、AI 工具鏈與開發、AI+ 傳統行業等方向,通過長期跟蹤、與業內專家深度訪談等方式,對重點領域進行關鍵技術進展、核心事件和產業趨勢的洞察盤點。
力求以體系化視角幫助讀者理解年度技術演化的底層邏輯、創新方向與落地價值,并為新一年決策提供參考。內容將在 InfoQ 媒體矩陣陸續放出,歡迎大家持續關注。
今日薦文

你也「在看」嗎?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.