具身智能行業剛上演了一場高濃度的大賞。
在剛剛落下帷幕的 WRC(世界機器人大會)上,200余家國內外企業帶著1500多件展品亮相,推出超過百款新品。
*參考閱讀:
花式落地背后,是行業在一年內的火速推進。
2025年被視為具身智能落地元年,目前已有宇樹、智元機器人等多家機器人企業宣布完成億級營收。在機器人公司眼中,工廠、養老院、家庭、餐廳、景區,都是它們的目標場景。
然而,在商業落地飛快的背后,各家具身公司對技術路徑仍處于非共識狀態。就在這兩天,王興興對數據、VLA 的觀點還遭到了一些具身創業者的吐槽。
![]()
*王興興在2025WRC上接受采訪
這種模型、數據、本體三方廠商割裂的現象,讓一些人開始懷疑,正因為目前具身還沒實現真正的智能,三方廠商才彼此甩鍋。
針對技術路線的分野、商業化和投資的狂飆,我們專訪了小苗朗程管理合伙人方正浩。他從2023年開始出手具身智能,針對不同的技術路線,布局了不同的公司。
2023年,方正浩在天使輪投資了穹徹智能、西湖機器人、松延動力3家明星企業。
其中,穹徹智能走以力為中心的具身大模型路線,聯合創始人盧策吾教授是上海交通大學人工智能學院副院長,師從知名學者李飛飛和 Leo Guibas 教授。今年4月,它宣布完成數億元的 Pre-A++ 輪融資。
西湖機器人則是 VLA+RL 融合架構路線的代表,是西湖大學智能實驗室轉化項目,由王東林博士團隊創辦。目前,它的產品已經在物業、醫院、商業園區等場景落地。
松延動力創始人姜哲源則是很多 AI 投資人最喜歡的畫像,清華本碩博背景,25歲輟學創業。在今年的機器人馬拉松比賽上,他和自己的機器人一炮而紅。
作為很早就出手具身項目的投資人,當機器人整機在資本市場大火時,方正浩開始將目光轉向機器人傳感器、核心零部件等上游供應鏈企業。2025年,小苗朗程投資了觸覺傳感器公司千覺機器人。
![]()
*小苗朗程管理合伙人方正浩
在這次世界機器人大會期間,我們和方正浩聊了聊他對具身智能技術路線、商業前景和投資趨勢的判斷。
以下為對話整理,略有刪減:
從數據到模型,具身的非共識探索期
四木相對論:你投資的第一家具身智能企業是什么?
方正浩:最早我們投資的具身智能企業是非夕科技。投的時候業內還沒有具身的概念,它主要做機器人的力反饋+自主決策技術。從時間線上看,投得早的應該是非夕了,投很多年了。后來非夕孵化了穹徹智能,我們也是穹徹天使輪的領投方。
四木相對論:從很早投非夕到布局穹徹,等于看著行業里有了具身的概念。后來你投具身賽道的邏輯是什么?
方正浩:在所有的人工智能落地場景里,AI 和機器人的結合應該是想象空間最大的一個。大語言模型解決了機器人和人類交互的問題。多模態的具身模型,有機會去解決機器人的不同場景下的泛化能力和通用操作的問題。
所以,2023年我們投資了3家具身領域的公司。
到2024年,整機和具身大腦還有投資機會,同時上游供應鏈企業也迎來發展機會,我們開始布局機器人傳感器、零部件環節。具身智能有可能發展為底層的基礎設施平臺,我們現在的思路就是去提前布局,投一些產業空白的環節,推動行業發展。
四木相對論:距離第一次投具身智能過去了兩年。現在一個最熱的話題就是機器人模型,你覺得具身智能模型的技術成熟度如何?
方正浩:技術成熟度上還有非常大問題。各家推出的具身大腦不具備泛用性。當下大模型在落地某一個場景時,還需要針對任務做大量的數據反饋和閉環,還沒有AI想實現的泛用性和通用性涌現。
四木相對論:VLA 和分層架構是當下大模型談論較多的兩種訓練技術路徑,你更看好哪種路徑?
方正浩:端到端的 VLA 路線很火,谷歌的 Gemini Robotics、英偉達的Groot、微軟的 Magma、國內智元都采用了這種路線。VLA 很有潛力,但需要配合大量仿真數據和真實數據才能落地。
![]()
*端到端VLA模型圖解
現在的 VLA 更多是看到物體,用語言操縱它,具備了一定的物體識別能力。到落地各個場景時,機器人如何和物體互動,如何完成任務,這個事情都還處于非常初步的階段。
那另一種分層式的架構,大腦、小腦和肢體都是分開的,大語言模型負責規劃小模型和硬件,通過快速反饋實現控制,這種在短期內會更容易實現。
還有一些更細分的路線,比如更側重力覺的路線。人和現實物理間的交互絕大部分其實都是靠手眼協作完成,手眼協作還需要對物體的力反饋有一個認知。
每一種路徑我們其實都有布局,像西湖機器人是做VLA+RL(人形機器人運動控制)的,穹徹是以力覺為中心的具身大模型路線。現在賽道還在演進,很難判斷終極路線。
四木相對論:你覺得限制具身智能大模型發展的因素有哪些?有人說是數據,有人說是架構。
方正浩:當前具身智能發展還存在一些明顯短板。第一個是數據采集與訓練仿真的協同問題,這一核心環節目前還沒有找到徹底攻克的方案,導致實際場景中的數據利用率和仿真訓練的落地效果都受到限制。
第二個短板在于感知維度的完整性。目前技術路徑大多依賴視覺與語言的融合,但僅靠這兩種模態遠遠不夠 —— 如果缺乏力覺、觸覺等更貼近物理交互的感知維度,具身智能就難以實現真正意義上的端到端學習。
畢竟當前主流方案里,“vision(視覺)+ language(語言)” 的二元框架,在復雜物理環境交互中能覆蓋的場景太有限了,必須補充更多元的感知維度才能突破瓶頸。
四木相對論:力覺信息與具身模型之間的關系是怎樣的,它如何融入到大模型的感知和決策系統中?
方正浩:力覺信息更適合與小腦結合進行底層控制,如條件反射般進行控制,與大模型尤其是世界模型的融合還有待技術突破。
在當前的具身智能系統中,力覺信息通常并不是直接輸給大模型處理,而是更常與類“小腦”的控制模塊結合,用于執行預測控制、誤差補償和動態閉環反饋。
這樣做的原因在于,力覺數據頻率高、數據量大、實時性強,不適合大模型的長上下文推理路徑處理。目前主流路徑是將力覺數據先通過神經編碼器轉化為低維 embedding 或事件 token,再作為輔助模態傳入大模型,做任務規劃或策略生成。
與此同時,大模型也開始嘗試在多模態預訓練中引入力覺模態,使機器人具備基礎的“觸覺語義理解”能力,例如感知“軟”、“滑”、“有阻力”等物理屬性。
另外,業界正在探索世界模型。在感知層目前只有物體的二維+深度信息,未來會是多維信息,包括應該用怎樣的力和眼前的物體進行交互,力覺信息也成為世界模型的一部分。
未來,大模型也許會具備“具身反思”的能力。也就是,通過力覺失敗經驗反推抓取策略或重新規劃任務,即為和強化學習深度融合。
四木相對論:那么行業對具身智能大模型落地所需的本體精細度有形成共識嗎?如何看待大模型和硬件本體之間的關系?
方正浩:在硬件精細度上,大家現在還沒形成共識,不同企業和研究機構基于不同的理念和目標,采用了差異化的硬件設計思路。
波士頓動力的 Atlas 就采用了精細化的設計,用了液壓驅動技術,配備高精度傳感器,還搭載了高自由度、結構復雜的零部件。
![]()
*波士頓動力的 Atlas
零部件越精細,執行能力肯定會越強,能完成更復雜的操作和執行精度任務。但這樣做之后成本會出現問題,可能需要上百萬元,大規模降本之后也要幾十萬元。像特斯拉的 Optimus ,它降低了執行器的靈敏度來大幅降低成本,更多是產業化的思路。
我認為未來軟硬件協同設計,包括標準化的器件平臺,會是一個方向。像低配的軟件平臺和大腦平臺來兼容低配的硬件,那高配的硬件也有高配的軟件來兼容。
很像智能手機和電腦,英特爾的賽揚、奔騰、酷睿、至強,都可以被同一套系統兼容,只是應用場景不同,需要的硬件配置不一樣。
四木相對論:適配于雙足機器人和一體化底盤的機器人的具身智能模型,訓練難度差別大嗎?
方正浩:不是很大,現在下肢部分的技術難度已經解決得差不多了,真正難的還是感覺統合和手這一端。
業內廠商還是想做通用的平臺,希望兼容兩足、四足等不同形態的機器人硬件。我們投的這些企業,大家也都在致力于研究統一的大模型,想兼容各類形態的產品、場景。
四木相對論:具身智能模型的泛用性是業內備受關注的一個話題,你前面也提到了當下模型在泛化性上的不足,這個問題該如何解決呢?
方正浩:其實所有的廠商除了設計針對不同場景的泛用性大小腦,也在設計可以兼容不同硬件的大小腦,實現和硬件解耦,各類硬件數據可遷移。這也是當下“大腦”研究的一個重要問題。
我認為它需要一套智能大腦適應不同的平臺,而核心是抽象和模塊化的設計。
現在一些研究工作提出把大腦和小腦分層架構通過標準接口實現即插即用。這里面需要解決動作的映射和狀態的同步問題。大腦輸出的高層動作鏈必須轉化成各個平臺的具體的關節控制,需要共享環境和機器人的狀態,同時也要考慮異構硬件的反饋閉環。
不同平臺的感知和動力學不同,可能系統也要自適應地去調整策略。它還是需要設計統一的認知和決策接口,然后通過類似于技能庫、控制器的模塊化設計,來映射物理執行,這樣才能實現大腦和不同的硬件的融合。
四木相對論:如何高通量地采集高質量的多模態數據一直是具身智能領域的訓練瓶頸之一,真實數據和合成數據之爭,也成了具身領域的非共識,你怎么看這兩種數據路線?
方正浩:真實數據更多是用來做細節訓練和驗證,而合成數據可以用于大規模的預訓練,及一些極端場景的訓練。
和自動駕駛不同,具身智能真實數據的采集成本很高,且通量較低。哪怕是L2級別的自動駕駛,也可以通過傳感器獲得大量車手的真實駕駛數據反饋,但機器人需要做到95分才能在行業落地,否則存在大量可靠性、魯棒性和安全性的問題,數據采集挑戰很大。
我們投資的穹徹智能,就是用外骨骼和遙操作來采集真實的數據,并通過仿真數據來提高規模和多樣性。首先要通過真實采集的方式來做訓練和細節,然后要通過模擬合成來做大模型預訓練,相輔相成才能解決泛化問題。
具身已落地簡單場景,但前路還很長
四木相對論:就你的觀察,不同類型的機器人分別更適合用于什么場景?
方正浩:從場景看,下肢的形態比較多,像雙足、四足、輪式,還有更復雜的結構,都有自己適合的場景。
比如說在平地,輪式和履帶式比較適合。如果沒有越障、爬樓或復雜地形,輪式和履帶式完全夠用,成本比較低,魯棒性也比較高。

*銀河通用機器人
如果是工廠,雙足、四足都可以考慮。在戶外的復雜地形,四足可能更有優勢。
雙足的人形機器人更適合一些需要和人互動和共處的場景。這些場景是為人類使用習慣設計的,雙足形態更像人,理論上也會更好互動。
不同場景下會有不同方案的落地可能。從可靠性講,雙足是相對來說最弱的,它的生產成本和控制難度都會更高一些。現在大家表演的前空翻、后空翻,更多還是展示。
四木相對論:你認為哪種形態的落地范圍會更廣?現在雙足也會有爭議。
方正浩:長遠來講,我們肯定更看好雙足機器人。無論是高端還是低端,它的市場空間都是最大的。但它的落地周期也最長,無論是控制難度還是成本,都沒有優勢。
相對來講輪式是最穩定的,無論是工業機器人、AGV、AMR,履帶式和輪式都是相對比較成熟的。而且從供應鏈角度,成本和可靠性上也最有優勢。
四木相對論:有人說2025年是具身智能落地元年,現在各家都宣布了落地場景,據你觀察,目前具身智能實際落地進展如何?
方正浩:從場景來看的話,其實服務場景的落地周期還是挺長的。像養老場景,還有家庭那種需要任意操作的場景,難度和自動駕駛的L4、L5級別類似,落地難度非常大。
現在能落地的還是一些簡單場景。比如說展示場景,還有商店里的服務場景。
![]()
*貨架整理場景
它們的共性很明顯:首先是任務明確,不會有太多模糊的需求;第二是環境相對可控,不會突然出現太多不可預測的情況;第三就是需求量也還可以,所以落地起來會更容易些。
再說到工業或者產業場景,傳統工業場景對節拍、精度要求很高,對泛化性要求也沒那么高,其實和具身智能的兼容性沒那么強。
但像清潔配送、餐廳送餐、行李搬運這些場景,已經有具身智能落地應用的雛形了。它們需要一定的泛用性,對節拍的要求沒那么嚴格,反而更適合具身智能落地。
四木相對論:上一代的服務機器人四小龍已經解決了很多場景的需求,還需要具身智能嗎?
方正浩:有一些場景是原來的技術沒辦法完全解決的,比如說行李搬運、配送。也有一些場景,用現在的技術可以更好升級解決方案,像商業清潔場景,之前的服務機器人解決得就并不好,還存在比較大的迭代空間。
四木相對論:工業領域你有看到什么效果還不錯的落地場景嗎?
方正浩:我認為一個比較好的場景是上下料環節。工業領域很多場景的邏輯性很強,是固定工位、固定操作,它不需要泛化性,對具身智能的需求也就不大,但物流搬運和上下料還是有一些需求的。像我們投資的西湖機器人,它應該今年就會有場景落地的商業化。
四木相對論:你認為人形機器人多久可以進入家庭場景?
方正浩:可能10年左右吧。當然這里是說全尺寸的人形機器人,現在各種形態的陪伴機器人已經進入家庭了。陪伴機器人也不需要是人形,可以是個小企鵝,甚至是一個蛋的形態。
四木相對論:你看好這種AI玩具產品嗎?
方正浩:玩具產品是有市場、有機會的,但商業模式上要謹慎考慮。比如說日本的 AI 寵物 LOVOT ,我去實地體驗過,它確實特別可愛,很有特點。不過它的受眾和市場非常有限,很難實現規模化。
![]()
*LOVOT AI 寵物
LOVOT 售價差不多1萬美金,大概6萬人民幣;或者是近3萬元的售價,加上每月880元也就是一年1萬多的訂閱費用,這個定價不符合絕大部分消費者的承受能力。
這個領域的頭部創業公司大家都看到了。他們有幾億營收,但我覺得不一定盈利。現在很多機器人走線上渠道銷售,存在很大的退貨風險。很多用戶收到機器人后,會發現產品和自己預期的差距挺大的。

*大象機器人
四木相對論:或許AI玩具賽道的研發成本也更低。
方正浩:對,現在陪伴機器人主要是陪聊天,沒有其他什么功能。LOVOT 還復雜一點,里面有上百個傳感器,包括維持37度的體溫,維持寵物和人的互動,你各種角度撫摸、觸碰它,它都會給你不同的反饋。
但要做一個相對復雜的產品,還是有一定的成本和門檻的。LOVOT 連聊天都不行,國內的一些產品還是以聊天為主,但過于同質化,沒有令人眼前一亮的AI陪伴產品出現。
兩年內,會有一些公司掉隊
四木相對論:如今具身智能領域已有數百家公司,如果現在再投資這個賽道會有什么不同?
方正浩:會非常謹慎。現在具身賽道已經過熱了,投資行業也已經恢復到一個比較理性的狀態。
四木相對論:大模型的“六小龍”已經分化,具身領域的企業有跑出差距嗎?
方正浩:具身智能公司還談不上跑得快、跑得慢。因為大家都還沒到量產的時候,可能到今年年底能更清晰一些。
四木相對論:現在具身智能企業的出貨量怎么樣?
方正浩:2025年全球人形機器人出貨量在數萬臺量級,各大廠商都在加速量產布局。很多家中國人形機器人廠商計劃2025年交付數百至上千臺人形機器人。
前段時間智元、宇樹在杭州拿下總規模1.24億的人形機器人訂單,優必選拿下近億元的機器人設備采購項目,引發全行業關注,這也標志著人形機器人商業化起步。
四木相對論:國內具身智能上游供應鏈現在完善度如何?
方正浩:中國有不錯的硬件基礎,但現在供應鏈的產能是相對不足的。
具身智能畢竟是一個新興的賽道,供應鏈企業更多是服務于上一代機器人,一些適配 AI 模型所需的零部件仍在發展中。某種程度上,上游的產能也限制了下游的落地速度。
四木相對論:怎么看靈巧手的商業化?
方正浩:靈巧手反而是最沒量的,目前真實落地場景還比較少。多數場景只需要做夾持或抓握,上海有句話叫“三只手指頭捏田螺,十拿九穩”,多數場景三個指頭完全可以夾起來各種東西。
四木相對論:你覺得具身智能領域最后能跑出多少玩家?
方正浩:有可能最后跑出來的就5-10家,但現在選手有幾百家,選擇投資下注的勝率還是比較有挑戰的。我看到現在整機已經有些趨冷了。
四木相對論:具備什么基因的公司更可能跑出來?
方正浩:大腦公司在技術端要有絕對的長板,這就是技術公司最好的 PR。本體公司在商業落地上要走得遠。這是最大的區別。
具身智能大模型公司可以不急于商業化,現階段的商業化可能也就是定制化的外包項目。模型公司歸根到底還是要做出具有泛化性的大腦,還是要把技術打磨得足夠領先。
今年是融資的春天。具身應該是今年一級市場最火的賽道,虹吸了很多賽道的基金。不過后面大家應該就會慢慢冷靜下來,其實現在已經開始冷靜了。
機器人的實際能力還是和預期有差距,行業也出現了大量的機器人公司,很難去判斷哪家是優秀的。
四木相對論:什么時候行業格局會更清晰?
方正浩:明后年,應該會有一些公司跑出來,一些公司掉隊。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.