文 | 奇點研究社,作者|孟雯
1950年,圖靈在《計算機器與智能》中埋下了“具身智能”的種子。
七十年后,這顆種子伴著ChatGPT的熱潮與VLA的出現長出枝丫,具身智能取代"自動化"的傳統敘事,成為新的行業共識。
作為“AI落地現實載體”的新物種,機器人成了被時代選召的新寵兒。
剛剛結束的馬年春晚,宇樹科技、松延動力、銀河通用等一批具身智能企業集體亮相,以超高密度完成了全民科普,據傳馬年春晚開播兩小時,京東機器人搜索量環比增長超300%,訂單量暴漲150%。
但這并非一場只有掌聲的巡演,亦是一次伴隨著烈火烹油的殘酷換擋。
在資本市場,這是前所未有的狂歡:具身智能賽道年融資規模激增至744起,金額沖向735.43億元。然而,繁華背面,行業亦在經歷陣痛。
一邊是特斯拉、優必選等巨頭在全球范圍內加速迭代與擴產;另一邊,是明星創企K-Scale遺憾退場、曾經的獨角獸達闥機器人悄然倒下的冰冷現實。
估值的飆升與出貨量的克制,構成了具身智能最真實的張力。
從春晚頂流到車間工友
馬年春晚,具身智能以前所未有的姿態統治了視覺中心。
宇樹科技的G1機器人以《武BOT》燃爆全場,在單腿連續后空翻與兩三米高度的跳馬騰空中展現出驚人的運動極限;松延動力的“仿生蔡明”則通過像素級復刻,實現了妝造與口型的真假難辨;魔法原子的MagicBot Z1化身舞團,與明星同臺完成托馬斯回旋等高難度動作。
從四川宜賓分會場百臺同步舞蹈的熊貓機器狗,到銀河通用、追覓的場景化演示,機器人濃度含量過高,被網友們戲稱為“首屆AI春晚”。
遙想14年前,機器人在春晚初登場,還是個只會做簡單動作的氛圍組伴舞,如今它們不僅穩站舞臺C位,更憑借深度進化的感知與交互,一躍成為當之無愧的春晚頂流。
![]()
更深刻的變革發生在光影背后的工廠車間。
2026年初,智元機器人宣布累計下線突破5000臺,并向數萬臺年度目標沖刺,其"遠征"系列已在汽車制造與精密電子生產線上累計工作超100萬小時;
優必選提出1萬臺工業級機器人的產能規劃,并與空中客車簽署戰略協議,Walker S2正式入駐制造工廠,開始挑戰航空級精密裝配;
星動紀元聯手順豐科技,在極高頻次的倉儲中轉環節推進規模化落地,將“足式+輪式”的優勢轉化為物流效率。
產業熱度迅速外溢到資本市場。魔法原子聯合創始人顧詩韜透露,公司最快可能在2026年在二級市場有新消息,正按照最快速度排上市時間表。已完成股改的樂聚智能和云深處科技也已正式啟動上市流程。
美團、阿里、京東、騰訊等互聯網巨頭在2024年瘋狂布局大模型后,也在2025年集體"殺入"具身智能賽道,以寧德時代、汽車主機廠為代表的先進制造與產業巨頭,亦有押注……
從實驗室Demo到工廠訂單,從資本敘事到商業兌現,具身智能似乎已邁過技術驗證的生死線,全速沖向規模化量產前夜。
![]()
圖片來源:銀河通用機器人微信公眾號
政策東風也從宏觀引導轉向了精準入場,25年年底,工信部等四部門發布的《汽車行業數字化轉型實施方案》明確提出推動智能機器人在焊接、噴涂、總裝等環節規模化應用,并打造"具身智能示范產線"。
然而,理想與現實之間卻橫亙著一道深溝。國家地方共建人形機器人創新中心的首席科學家江磊坦言,行業目前更像是在做“消費級產品儲備”,年產量不敢超過一萬臺,因為“產太多沒有用途、售后壓力也會非常大”。
銀河通用創始人王鶴更是直言不諱地指出,全球今天真正運行在人類工作場景里的機器人,可能還不到1000臺。
國外特斯拉Optimus V3雖然確定于今年Q1發布,并喊出年底10萬臺、遠期100萬臺的宏偉產能,目標售價直指2萬美元,但其時間表已較原計劃推遲了約8個月。
22自由度靈巧手在極限工況下的量產穩定性,以及高功率作業時的液冷散熱工程化難題是核心瓶頸。
資本的狂歡與產業的焦灼交織并行,這種“撕裂”除了有因春晚舞臺秀激發的輿論破圈,還在于具身智能在硬件、算法乃至商業化路徑選擇上都充滿了"非共識"。
范式突圍, 在“非共識”中全速換擋
所謂具身智能,就是給機器一個“身體”和一個“大腦”:讓它通過傳感器真實地感知物理世界,再用大模型等算法理解環境、規劃動作,驅動關節和電機去完成任務。通俗理解,就是讓機器人像人一樣“看得見、聽得懂、能動手”。
如果把它抽象為"有身體的AI操作系統",最底層是硬件本體,負責讓機器“動起來”;往上一層是算法大腦,決定它“如何思考”;再往上是環境感知,讓它學會“看清世界、感受自己”;最后是商業化運維,關心機器人能不能在現實世界里“活下去,并賺到錢”。
在"要造一具什么樣的身體"這件事上,行業目前就有三條路線。
優必選、智元致力于用“工業精密主義”定義機器人的骨架。它們通過全棧自研核心伺服系統與精密減速器,追求的是在汽車制造或精密電子生產線上實現長周期的穩定作業。用物理層面的可靠性,換取工業場景對“硅基勞動力”的深度信任。
宇樹科技、松延動力、眾擎充分利用本土供應鏈的規模效應,在“性能與性價比”上尋求突破,并成功將整機成本從百萬元級引導至十萬元甚至幾萬,降低門檻,吸引海量的開發者與極客群體,先在非標場景中沉淀生態。
![]()
圖片來源:松延動力微信公眾號,圖為“小頑童N2”與CES參展人員握手
而銀河通用和云深處則想證明“人形”并非物理作業的唯一解,前者選擇輪式底盤加雙臂,優先攻進倉儲、零售和部分重載工業;后者堅持四足加人形混合,在電力巡檢、管廊隧道、應急救援等場景靠地形適應力爭先。
其實這種路線差異也對應著商業哲學的分野——有人堅持垂直全棧,從伺服、電機、減速器到整機再到上層控制和大模型都自己做,來換取長期壁壘和議價權,比如優必選的Walker S2;
也有人選擇模塊開放,把本體做成標準平臺,對外開放接口,讓更多第三方來"裝大腦、裝應用",靠出貨量和生態掙錢,典型如智元機器人推出的開放平臺。
再往上看,大腦算法幾乎是一部技術范式的迭代史。早期的仿真遷移技術雖然解決了初期的模型訓練成本,但在面對真實物理世界的摩擦、形變與復雜噪聲時,會陷入長序列操作的累積誤差,導致在現實里"越做越錯"。
后來,融合了互聯網通用語料的VLA(視覺-語言-動作)大模型成為主流,賦予了機器人出色的語義理解與任務拆解能力,從谷歌的RT-2到Physical Intelligence的π系列,再到GEN-0、GR00T等,VLA模型極大地降低了人機交互的門檻。
VLA擅長將復雜的圖像與語言信息交織,按照習得的“套路”推演動作。然而,其結構性短板也隨之浮現:在處理細致的物理操作和力覺反饋時,VLA往往難以精準預判后果,比如“把杯子放到桌沿”、“既不滑下去也不把水灑出來”。
清華大學自動化系教授趙明國就認為行業熱捧的VLA模型更多是過渡性的技術手段,而非終極方案。他提到,大語言模型的成功,源于人類語言數據的“標準化”與“海量”,但物理世界的視覺、觸覺數據“非常不規范”,沒辦法簡單照搬。
![]()
圖片來源:大曉機器人
最近,行業破局點指向了WAM(World Action Model)世界模型。這種新范式要求機器人在動作發生前,先在內部的想象空間中對物理演化進行模擬。
近期斯坦福、英偉達發布的Cosmos Policy等研究給出了Zero-shot(零樣本)就能泛化執行不同工作的具身模型的可能,即通過視頻生成模型訓練機器人的“物理直覺”:先學會“如果發生某種情況,世界會怎樣演變”,再以此為基礎規劃“我該如何行動”。
![]()
這種“先預演后執行”的能力,成為提升機器人作業成功率的關鍵。清華大學與斯坦福聯合提出的Ctrl-World模型,使用零真機數據即可將下游任務的指令跟隨成功率從38.7%提升至83.4%,平均改進幅度達44.7%
雖然世界模型的潛力在于能從根本上緩解操作誤差,但其背后所需的數據量、算力規模(英偉達DreamZero依賴于H100或GB200這樣的頂級芯片組成的計算集群進行并行推理,對于邊緣端部署的獨立機器人來說,目前的算力成本完全不可接受)及工程復雜度也遠超以往,處于“科研高光”與“工程探索”并行的階段。
![]()
這種技術路徑差異也延伸到“智力來源”的選擇上:是掛載GPT-4o、Gemini等通用大模型“借智”,還是像國內原力靈機這類公司那樣,從頭訓練具身原生模型,也成為不同技術背景團隊各自探索的高地。
智能的“涌現”離不開高質量數據的喂養,這就落到了環境感知層。它石智航CEO陳亦倫曾提到,具身智能面臨的任務復雜度,使得其對產品級迭代所需的數據量,是自動駕駛的十倍以上。自變量創始人王潛也曾提醒,行業對數據的認知正在發生變化:并不是數據越多越好,而是"越有效越好"。
這一層同樣有兩條“平行線”,一部分團隊堅持在真實的工廠、機房中進行長周期的多模態數據采集,追求數據與物理環境的絕對一致性。
特斯拉的FSD之所以強,不完全是因為神經網絡寫得比別人漂亮,更因為它有幾百萬輛車在路上跑,這些車就是分布式的"數據采集器",每天都在通過"影子模式"收集那些極端罕見的長尾場景。
![]()
再比如,國內千尋智能的"小墨"機器人重復著枯燥卻關鍵的工作——在寧德時代的生產車間里自主檢測線束連接狀態,動態調節插拔力度,其單日工作量較人工提升3倍,插接成功率穩定在99%以上,顯著降低了人工成本與生產損耗。
另一部分則在強化高保真物理引擎的模擬能力,試圖通過合成數據來縮短算法的進化周期,銀河通用便是如此,其創始人王鶴曾在采訪中提到,“短期內仿真模擬與合成數據仍將承擔更多探索任務,長期來看,必須讓機器人真實部署量級成百上千倍增長。”
所有技術的進位,最終都要在商業閉環中尋找答案。To B的RaaS(機器人即服務),正在將昂貴的硬件投入轉化為標準化的生產力租賃,通過規模化運營來平攤初始研發成本。擎天租預計2025年機器人租賃市場規模將突破10億元,2026年不會低于100億元。
![]()
圖片來源:智元機器人《機器人奇妙夜》
To C領域,春晚舞臺或文旅表演所帶來的品牌溢價,為具身智能積累第一波大眾認知與流量資產。這種初期的市場教育雖然以展演為主,但也為后續進入家庭等深度服務場景埋下伏筆。
![]()
圖片來源:眾擎機器人微信公眾號,首屆人形機器人自由格斗聯賽
2025年,頭部公司賬面收入確實在快速增長:優必選全年訂單總金額接近14億元,宇樹科技接近12億元,智元機器人約為7億至10億元,銀河通用超過7億元。不過訂單金額不等于實際交付,更不等于盈利。
優必選雖然年營收超過13億元,但研發投入和運營成本居高不下,財報顯示,2025年上半年其研發費用高達2.18億元,占營收比重35.1%,同期凈虧損4.39億元。智元、宇樹等獨角獸雖然估值飆升,但規模化量產的成本壓力和售后體系的建設投入巨大,商業化也還處在早期。
擎天租CEO李一言曾公開表示,目前整個行業的產能還很小,全球加起來也就1萬多臺,保有量仍屬起步。如此看來,當下的"億元訂單"更多還是標桿場景的先導嘗試,而非可復制的規模化需求。
可以說,在“身體怎么造、腦子怎么練、數據怎么來、商業怎么跑”的每一環,具身智能都處于一種“有生命力的非共識”狀態,而且各維度深度耦合:選了便宜的本體,可能就要在算法上做更復雜的補償;追求極致的世界模型,就必須承受更高的數據與運維成本。沒有人能像當年看NLP那樣說:Transformer+大參數+海量文本就是唯一答案。
不過也正因為這種系統性的非共識,讓具身智能呈現出蓬勃的生機,資本在任何一個維度上都能講出極具想象力的故事:世界模型、空間智能、DFOL、RaaS……
銀河通用創始人王鶴就曾直言,"沒有共識是很好的事情,如果大家都形成共識了,那么最后拼的就是成本、資源、人脈。這些要素都不是創業者擅長的,對創業是不利的。"
這也為中國探索出自己的技術路線和商業路徑預留出更大可能。
如今,國內已經在諧波減速器、力矩/六維力傳感器、IMU等核心器件上實現了從幾乎全線依賴進口,到可100%全國產配置的跨越,整機成本從上百萬元壓縮至十幾萬、乃至萬元級。
江蘇近千家機器人相關企業編織起逾 1700 億元的產業版圖,蘇州綠的諧波、南京工藝、恒立精密、坤維科技等諸多產業鏈隱形冠軍密集匯聚在方圓五十里的“半小時供應圈”。
![]()
這種“集群式聚變”不僅緩解了供應鏈的被動,更賦予了開發者一種“范式自由”:可以全棧自研追求極致可靠性,也可模塊開放快速迭代生態;可以做人形攻進工廠,亦可做四足深耕巡檢……
與硬件底座互為表里的,是算法大腦的“自主換擋”。智元的EnerVerse、自變量的WALL-A、中科第五紀的BridgeV2W、螞蟻靈波的LingBot-World等一批國產世界模型分別從應用落地、技術突破、生態打磨上展開競速,它們不是在“復制OpenAI”,而是在構建更契合物理世界的國產技術棧。
在感知和環境運維上,大規模真實場景的數據采集、運維平臺和RaaS模式,必須深度適配本土工業、城市和政策環境,這天然需要本地廠商主導。
具身智能的“國產替代”不再是簡單地替換某顆螺絲,而是基于自身供應鏈優勢對整套技術范式的自主重構。
誰掌握了從零部件到整機、從大模型到運維體系的自主可控能力,誰就有資格在這片非共識之地反復試錯,率先撞開那扇通往產業奇點的大門。
2026,具身智走向“共識”
如今,具身智能經過一輪資本高熱到估值回調的洗禮,那些曾經爭論不休的路徑分歧,在現實引力與交付指標的篩選下達成和解,行業也在去偽存真的熔煉中逐漸沉淀出一些“共識”。
共識一:形態不重要,場景才重要。
關于"機器人應該長什么樣"的爭論,從一開始就充滿了偏見。有人堅持人形才是終極答案,因為人類世界的基礎設施——樓梯、門把手、操作臺、工具——都是為人類設計的;也有人認為多足、輪式甚至球形更高效,何必拘泥于"像人"。
但這場辯論本身可能就問錯了問題。正如未來學家托馬斯·弗雷所指出的,根本不存在"完美"的機器人形態,就像不存在"完美"的交通工具一樣——摩托車、轎車、卡車、坦克各有其用,沒人會爭論哪一種universally superior(普遍更優)。機器人的形態應該服務于場景,而非相反。
人形機器人在人類設計的環境中確實有優勢:不用改造房子,機器人適應房子;不用重新設計工具,機器人使用現有工具。但當任務變得具體,specialized(專業化)的形態往往更高效——倉儲場景里輪式比雙足更快,電力巡檢中四足比人形更穩,精密裝配時多臂比雙臂更靈活。
這種"形態多樣性"的共識,本質上是對物理世界復雜性的承認:沒有一把鑰匙能開所有的鎖,也沒有一種形態能通吃所有場景。
共識二:人為本,理解物理世界的底層。
人工智能研究者漢斯·莫拉維克提出過一個著名的悖論:對計算機來說,下棋很容易,但感知和行走極其困難。它精準預言了今天具身智能的底層困境——我們可以在虛擬空間里訓練出精通圍棋、精通語言的AI,但讓它穩當地拿起一個杯子、穿過一扇門,卻需要完全不同的能力。
![]()
圖片來源:大曉機器人
這種能力不是單純靠堆算力能解決的,更需要對"身體如何與物理世界交互"的深刻理解。機器人不需要像人一樣思考,但需要理解人在物理世界中的行為邏輯、意圖表達和安全邊界。"以人為本"不是倫理裝飾,而是技術剛需:只有理解了人的存在方式,機器人才能真正成為協作伙伴,而非冰冷的替代工具。
共識三:不是取代,而是釋放。
1920年,捷克文學家卡雷爾·恰佩克在三幕劇《羅素姆萬能機器人》中第一次使用了"Robot"這個詞——它源于捷克語"robota",意思是"苦力"和"奴隸"。
故事里的機器人被制造出來,初衷是完成所有人類不愿做的苦差事,從而解放人類去從事更美好的事物。
100多年后,"Robot"這個詞承載的期待,從未改變。具身智能指向的未來,也并非取代人,而是最大程度釋放人的創造力。
2026,國內機器人從千臺測算邁向萬臺交付,成為被寄予厚望的"量產元年"。站在產業infra的拐點,我們即將邁入一個人機協作的新紀元——不是取代,而是增強;不是疏離,而是融合;不是終結,而是新生。
這,是所有具身智能企業的價值共識,也是這個行業最終要抵達的彼岸。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.