![]()
從人形機器人的靈活操控到工業機械臂的精準作業,從服務機器人的場景適配到邊緣設備的算力升級,無不預示著“物理AI”時代的加速到來。
2026年開年以來,具身智能領域的市場熱度與資本活躍度持續攀升,投融資事件密集落地,同時春晚舞臺上多家頭部具身智能領域公司的產品集中亮相,更讓這一賽道從產業端走向大眾視野,直觀展現了這一年技術發展的快速發展。
當前,具身智能正從概念熱潮向產業攻堅過渡,邊端側計算設備則作為其落地的核心載體,迎來架構迭代與性能突破的關鍵期。與單純的虛擬AI不同,具身智能要求實體設備具備“感知-理解-決策-執行-反饋”的完整閉環,能夠通過執行器改變物理世界并形成動態調整,這一特性決定了其對算力、實時性、可靠性的多元需求,也推動著邊端側計算從“通用化”向“異構化”“定制化”轉型。
從概念到落地,具身智能產業進入新周期
當生成式AI的熱度逐漸沉淀,具身智能憑借“連接虛擬與物理世界”的獨特價值,成為AI產業下一階段的核心增長點。據國務院發展研究中心?預測,中國具身智能2030年達4000億元人民幣,2035年突破萬億元。與此同時,中國信通院?《具身智能發展報告(2025年)》中,首次將具身智能納入國家未來產業重點,2025年全球市場規模195.25億元人民幣。
但熱鬧的市場背后,是產業落地的諸多現實瓶頸。英特爾研究院副總裁、英特爾中國研究院院長宋繼強明確指出:“當前具身智能的發展,正處于‘提升能力上限’與‘保障能力下限’的雙重攻堅期。大家都在展示機器人的智能能力,但很少有人關注它表現不佳時該怎么辦——這正是產業化必須跨越的鴻溝”。
當前具身智能的產業現狀呈現“熱度高、落地難、痛點集中”的特點,而異構計算作為破解痛點的核心思路,逐漸成為行業共識。
具身智能的核心是將智能能力與實體設備結合,讓設備能夠感知外界、理解環境、做出決策,并通過執行器改變物理世界,最終形成“決策-執行-反饋”的閉環。在宋繼強看來,如果只是播放視頻、發送語音,這些不算具身智能,“具身智能的核心必須能對物理世界產生實際影響。”宋繼強強調。
這一定義清晰劃分了具身智能與傳統AI的邊界:傳統AI多局限于虛擬場景的信息處理,而具身智能則強調“物理交互”與“閉環能力”。例如,一輛能將人從A點運到B點的自動駕駛汽車、一臺能完成物流分揀的移動機器人、一架能實現物資運送的無人機,都屬于具身智能的范疇;而單純的語音助手、圖像識別系統,則不屬于這一領域。
近年來,隨著多模態大模型、視覺-語言-動作模型(VLA)、世界模型等技術的突破,具身智能的產業熱度持續攀升。根據Gartner 2024年發布的《新興技術成熟度曲線》報告,?生成式AI已越過“期望膨脹期”頂峰?,而?自主AI系統?(Autonomous AI)作為其延伸方向,正推動人形機器人、具身智能體等進入該階段的中后期。
熱錢之下
2026年開年以來,具身智能領域的市場熱度與資本活躍度持續攀升,投融資事件密集落地,同時今年春晚舞臺上宇樹科技、松延動力、魔法原子、銀河通用等多家頭部具身智能領域公司的產品集中亮相,更讓這一賽道從產業端走向大眾視野,直觀展現了技術落地的階段性成果。
從投融資動態來看,2026年以來具身智能領域融資熱度持續升溫,資本布局呈現“大額融資集中、頭部企業凸顯、多資本類型參與”的特點。
2月24日,具身智能頭部企業千尋智能宣布連續完成兩輪近20億元融資,創下2026年以來該領域融資新高,投資方涵蓋云鋒基金、混沌投資等一線機構,TCL創投等產業資本,以及重慶、杭州等地國有資本,老股東也持續加碼,本輪融資后其估值突破百億元,將重點投入具身基礎模型與真實數據體系建設。在此之前,月23日,全球機器人基礎模型龍頭企業智平方完成B輪超10億元融資,估值超百億,投資方包括百度、中國中車等多方力量,近一年內該企業已累計完成12輪融資,成為全球融資節奏最快的具身智能企業。
此外,2月11日星海圖完成近10億元B輪融資,2月10日商湯科技旗下大曉機器人完成天使輪融資,據不完全統計,2026年1月份全球具身智能及人形機器人領域融資事件超20起,披露融資總額超160億元,同時埃斯頓、宇樹科技、樂聚機器人等企業正籌備IPO,計劃2026年沖刺資本市場,資本的持續注入為產業技術攻堅提供了有力支撐。
盡管產業熱度高漲,但當前具身智能的落地仍面臨諸多痛點,其中準確性、可靠性、數據孤島三大問題最為突出,成為制約其從“演示”走向“實用”的關鍵瓶頸。
首先是準確性不足的問題,這也是當前VLA模型的核心短板。VLA作為具身智能的核心技術之一,能夠實現“視覺輸入-語言理解-動作輸出”的端到端映射,但目前其性能仍有較大提升空間。對此,宋繼強表示,當前主流VLA模型的任務準確率僅為60%-70%,離工業級可用的99%以上準確率還差幾十個點。而且它的泛化能力很差,視覺場景發生輕微變化——比如物體顏色、形狀、相對位置的改變,如果沒有在訓練數據集中出現過,就很難外推到位。
其次是可靠性與安全性的雙重挑戰。具身智能設備多在與人、工業環境交互的場景中運行,其可靠性與安全性直接關系到人員安全與生產效率。宋繼強告訴筆者,具身智能的可靠性,至少體現在三個層級:第一,規劃決策是否可信賴;第二,動作執行是否可信賴;第三,系統出錯時整體是否仍可靠,“當前很多具身智能設備,在這三個層級都存在短板。”宋繼強指出。
具體來看,在規劃決策層,基于神經網絡的大模型、VLA模型存在“黑盒問題”與“幻覺問題”,難以保證決策的可解釋性與準確性。例如,機器人可能會因為模型幻覺,將“拿起杯子”的指令誤解為“打碎杯子”;在動作執行層,當前很多機器人的運動控制精度不足,難以完成高精度作業——比如讓機器人往左走15cm,實際可能偏差3-5cm;在系統容錯層,大部分具身智能設備缺乏完善的安全機制,一旦出現硬件故障或軟件錯誤,就可能陷入癱瘓,甚至引發安全事故。
此外,具身智能的安全性還面臨“傳統信息安全+AI安全+物理安全”的三重威脅。宋繼強解釋道,“以前的智能設備,只需要關注傳統的信息安全問題;但具身智能設備引入了AI模型,就需要應對針對AI的攻擊——比如模型投毒、對抗樣本攻擊;同時,它與人、環境交互,還存在物理安全問題,比如機器人操作失誤傷人、設備故障導致生產中斷等。更關鍵的是,安全都是額外成本,如何在安全級別與成本之間找到平衡,也是行業需要解決的問題。”
第三是數據孤島與數據短缺問題。具身智能的發展高度依賴數據——VLA模型、世界模型的訓練,都需要大量的場景數據、動作數據、交互數據,但當前行業面臨著“數據采集難、數據不標準、數據孤島嚴重”的困境。對此,宋繼強表示,數據是當前具身智能發展的首要問題,尤其是對VLA+世界模型這條路徑而言,“VLA與環境、動作場景、機器人本體都密切相關,需要專門的數據支撐訓練,但現在的數據采集面臨很多難題。”宋繼強補充道。
具體來看,數據采集的難點主要體現在四個方面:
- 一是數據定義不統一,比如VLA訓練需要視覺數據、語言數據,有的廠商還會加入觸覺數據,但行業內尚未明確“什么樣的數據是完整的”;
- 二是精度與頻率缺乏標準,不同廠商對動作精度、控制頻率的要求不同,導致采集的數據難以復用;
- 三是機器人本體不統一,人形、輪臂式、機器狗等不同形態的機器人,其動作數據差異巨大,難以形成統一的數據集;
- 四是視角差異,VLA模型高度依賴視覺數據,攝像頭裝在機器人頭部、胳膊上,采集到的視角不同,數據的可用性也不同。
面對準確性、可靠性、數據短缺等多重痛點,行業逐漸形成一個核心共識:異構計算是具身智能落地的核心基石。對此,宋繼強強調:“具身智能一定落在物理實體之上,這個實體包含感知、理解與決策、推動執行、反饋觀察的完整閉環,不同環節對計算能力的要求不同——有的需要高通量算力,有的需要低時延響應,有的需要高精度浮點運算,很難用同一種硬件解決所有問題,底層必然需要異構計算。”
所謂異構計算,就是將不同架構的計算單元(CPU、GPU、NPU、AI ASIC、神經形態加速器等)結合起來,根據不同任務的需求,分配相應的計算資源,實現“算力適配任務”的最優效果。與傳統的同構計算相比,異構計算具有能效比高、實時性強、靈活性好等優勢,能夠完美匹配具身智能多環節、多需求的算力要求。
從具身智能的任務鏈路來看,不同環節對算力的需求差異顯著,這也決定了異構計算的必要性。針對此,宋繼強提出了“系統2-系統1-系統0”的三層決策鏈路,并詳細闡述了各層的算力需求:
系統2是“慢系統”,主要負責場景理解與任務規劃,與語言邏輯抽象層相關,輸出語義層級更高、準確度更高的結果,比如VLM模型(視覺語言模型)就屬于這一層。這一層需要處理高通量的視覺輸入與語言輸入,對算力的吞吐量要求較高,GPU是最適合的計算單元——例如英特爾酷睿Ultra處理器中的GPU,能夠高效處理多模態數據,支撐大模型的推理與訓練。
系統1是“動作專家”(Action Expert),主要負責將系統2的規劃任務,映射到具身設備的執行器(關節電機、輪子等),生成控制指令,輸出頻率約為200Hz。這一層對實時性、低功耗的要求較高,同時需要支持矩陣向量運算,NPU(神經網絡處理單元)是最優選擇。宋繼強透露:“英特爾酷睿Ultra處理器內置的NPU,能夠實現11TOPS@~2W的能效比,在PTL平臺上更是能達到50 TOPS,完全能夠滿足系統1的算力需求。”
系統0是傳統的MPC控制器(模型預測控制),主要負責將系統1的控制指令,提升到更高的頻率(超過1000Hz),實現動作的平滑、精準執行,解決動作頓挫的問題。這一層對實時性與浮點計算精度的要求極高,CPU是核心計算單元——英特爾酷睿Ultra的CPU,能夠實現10us以內的實時響應,滿足高精度運動控制的需求。
“在具身智能的任務鏈路中,CPU、GPU、NPU各司其職、協同工作,才能實現最優的性能與能效比。”宋繼強表示,“比如‘拿起筆,把它插進筆帽里’這個簡單的任務,系統2的VLM模型理解指令(GPU支撐),系統1的Action Expert生成動作軌跡(NPU支撐),系統0的MPC控制器將動作頻率提升到1000Hz(CPU支撐),三者協同,才能完成精準、平滑的操作。”
除了任務鏈路的適配,異構計算還能解決具身智能的可靠性與可擴展性問題。智能體的構建的是通過編排器自動完成的,而不是預先編程,這就需要編排器能夠調用不同的智能體功能,而異構框架能夠提供靈活的資源調度能力,支撐多智能體系統的運行。同時,異構計算能夠隔離不同的計算任務,比如將實時性要求高的運動控制任務,與實時性要求低的AI推理任務隔離開來,避免相互干擾,提升系統的可靠性。
從概念熱潮到產業攻堅,從技術驗證到小規模落地,具身智能的發展,正迎來前所未有的機遇與挑戰。邊端側計算設備的異構集成、工業級升級與邊端云協同,為具身智能的落地提供了堅實的算力支撐;異構計算的普及、AI模型的優化與軟件生態的完善,為具身智能的技術突破提供了核心動力;而場景驅動、生態協同、標準統一,則為具身智能的規模普及指明了清晰的路徑。(文|Leo張ToB雜談,作者|張申宇,編輯丨蓋虹達)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.