網易首頁 > 網易號 > 正文申請入駐

熱錢追逐，具身智能要先過異構計算這一關丨ToB產業觀察

2026-03-02 13:18:09　來源: 鈦媒體APP

北京舉報

分享至

從人形機器人的靈活操控到工業機械臂的精準作業，從服務機器人的場景適配到邊緣設備的算力升級，無不預示著“物理AI”時代的加速到來。

2026年開年以來，具身智能領域的市場熱度與資本活躍度持續攀升，投融資事件密集落地，同時春晚舞臺上多家頭部具身智能領域公司的產品集中亮相，更讓這一賽道從產業端走向大眾視野，直觀展現了這一年技術發展的快速發展。

當前，具身智能正從概念熱潮向產業攻堅過渡，邊端側計算設備則作為其落地的核心載體，迎來架構迭代與性能突破的關鍵期。與單純的虛擬AI不同，具身智能要求實體設備具備“感知-理解-決策-執行-反饋”的完整閉環，能夠通過執行器改變物理世界并形成動態調整，這一特性決定了其對算力、實時性、可靠性的多元需求，也推動著邊端側計算從“通用化”向“異構化”“定制化”轉型。

從概念到落地，具身智能產業進入新周期

當生成式AI的熱度逐漸沉淀，具身智能憑借“連接虛擬與物理世界”的獨特價值，成為AI產業下一階段的核心增長點。據國務院發展研究中心?預測，中國具身智能2030年達4000億元人民幣，2035年突破萬億元。與此同時，中國信通院?《具身智能發展報告（2025年）》中，首次將具身智能納入國家未來產業重點，2025年全球市場規模195.25億元人民幣。

但熱鬧的市場背后，是產業落地的諸多現實瓶頸。英特爾研究院副總裁、英特爾中國研究院院長宋繼強明確指出：“當前具身智能的發展，正處于‘提升能力上限’與‘保障能力下限’的雙重攻堅期。大家都在展示機器人的智能能力，但很少有人關注它表現不佳時該怎么辦——這正是產業化必須跨越的鴻溝”。

當前具身智能的產業現狀呈現“熱度高、落地難、痛點集中”的特點，而異構計算作為破解痛點的核心思路，逐漸成為行業共識。

具身智能的核心是將智能能力與實體設備結合，讓設備能夠感知外界、理解環境、做出決策，并通過執行器改變物理世界，最終形成“決策-執行-反饋”的閉環。在宋繼強看來，如果只是播放視頻、發送語音，這些不算具身智能，“具身智能的核心必須能對物理世界產生實際影響。”宋繼強強調。

這一定義清晰劃分了具身智能與傳統AI的邊界：傳統AI多局限于虛擬場景的信息處理，而具身智能則強調“物理交互”與“閉環能力”。例如，一輛能將人從A點運到B點的自動駕駛汽車、一臺能完成物流分揀的移動機器人、一架能實現物資運送的無人機，都屬于具身智能的范疇；而單純的語音助手、圖像識別系統，則不屬于這一領域。

近年來，隨著多模態大模型、視覺-語言-動作模型（VLA）、世界模型等技術的突破，具身智能的產業熱度持續攀升。根據Gartner 2024年發布的《新興技術成熟度曲線》報告，?生成式AI已越過“期望膨脹期”頂峰?，而?自主AI系統?（Autonomous AI）作為其延伸方向，正推動人形機器人、具身智能體等進入該階段的中后期。

熱錢之下

2026年開年以來，具身智能領域的市場熱度與資本活躍度持續攀升，投融資事件密集落地，同時今年春晚舞臺上宇樹科技、松延動力、魔法原子、銀河通用等多家頭部具身智能領域公司的產品集中亮相，更讓這一賽道從產業端走向大眾視野，直觀展現了技術落地的階段性成果。

從投融資動態來看，2026年以來具身智能領域融資熱度持續升溫，資本布局呈現“大額融資集中、頭部企業凸顯、多資本類型參與”的特點。

2月24日，具身智能頭部企業千尋智能宣布連續完成兩輪近20億元融資，創下2026年以來該領域融資新高，投資方涵蓋云鋒基金、混沌投資等一線機構，TCL創投等產業資本，以及重慶、杭州等地國有資本，老股東也持續加碼，本輪融資后其估值突破百億元，將重點投入具身基礎模型與真實數據體系建設。在此之前，月23日，全球機器人基礎模型龍頭企業智平方完成B輪超10億元融資，估值超百億，投資方包括百度、中國中車等多方力量，近一年內該企業已累計完成12輪融資，成為全球融資節奏最快的具身智能企業。

此外，2月11日星海圖完成近10億元B輪融資，2月10日商湯科技旗下大曉機器人完成天使輪融資，據不完全統計，2026年1月份全球具身智能及人形機器人領域融資事件超20起，披露融資總額超160億元，同時埃斯頓、宇樹科技、樂聚機器人等企業正籌備IPO，計劃2026年沖刺資本市場，資本的持續注入為產業技術攻堅提供了有力支撐。

盡管產業熱度高漲，但當前具身智能的落地仍面臨諸多痛點，其中準確性、可靠性、數據孤島三大問題最為突出，成為制約其從“演示”走向“實用”的關鍵瓶頸。

首先是準確性不足的問題，這也是當前VLA模型的核心短板。VLA作為具身智能的核心技術之一，能夠實現“視覺輸入-語言理解-動作輸出”的端到端映射，但目前其性能仍有較大提升空間。對此，宋繼強表示，當前主流VLA模型的任務準確率僅為60%-70%，離工業級可用的99%以上準確率還差幾十個點。而且它的泛化能力很差，視覺場景發生輕微變化——比如物體顏色、形狀、相對位置的改變，如果沒有在訓練數據集中出現過，就很難外推到位。

其次是可靠性與安全性的雙重挑戰。具身智能設備多在與人、工業環境交互的場景中運行，其可靠性與安全性直接關系到人員安全與生產效率。宋繼強告訴筆者，具身智能的可靠性，至少體現在三個層級：第一，規劃決策是否可信賴；第二，動作執行是否可信賴；第三，系統出錯時整體是否仍可靠，“當前很多具身智能設備，在這三個層級都存在短板。”宋繼強指出。

具體來看，在規劃決策層，基于神經網絡的大模型、VLA模型存在“黑盒問題”與“幻覺問題”，難以保證決策的可解釋性與準確性。例如，機器人可能會因為模型幻覺，將“拿起杯子”的指令誤解為“打碎杯子”；在動作執行層，當前很多機器人的運動控制精度不足，難以完成高精度作業——比如讓機器人往左走15cm，實際可能偏差3-5cm；在系統容錯層，大部分具身智能設備缺乏完善的安全機制，一旦出現硬件故障或軟件錯誤，就可能陷入癱瘓，甚至引發安全事故。

此外，具身智能的安全性還面臨“傳統信息安全+AI安全+物理安全”的三重威脅。宋繼強解釋道，“以前的智能設備，只需要關注傳統的信息安全問題；但具身智能設備引入了AI模型，就需要應對針對AI的攻擊——比如模型投毒、對抗樣本攻擊；同時，它與人、環境交互，還存在物理安全問題，比如機器人操作失誤傷人、設備故障導致生產中斷等。更關鍵的是，安全都是額外成本，如何在安全級別與成本之間找到平衡，也是行業需要解決的問題。”

第三是數據孤島與數據短缺問題。具身智能的發展高度依賴數據——VLA模型、世界模型的訓練，都需要大量的場景數據、動作數據、交互數據，但當前行業面臨著“數據采集難、數據不標準、數據孤島嚴重”的困境。對此，宋繼強表示，數據是當前具身智能發展的首要問題，尤其是對VLA+世界模型這條路徑而言，“VLA與環境、動作場景、機器人本體都密切相關，需要專門的數據支撐訓練，但現在的數據采集面臨很多難題。”宋繼強補充道。

具體來看，數據采集的難點主要體現在四個方面：

一是數據定義不統一，比如VLA訓練需要視覺數據、語言數據，有的廠商還會加入觸覺數據，但行業內尚未明確“什么樣的數據是完整的”；
二是精度與頻率缺乏標準，不同廠商對動作精度、控制頻率的要求不同，導致采集的數據難以復用；
三是機器人本體不統一，人形、輪臂式、機器狗等不同形態的機器人，其動作數據差異巨大，難以形成統一的數據集；
四是視角差異，VLA模型高度依賴視覺數據，攝像頭裝在機器人頭部、胳膊上，采集到的視角不同，數據的可用性也不同。

異構計算如何解題？

面對準確性、可靠性、數據短缺等多重痛點，行業逐漸形成一個核心共識：異構計算是具身智能落地的核心基石。對此，宋繼強強調：“具身智能一定落在物理實體之上，這個實體包含感知、理解與決策、推動執行、反饋觀察的完整閉環，不同環節對計算能力的要求不同——有的需要高通量算力，有的需要低時延響應，有的需要高精度浮點運算，很難用同一種硬件解決所有問題，底層必然需要異構計算。”

所謂異構計算，就是將不同架構的計算單元（CPU、GPU、NPU、AI ASIC、神經形態加速器等）結合起來，根據不同任務的需求，分配相應的計算資源，實現“算力適配任務”的最優效果。與傳統的同構計算相比，異構計算具有能效比高、實時性強、靈活性好等優勢，能夠完美匹配具身智能多環節、多需求的算力要求。

從具身智能的任務鏈路來看，不同環節對算力的需求差異顯著，這也決定了異構計算的必要性。針對此，宋繼強提出了“系統2-系統1-系統0”的三層決策鏈路，并詳細闡述了各層的算力需求：

系統2是“慢系統”，主要負責場景理解與任務規劃，與語言邏輯抽象層相關，輸出語義層級更高、準確度更高的結果，比如VLM模型（視覺語言模型）就屬于這一層。這一層需要處理高通量的視覺輸入與語言輸入，對算力的吞吐量要求較高，GPU是最適合的計算單元——例如英特爾酷睿Ultra處理器中的GPU，能夠高效處理多模態數據，支撐大模型的推理與訓練。

系統1是“動作專家”（Action Expert），主要負責將系統2的規劃任務，映射到具身設備的執行器（關節電機、輪子等），生成控制指令，輸出頻率約為200Hz。這一層對實時性、低功耗的要求較高，同時需要支持矩陣向量運算，NPU（神經網絡處理單元）是最優選擇。宋繼強透露：“英特爾酷睿Ultra處理器內置的NPU，能夠實現11TOPS@~2W的能效比，在PTL平臺上更是能達到50 TOPS，完全能夠滿足系統1的算力需求。”

系統0是傳統的MPC控制器（模型預測控制），主要負責將系統1的控制指令，提升到更高的頻率（超過1000Hz），實現動作的平滑、精準執行，解決動作頓挫的問題。這一層對實時性與浮點計算精度的要求極高，CPU是核心計算單元——英特爾酷睿Ultra的CPU，能夠實現10us以內的實時響應，滿足高精度運動控制的需求。

“在具身智能的任務鏈路中，CPU、GPU、NPU各司其職、協同工作，才能實現最優的性能與能效比。”宋繼強表示，“比如‘拿起筆，把它插進筆帽里’這個簡單的任務，系統2的VLM模型理解指令（GPU支撐），系統1的Action Expert生成動作軌跡（NPU支撐），系統0的MPC控制器將動作頻率提升到1000Hz（CPU支撐），三者協同，才能完成精準、平滑的操作。”

除了任務鏈路的適配，異構計算還能解決具身智能的可靠性與可擴展性問題。智能體的構建的是通過編排器自動完成的，而不是預先編程，這就需要編排器能夠調用不同的智能體功能，而異構框架能夠提供靈活的資源調度能力，支撐多智能體系統的運行。同時，異構計算能夠隔離不同的計算任務，比如將實時性要求高的運動控制任務，與實時性要求低的AI推理任務隔離開來，避免相互干擾，提升系統的可靠性。

從概念熱潮到產業攻堅，從技術驗證到小規模落地，具身智能的發展，正迎來前所未有的機遇與挑戰。邊端側計算設備的異構集成、工業級升級與邊端云協同，為具身智能的落地提供了堅實的算力支撐；異構計算的普及、AI模型的優化與軟件生態的完善，為具身智能的技術突破提供了核心動力；而場景驅動、生態協同、標準統一，則為具身智能的規模普及指明了清晰的路徑。（文｜Leo張ToB雜談，作者｜張申宇，編輯丨蓋虹達）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.