網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

熊友軍：從“最能跑”到“最好用”，具身智能創(chuàng)新發(fā)展實(shí)踐

2025-12-26 06:37:12　來源: 春暖花開

上海舉報(bào)

分享至

在人工智能與物理世界交匯處，具身智能正開啟人形機(jī)器人的無限可能。在11月15日「心智合一：AI時(shí)代的人與組織進(jìn)化新范式」高峰論壇上，北京人形機(jī)器人創(chuàng)新中心CEO熊友軍分享了他與團(tuán)隊(duì)關(guān)于人形機(jī)器人及具身智能的前沿思考與實(shí)踐探索。本文依據(jù)演講整理。

全文 4168 字｜閱讀 8 分鐘

尊敬的各位來賓，我是熊友軍，很榮幸今天能在此與各位分享我們?cè)诰呱碇悄茴I(lǐng)域的一些創(chuàng)新與實(shí)踐。我來自北京人形機(jī)器人創(chuàng)新中心，中心已于去年十月升級(jí)為國(guó)家地方共建的具身智能機(jī)器人創(chuàng)新中心。因此，我的研究領(lǐng)域主要涵蓋兩個(gè)方向：人形機(jī)器人與具身智能。

方才，再次聆聽陳老師的演講，深感啟發(fā)，每次都有醍醐灌頂之感。其中，“AI戰(zhàn)略投資于人”的理念，對(duì)我們后續(xù)的企業(yè)運(yùn)營(yíng)具有極其重要的指導(dǎo)意義。今天，我將主要從技術(shù)、企業(yè)與產(chǎn)業(yè)的角度，分享我們關(guān)于人形機(jī)器人及具身智能的一些思考與探索。

首先，我們需要明確“具身智能”的定義。這一概念最早可追溯至圖靈的論文，即“具身智能”（Embodied Intelligence）。其核心在于，智能系統(tǒng)必須基于一個(gè)物理實(shí)體，通過該實(shí)體感知環(huán)境，并與物理世界進(jìn)行交互，最終實(shí)現(xiàn)具體的行動(dòng)與行為。因此，其關(guān)鍵詞在于：物理身體、環(huán)境交互、實(shí)際行動(dòng)。

這與當(dāng)前主流的ChatGPT、DeepSeek等生成式AI模型有本質(zhì)區(qū)別。后者主要在虛擬或數(shù)字空間中運(yùn)作，而具身智能則根植于物理世界，是機(jī)器人技術(shù)與物理環(huán)境交互的核心研究領(lǐng)域。它是人工智能與機(jī)器人技術(shù)兩大前沿方向的深度融合。

具體而言，一個(gè)完整的具身智能系統(tǒng)類似于人類，包含三大部分：

（1）智能大腦：負(fù)責(zé)人機(jī)自然交互、環(huán)境感知、意圖識(shí)別、任務(wù)規(guī)劃與決策。

（2）機(jī)器人小腦：負(fù)責(zé)運(yùn)動(dòng)控制，如行走、抓取、安放及更復(fù)雜的動(dòng)作執(zhí)行。

（3）身體形態(tài)：其載體不限于人形機(jī)器人，輪式機(jī)器人、四足機(jī)器狗，乃至具備高度自動(dòng)化能力的電動(dòng)汽車，均可視為具身智能體的代表。

我們的研究強(qiáng)調(diào)構(gòu)建一個(gè)“一腦多機(jī)、一腦多能”的通用具身智能平臺(tái)，即“慧思開物”，能夠賦能多種形態(tài)的機(jī)器人本體，應(yīng)用于工業(yè)生產(chǎn)、商業(yè)服務(wù)、家庭陪伴乃至特種作業(yè)等多樣化場(chǎng)景。

這要求系統(tǒng)具備三大泛化能力：

場(chǎng)景泛化：適應(yīng)從會(huì)議室、工廠到家庭等不同環(huán)境。

任務(wù)泛化：勝任從文職輔助、重體力勞動(dòng)到危險(xiǎn)環(huán)境作業(yè)等各類任務(wù)。

本體泛化：驅(qū)動(dòng)雙足、輪式、四足等多種形態(tài)的機(jī)器人載體。

在此背景下，人形機(jī)器人被視為人工智能融入物理世界、形成新質(zhì)生產(chǎn)力最理想的高級(jí)載體之一。它并非唯一載體，但因其仿人形態(tài)，能夠無縫接入人類既有的環(huán)境與工具體系，部署成本低，適應(yīng)性最強(qiáng)，被認(rèn)為是未來最具通用性的機(jī)器人產(chǎn)品形態(tài)，將深刻顛覆人類的生產(chǎn)與生活方式。

從國(guó)家戰(zhàn)略與產(chǎn)業(yè)發(fā)展視角審視，人形機(jī)器人與具身智能正面臨歷史性的戰(zhàn)略機(jī)遇期。人工智能與機(jī)器人技術(shù)的深度融合已步入生產(chǎn)實(shí)踐階段，人形機(jī)器人作為最佳載體已成為行業(yè)共識(shí)。我國(guó)相關(guān)產(chǎn)業(yè)已從過去的“并跑”階段，進(jìn)入有望“領(lǐng)跑”的關(guān)鍵時(shí)期。當(dāng)前格局呈中美兩強(qiáng)競(jìng)爭(zhēng)態(tài)勢(shì)，加緊布局，我們完全有能力在未來三至五年內(nèi)占領(lǐng)行業(yè)制高點(diǎn)，實(shí)現(xiàn)如電動(dòng)汽車產(chǎn)業(yè)般的“彎道超車”。

市場(chǎng)需求的拉動(dòng)同樣強(qiáng)勁。在工業(yè)領(lǐng)域，老齡化社會(huì)與勞動(dòng)力短缺，尤其在流水線及枯燥重復(fù)的崗位上，催生了對(duì)此類自動(dòng)化解決方案的迫切需求。在社會(huì)服務(wù)領(lǐng)域，其仿人形態(tài)帶來的天然親和力與多模態(tài)自然交互能力，使其能更好地融入商業(yè)與社會(huì)環(huán)境。未來的工廠可能呈現(xiàn)“7:2:1”模式——70%工作由傳統(tǒng)工業(yè)機(jī)器人與自動(dòng)化設(shè)備完成，20%由人形機(jī)器人補(bǔ)足，剩余10%則仍需人類的獨(dú)特智慧。

此外，人形機(jī)器人產(chǎn)業(yè)具備強(qiáng)大的全產(chǎn)業(yè)鏈拉動(dòng)效應(yīng)，如同曾經(jīng)的房地產(chǎn)與汽車產(chǎn)業(yè)，將對(duì)上游的先進(jìn)制造業(yè)（傳感器、電機(jī)、減速器等）和下游的軟件與人工智能技術(shù)產(chǎn)生巨大促進(jìn)作用。

在消費(fèi)市場(chǎng)，它甚至有望超越個(gè)人電腦與智能手機(jī)，成為第三代的人機(jī)交互中心。其多模態(tài)主動(dòng)交互方式（通過語言、眼神、習(xí)慣等），以及能產(chǎn)生實(shí)質(zhì)性行為輸出的特性，將帶來遠(yuǎn)比手機(jī)和PC更豐富、更直觀的體驗(yàn)。例如機(jī)器人會(huì)根據(jù)人的日常生活習(xí)慣自動(dòng)解決問題，無需等待人類主動(dòng)發(fā)出指令。

人形機(jī)器人的應(yīng)用普及將是一個(gè)漸進(jìn)過程。

當(dāng)前，其主要應(yīng)用于特種場(chǎng)景，即“3D”領(lǐng)域——危險(xiǎn)（Dangerous）、臟活（Dirty）、枯燥（Dull），如特高壓電網(wǎng)、有毒化工廠、生物病毒實(shí)驗(yàn)室等。

下一步，將逐步滲透至泛工業(yè)領(lǐng)域（如汽車、3C制造）與商業(yè)服務(wù)領(lǐng)域（商場(chǎng)、博物館、企業(yè)展廳）。

最終遠(yuǎn)景是進(jìn)入家庭，初期以陪伴功能為主，逐步過渡到對(duì)失能、失智老人的精細(xì)化生活服務(wù)。

這一過程絕非一蹴而就，而是由點(diǎn)及面、全方位逐步滲透，根據(jù)多方預(yù)測(cè)，未來人形機(jī)器人的數(shù)量甚至可能會(huì)達(dá)到人類數(shù)量的幾倍。

產(chǎn)業(yè)的飛速發(fā)展，主要得益于兩大驅(qū)動(dòng)力：

第一，市場(chǎng)需求拉動(dòng)。“3D”領(lǐng)域場(chǎng)景應(yīng)用、勞動(dòng)力成本上升與老齡化趨勢(shì)是重要?jiǎng)恿Α?/p>

第二，技術(shù)驅(qū)動(dòng)與成本下降。機(jī)器人核心硬件成本正從百萬級(jí)迅速下降，未來有望降至十萬元級(jí)別，趨于“家電化”。同時(shí)，人工智能技術(shù)，特別是人機(jī)交互技術(shù)的快速迭代，使得機(jī)器人能力更強(qiáng)、體驗(yàn)更佳、適用場(chǎng)景更廣。

要實(shí)現(xiàn)從實(shí)驗(yàn)室演示到規(guī)模化應(yīng)用的跨越，即從“最能跑”的運(yùn)動(dòng)能力展示，到“最好用”的實(shí)際任務(wù)執(zhí)行能力，我們必須在三大智能方向上實(shí)現(xiàn)突破：

運(yùn)動(dòng)智能：聚焦下肢能力，強(qiáng)調(diào)在復(fù)雜環(huán)境中的全身控制、自主導(dǎo)航與抗干擾能力。

操作智能：聚焦上肢能力，強(qiáng)調(diào)腦-眼-手協(xié)作，依賴于VLA大模型解決軌跡規(guī)劃與多樣化行為生成問題，以完成端茶倒水、分揀搬運(yùn)、擰閥門等精細(xì)操作。

學(xué)習(xí)智能：使機(jī)器人能夠理解世界、進(jìn)行預(yù)測(cè)、規(guī)劃并評(píng)估解決方案，具備持續(xù)學(xué)習(xí)與進(jìn)化的能力。其發(fā)展將呈現(xiàn)兩種模式：一種是增長(zhǎng)式模式，機(jī)器人出廠后通過與用戶交互持續(xù)學(xué)習(xí)，逐步成長(zhǎng)；另一種是專家式模式，出廠即集成最先進(jìn)AI技術(shù)，具備多場(chǎng)景即時(shí)服務(wù)能力。

基于上述認(rèn)知，我們構(gòu)建了兩個(gè)核心研發(fā)平臺(tái)：軟件算法平臺(tái)“慧思開物”與硬件平臺(tái)“具身天工”。

在“慧思開物”平臺(tái)中，集成了多類關(guān)鍵模型，包括負(fù)責(zé)自然交互與環(huán)境感知的具身多模態(tài)大模型、承擔(dān)策略思考與決策規(guī)劃任務(wù)的世界模型，以及具備泛化能力的通用操作VLA模型，共同構(gòu)成該平臺(tái)在人工智能領(lǐng)域的核心能力體系。

另一方面，在機(jī)器人本體技術(shù)層面，平臺(tái)持續(xù)推進(jìn)包括環(huán)境感知、關(guān)節(jié)驅(qū)動(dòng)、電力控制等核心元器件的迭代升級(jí)。

基于該技術(shù)平臺(tái)的支持，我們?cè)谶\(yùn)動(dòng)智能、操作智能與學(xué)習(xí)智能三大方向持續(xù)開展深入研究。

1.運(yùn)動(dòng)智能：奠定物理移動(dòng)的基石

我們的目標(biāo)是實(shí)現(xiàn)“全自主導(dǎo)航的全身控制”。在今年八月于北京舉辦的世界人形機(jī)器人運(yùn)動(dòng)會(huì)上，我們的機(jī)器人是全場(chǎng)500多臺(tái)參賽機(jī)器人中，唯一無需遙控、完全自主完成所有比賽的機(jī)型，并在100米、400米接力和1000米項(xiàng)目中均獲得獎(jiǎng)牌，其中100米奪冠。

這背后依賴的是OCC環(huán)視感知模塊與全身協(xié)同控制算法，使機(jī)器人能實(shí)時(shí)感知環(huán)境（如跑道線、障礙物），并做出精準(zhǔn)、穩(wěn)定的運(yùn)動(dòng)決策。

此外，我們致力于提升機(jī)器人的環(huán)境適應(yīng)性與抗干擾能力。今年四月，我們的機(jī)器人以自主方式，2小時(shí)40分42秒的成績(jī)完成了世界機(jī)器人半程馬拉松比賽。

在非結(jié)構(gòu)化的戶外測(cè)試中，機(jī)器人能夠基于視覺感知，自主攀爬百余級(jí)高度不一的臺(tái)階，并穩(wěn)定行走于石子路、草地、沙地、斜坡等多種地形。我們甚至進(jìn)行了抗沖擊測(cè)試，在承受十公斤沙袋的沖擊時(shí)，機(jī)器人能通過自主調(diào)節(jié)保持平衡。

這為實(shí)現(xiàn)“人能到之處，機(jī)器人皆可至”的科技向善目標(biāo)奠定了堅(jiān)實(shí)基礎(chǔ)，為在危險(xiǎn)與特種環(huán)境中的應(yīng)用鋪平了道路。

2.操作智能：實(shí)現(xiàn)靈巧精準(zhǔn)的任務(wù)執(zhí)行

操作智能的核心在于泛化能力。我們正通過構(gòu)建VLA（視覺-語言-動(dòng)作）大模型，來賦予機(jī)器人強(qiáng)大的上肢操作能力。該模型能指導(dǎo)機(jī)器人完成多種任務(wù)，而非局限于單一編程。

任務(wù)泛化：同一機(jī)械臂可執(zhí)行拿取杯子、倒水、取手機(jī)等不同指令，并能適應(yīng)產(chǎn)線上的分揀、搬運(yùn)。

場(chǎng)景泛化：在物流流水線上，機(jī)器人能完成識(shí)別包裹、貼標(biāo)簽、打包、放置到傳送帶等一系列眼-腦-手協(xié)同作業(yè)。

本體泛化：模型可適配單臂、雙臂等不同構(gòu)型的機(jī)器人。我們特別展示了雙臂機(jī)器人在協(xié)同操作上的進(jìn)展，例如處理無定形物體（如軟包、紙張）的抓取與放置，這比操作剛性物體更為復(fù)雜。同時(shí)，機(jī)器人已具備處理長(zhǎng)程任務(wù)的能力，例如，當(dāng)接收到“幫我去冰箱拿杯水”的模糊指令時(shí)，它能自主拆解為導(dǎo)航、開門、識(shí)別物體、抓取等一系列子任務(wù)并完成規(guī)劃與執(zhí)行。

3.學(xué)習(xí)智能：賦能理解與決策的“大腦”

為提升機(jī)器人的認(rèn)知與決策能力，我們獨(dú)創(chuàng)了“雙模驅(qū)動(dòng)的具身智能世界模型體系”。

具身多模態(tài)大模型：負(fù)責(zé)人機(jī)交互、環(huán)境感知、空間理解、狀態(tài)檢測(cè)與任務(wù)規(guī)劃。它如同機(jī)器人的“前臺(tái)客服”與“初級(jí)規(guī)劃師”。

世界模型：這是一個(gè)嵌入了物理規(guī)律（重力、摩擦力、材料屬性等）的仿真環(huán)境。當(dāng)具身大模型生成多個(gè)備選行動(dòng)方案后，會(huì)在此世界模型中進(jìn)行“預(yù)演”與推演。世界模型會(huì)模擬出執(zhí)行這些方案后的物理結(jié)果。

雙模協(xié)同：世界模型生成策略集（方案A/B/C）并輸出模擬結(jié)果，具身大模型則對(duì)方案進(jìn)行評(píng)估與擇優(yōu)，最終輸出一個(gè)在物理世界中可行、高效的解決方案。

這套體系能大幅降低從仿真到實(shí)際（Sim-to-Real）的遷移差距，提高訓(xùn)練效率，縮短部署時(shí)間，讓機(jī)器人真正地理解并適應(yīng)物理世界的運(yùn)行規(guī)律。

技術(shù)的最終價(jià)值在于應(yīng)用，在完成運(yùn)動(dòng)能力的突破后，我們正積極推動(dòng)具身智能在多場(chǎng)景下的試點(diǎn)應(yīng)用，包括工業(yè)制造、特高壓電力運(yùn)維等。

同時(shí)，我們認(rèn)識(shí)到，數(shù)據(jù)是驅(qū)動(dòng)具身智能飛輪轉(zhuǎn)動(dòng)的核心燃料。與互聯(lián)網(wǎng)AI不同，機(jī)器人的操作數(shù)據(jù)需在真實(shí)或高保真仿真環(huán)境中采集與積累，用以訓(xùn)練專用大模型。

產(chǎn)業(yè)化仍面臨諸多挑戰(zhàn)，如中試驗(yàn)證平臺(tái)缺失、標(biāo)準(zhǔn)不統(tǒng)一等。我們正致力于構(gòu)建標(biāo)準(zhǔn)化的工藝、生產(chǎn)設(shè)備與檢測(cè)方法，并向行業(yè)開源開放。未來，人形機(jī)器人可能像汽車一樣需要“上牌”，涉及安全、倫理等規(guī)范，因此，建設(shè)權(quán)威的檢測(cè)平臺(tái)與公共服務(wù)體系至關(guān)重要。

此外，我們正積極打造開源社區(qū)，將“天工”平臺(tái)的硬件設(shè)計(jì)、軟件算法等核心技術(shù)成果向行業(yè)共享，以期加速整個(gè)產(chǎn)業(yè)鏈的成熟與應(yīng)用迭代。

總結(jié)而言，我們的實(shí)踐路徑清晰地描繪了從追求極致的運(yùn)動(dòng)性能“最能跑”，到聚焦解決實(shí)際問題的綜合能力“最好用”的演進(jìn)。

通過運(yùn)動(dòng)智能、操作智能與學(xué)習(xí)智能的協(xié)同突破，并輔以堅(jiān)實(shí)的產(chǎn)業(yè)化生態(tài)支撐，我們堅(jiān)信，具身智能與人形機(jī)器人將在不遠(yuǎn)的未來深刻重塑我們的社會(huì)與生活。（本文完）

微信 ID：chunnuanhuakai-cch

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.