![]()
在人工智能與物理世界交匯處,具身智能正開啟人形機(jī)器人的無限可能。在11月15日「心智合一:AI時(shí)代的人與組織進(jìn)化新范式」高峰論壇上,北京人形機(jī)器人創(chuàng)新中心CEO熊友軍分享了他與團(tuán)隊(duì)關(guān)于人形機(jī)器人及具身智能的前沿思考與實(shí)踐探索。本文依據(jù)演講整理。
全文 4168 字|閱讀 8 分鐘
![]()
尊敬的各位來賓,我是熊友軍,很榮幸今天能在此與各位分享我們?cè)诰呱碇悄茴I(lǐng)域的一些創(chuàng)新與實(shí)踐。我來自北京人形機(jī)器人創(chuàng)新中心,中心已于去年十月升級(jí)為國(guó)家地方共建的具身智能機(jī)器人創(chuàng)新中心。因此,我的研究領(lǐng)域主要涵蓋兩個(gè)方向:人形機(jī)器人與具身智能。
方才,再次聆聽陳老師的演講,深感啟發(fā),每次都有醍醐灌頂之感。其中,“AI戰(zhàn)略投資于人”的理念,對(duì)我們后續(xù)的企業(yè)運(yùn)營(yíng)具有極其重要的指導(dǎo)意義。今天,我將主要從技術(shù)、企業(yè)與產(chǎn)業(yè)的角度,分享我們關(guān)于人形機(jī)器人及具身智能的一些思考與探索。
![]()
首先,我們需要明確“具身智能”的定義。這一概念最早可追溯至圖靈的論文,即“具身智能”(Embodied Intelligence)。其核心在于,智能系統(tǒng)必須基于一個(gè)物理實(shí)體,通過該實(shí)體感知環(huán)境,并與物理世界進(jìn)行交互,最終實(shí)現(xiàn)具體的行動(dòng)與行為。因此,其關(guān)鍵詞在于:物理身體、環(huán)境交互、實(shí)際行動(dòng)。
這與當(dāng)前主流的ChatGPT、DeepSeek等生成式AI模型有本質(zhì)區(qū)別。后者主要在虛擬或數(shù)字空間中運(yùn)作,而具身智能則根植于物理世界,是機(jī)器人技術(shù)與物理環(huán)境交互的核心研究領(lǐng)域。它是人工智能與機(jī)器人技術(shù)兩大前沿方向的深度融合。
具體而言,一個(gè)完整的具身智能系統(tǒng)類似于人類,包含三大部分:
(1)智能大腦:負(fù)責(zé)人機(jī)自然交互、環(huán)境感知、意圖識(shí)別、任務(wù)規(guī)劃與決策。
(2)機(jī)器人小腦:負(fù)責(zé)運(yùn)動(dòng)控制,如行走、抓取、安放及更復(fù)雜的動(dòng)作執(zhí)行。
(3)身體形態(tài):其載體不限于人形機(jī)器人,輪式機(jī)器人、四足機(jī)器狗,乃至具備高度自動(dòng)化能力的電動(dòng)汽車,均可視為具身智能體的代表。
我們的研究強(qiáng)調(diào)構(gòu)建一個(gè)“一腦多機(jī)、一腦多能”的通用具身智能平臺(tái),即“慧思開物”,能夠賦能多種形態(tài)的機(jī)器人本體,應(yīng)用于工業(yè)生產(chǎn)、商業(yè)服務(wù)、家庭陪伴乃至特種作業(yè)等多樣化場(chǎng)景。
這要求系統(tǒng)具備三大泛化能力:
場(chǎng)景泛化:適應(yīng)從會(huì)議室、工廠到家庭等不同環(huán)境。
任務(wù)泛化:勝任從文職輔助、重體力勞動(dòng)到危險(xiǎn)環(huán)境作業(yè)等各類任務(wù)。
本體泛化:驅(qū)動(dòng)雙足、輪式、四足等多種形態(tài)的機(jī)器人載體。
在此背景下,人形機(jī)器人被視為人工智能融入物理世界、形成新質(zhì)生產(chǎn)力最理想的高級(jí)載體之一。它并非唯一載體,但因其仿人形態(tài),能夠無縫接入人類既有的環(huán)境與工具體系,部署成本低,適應(yīng)性最強(qiáng),被認(rèn)為是未來最具通用性的機(jī)器人產(chǎn)品形態(tài),將深刻顛覆人類的生產(chǎn)與生活方式。
從國(guó)家戰(zhàn)略與產(chǎn)業(yè)發(fā)展視角審視,人形機(jī)器人與具身智能正面臨歷史性的戰(zhàn)略機(jī)遇期。人工智能與機(jī)器人技術(shù)的深度融合已步入生產(chǎn)實(shí)踐階段,人形機(jī)器人作為最佳載體已成為行業(yè)共識(shí)。我國(guó)相關(guān)產(chǎn)業(yè)已從過去的“并跑”階段,進(jìn)入有望“領(lǐng)跑”的關(guān)鍵時(shí)期。當(dāng)前格局呈中美兩強(qiáng)競(jìng)爭(zhēng)態(tài)勢(shì),加緊布局,我們完全有能力在未來三至五年內(nèi)占領(lǐng)行業(yè)制高點(diǎn),實(shí)現(xiàn)如電動(dòng)汽車產(chǎn)業(yè)般的“彎道超車”。
市場(chǎng)需求的拉動(dòng)同樣強(qiáng)勁。在工業(yè)領(lǐng)域,老齡化社會(huì)與勞動(dòng)力短缺,尤其在流水線及枯燥重復(fù)的崗位上,催生了對(duì)此類自動(dòng)化解決方案的迫切需求。在社會(huì)服務(wù)領(lǐng)域,其仿人形態(tài)帶來的天然親和力與多模態(tài)自然交互能力,使其能更好地融入商業(yè)與社會(huì)環(huán)境。未來的工廠可能呈現(xiàn)“7:2:1”模式——70%工作由傳統(tǒng)工業(yè)機(jī)器人與自動(dòng)化設(shè)備完成,20%由人形機(jī)器人補(bǔ)足,剩余10%則仍需人類的獨(dú)特智慧。
此外,人形機(jī)器人產(chǎn)業(yè)具備強(qiáng)大的全產(chǎn)業(yè)鏈拉動(dòng)效應(yīng),如同曾經(jīng)的房地產(chǎn)與汽車產(chǎn)業(yè),將對(duì)上游的先進(jìn)制造業(yè)(傳感器、電機(jī)、減速器等)和下游的軟件與人工智能技術(shù)產(chǎn)生巨大促進(jìn)作用。
在消費(fèi)市場(chǎng),它甚至有望超越個(gè)人電腦與智能手機(jī),成為第三代的人機(jī)交互中心。其多模態(tài)主動(dòng)交互方式(通過語言、眼神、習(xí)慣等),以及能產(chǎn)生實(shí)質(zhì)性行為輸出的特性,將帶來遠(yuǎn)比手機(jī)和PC更豐富、更直觀的體驗(yàn)。例如機(jī)器人會(huì)根據(jù)人的日常生活習(xí)慣自動(dòng)解決問題,無需等待人類主動(dòng)發(fā)出指令。
![]()
人形機(jī)器人的應(yīng)用普及將是一個(gè)漸進(jìn)過程。
當(dāng)前,其主要應(yīng)用于特種場(chǎng)景,即“3D”領(lǐng)域——危險(xiǎn)(Dangerous)、臟活(Dirty)、枯燥(Dull),如特高壓電網(wǎng)、有毒化工廠、生物病毒實(shí)驗(yàn)室等。
下一步,將逐步滲透至泛工業(yè)領(lǐng)域(如汽車、3C制造)與商業(yè)服務(wù)領(lǐng)域(商場(chǎng)、博物館、企業(yè)展廳)。
最終遠(yuǎn)景是進(jìn)入家庭,初期以陪伴功能為主,逐步過渡到對(duì)失能、失智老人的精細(xì)化生活服務(wù)。
這一過程絕非一蹴而就,而是由點(diǎn)及面、全方位逐步滲透,根據(jù)多方預(yù)測(cè),未來人形機(jī)器人的數(shù)量甚至可能會(huì)達(dá)到人類數(shù)量的幾倍。
產(chǎn)業(yè)的飛速發(fā)展,主要得益于兩大驅(qū)動(dòng)力:
第一,市場(chǎng)需求拉動(dòng)。“3D”領(lǐng)域場(chǎng)景應(yīng)用、勞動(dòng)力成本上升與老齡化趨勢(shì)是重要?jiǎng)恿Α?/p>
第二,技術(shù)驅(qū)動(dòng)與成本下降。機(jī)器人核心硬件成本正從百萬級(jí)迅速下降,未來有望降至十萬元級(jí)別,趨于“家電化”。同時(shí),人工智能技術(shù),特別是人機(jī)交互技術(shù)的快速迭代,使得機(jī)器人能力更強(qiáng)、體驗(yàn)更佳、適用場(chǎng)景更廣。
要實(shí)現(xiàn)從實(shí)驗(yàn)室演示到規(guī)模化應(yīng)用的跨越,即從“最能跑”的運(yùn)動(dòng)能力展示,到“最好用”的實(shí)際任務(wù)執(zhí)行能力,我們必須在三大智能方向上實(shí)現(xiàn)突破:
運(yùn)動(dòng)智能:聚焦下肢能力,強(qiáng)調(diào)在復(fù)雜環(huán)境中的全身控制、自主導(dǎo)航與抗干擾能力。
操作智能:聚焦上肢能力,強(qiáng)調(diào)腦-眼-手協(xié)作,依賴于VLA大模型解決軌跡規(guī)劃與多樣化行為生成問題,以完成端茶倒水、分揀搬運(yùn)、擰閥門等精細(xì)操作。
學(xué)習(xí)智能:使機(jī)器人能夠理解世界、進(jìn)行預(yù)測(cè)、規(guī)劃并評(píng)估解決方案,具備持續(xù)學(xué)習(xí)與進(jìn)化的能力。其發(fā)展將呈現(xiàn)兩種模式:一種是增長(zhǎng)式模式,機(jī)器人出廠后通過與用戶交互持續(xù)學(xué)習(xí),逐步成長(zhǎng);另一種是專家式模式,出廠即集成最先進(jìn)AI技術(shù),具備多場(chǎng)景即時(shí)服務(wù)能力。
![]()
基于上述認(rèn)知,我們構(gòu)建了兩個(gè)核心研發(fā)平臺(tái):軟件算法平臺(tái)“慧思開物”與硬件平臺(tái)“具身天工”。
在“慧思開物”平臺(tái)中,集成了多類關(guān)鍵模型,包括負(fù)責(zé)自然交互與環(huán)境感知的具身多模態(tài)大模型、承擔(dān)策略思考與決策規(guī)劃任務(wù)的世界模型,以及具備泛化能力的通用操作VLA模型,共同構(gòu)成該平臺(tái)在人工智能領(lǐng)域的核心能力體系。
另一方面,在機(jī)器人本體技術(shù)層面,平臺(tái)持續(xù)推進(jìn)包括環(huán)境感知、關(guān)節(jié)驅(qū)動(dòng)、電力控制等核心元器件的迭代升級(jí)。
基于該技術(shù)平臺(tái)的支持,我們?cè)谶\(yùn)動(dòng)智能、操作智能與學(xué)習(xí)智能三大方向持續(xù)開展深入研究。
1.運(yùn)動(dòng)智能:奠定物理移動(dòng)的基石
我們的目標(biāo)是實(shí)現(xiàn)“全自主導(dǎo)航的全身控制”。在今年八月于北京舉辦的世界人形機(jī)器人運(yùn)動(dòng)會(huì)上,我們的機(jī)器人是全場(chǎng)500多臺(tái)參賽機(jī)器人中,唯一無需遙控、完全自主完成所有比賽的機(jī)型,并在100米、400米接力和1000米項(xiàng)目中均獲得獎(jiǎng)牌,其中100米奪冠。
這背后依賴的是OCC環(huán)視感知模塊與全身協(xié)同控制算法,使機(jī)器人能實(shí)時(shí)感知環(huán)境(如跑道線、障礙物),并做出精準(zhǔn)、穩(wěn)定的運(yùn)動(dòng)決策。
此外,我們致力于提升機(jī)器人的環(huán)境適應(yīng)性與抗干擾能力。今年四月,我們的機(jī)器人以自主方式,2小時(shí)40分42秒的成績(jī)完成了世界機(jī)器人半程馬拉松比賽。
在非結(jié)構(gòu)化的戶外測(cè)試中,機(jī)器人能夠基于視覺感知,自主攀爬百余級(jí)高度不一的臺(tái)階,并穩(wěn)定行走于石子路、草地、沙地、斜坡等多種地形。我們甚至進(jìn)行了抗沖擊測(cè)試,在承受十公斤沙袋的沖擊時(shí),機(jī)器人能通過自主調(diào)節(jié)保持平衡。
這為實(shí)現(xiàn)“人能到之處,機(jī)器人皆可至”的科技向善目標(biāo)奠定了堅(jiān)實(shí)基礎(chǔ),為在危險(xiǎn)與特種環(huán)境中的應(yīng)用鋪平了道路。
2.操作智能:實(shí)現(xiàn)靈巧精準(zhǔn)的任務(wù)執(zhí)行
操作智能的核心在于泛化能力。我們正通過構(gòu)建VLA(視覺-語言-動(dòng)作)大模型,來賦予機(jī)器人強(qiáng)大的上肢操作能力。該模型能指導(dǎo)機(jī)器人完成多種任務(wù),而非局限于單一編程。
任務(wù)泛化:同一機(jī)械臂可執(zhí)行拿取杯子、倒水、取手機(jī)等不同指令,并能適應(yīng)產(chǎn)線上的分揀、搬運(yùn)。
場(chǎng)景泛化:在物流流水線上,機(jī)器人能完成識(shí)別包裹、貼標(biāo)簽、打包、放置到傳送帶等一系列眼-腦-手協(xié)同作業(yè)。
本體泛化:模型可適配單臂、雙臂等不同構(gòu)型的機(jī)器人。我們特別展示了雙臂機(jī)器人在協(xié)同操作上的進(jìn)展,例如處理無定形物體(如軟包、紙張)的抓取與放置,這比操作剛性物體更為復(fù)雜。同時(shí),機(jī)器人已具備處理長(zhǎng)程任務(wù)的能力,例如,當(dāng)接收到“幫我去冰箱拿杯水”的模糊指令時(shí),它能自主拆解為導(dǎo)航、開門、識(shí)別物體、抓取等一系列子任務(wù)并完成規(guī)劃與執(zhí)行。
3.學(xué)習(xí)智能:賦能理解與決策的“大腦”
為提升機(jī)器人的認(rèn)知與決策能力,我們獨(dú)創(chuàng)了“雙模驅(qū)動(dòng)的具身智能世界模型體系”。
具身多模態(tài)大模型:負(fù)責(zé)人機(jī)交互、環(huán)境感知、空間理解、狀態(tài)檢測(cè)與任務(wù)規(guī)劃。它如同機(jī)器人的“前臺(tái)客服”與“初級(jí)規(guī)劃師”。
世界模型:這是一個(gè)嵌入了物理規(guī)律(重力、摩擦力、材料屬性等)的仿真環(huán)境。當(dāng)具身大模型生成多個(gè)備選行動(dòng)方案后,會(huì)在此世界模型中進(jìn)行“預(yù)演”與推演。世界模型會(huì)模擬出執(zhí)行這些方案后的物理結(jié)果。
雙模協(xié)同:世界模型生成策略集(方案A/B/C)并輸出模擬結(jié)果,具身大模型則對(duì)方案進(jìn)行評(píng)估與擇優(yōu),最終輸出一個(gè)在物理世界中可行、高效的解決方案。
這套體系能大幅降低從仿真到實(shí)際(Sim-to-Real)的遷移差距,提高訓(xùn)練效率,縮短部署時(shí)間,讓機(jī)器人真正地理解并適應(yīng)物理世界的運(yùn)行規(guī)律。
![]()
技術(shù)的最終價(jià)值在于應(yīng)用,在完成運(yùn)動(dòng)能力的突破后,我們正積極推動(dòng)具身智能在多場(chǎng)景下的試點(diǎn)應(yīng)用,包括工業(yè)制造、特高壓電力運(yùn)維等。
同時(shí),我們認(rèn)識(shí)到,數(shù)據(jù)是驅(qū)動(dòng)具身智能飛輪轉(zhuǎn)動(dòng)的核心燃料。與互聯(lián)網(wǎng)AI不同,機(jī)器人的操作數(shù)據(jù)需在真實(shí)或高保真仿真環(huán)境中采集與積累,用以訓(xùn)練專用大模型。
產(chǎn)業(yè)化仍面臨諸多挑戰(zhàn),如中試驗(yàn)證平臺(tái)缺失、標(biāo)準(zhǔn)不統(tǒng)一等。我們正致力于構(gòu)建標(biāo)準(zhǔn)化的工藝、生產(chǎn)設(shè)備與檢測(cè)方法,并向行業(yè)開源開放。未來,人形機(jī)器人可能像汽車一樣需要“上牌”,涉及安全、倫理等規(guī)范,因此,建設(shè)權(quán)威的檢測(cè)平臺(tái)與公共服務(wù)體系至關(guān)重要。
此外,我們正積極打造開源社區(qū),將“天工”平臺(tái)的硬件設(shè)計(jì)、軟件算法等核心技術(shù)成果向行業(yè)共享,以期加速整個(gè)產(chǎn)業(yè)鏈的成熟與應(yīng)用迭代。
總結(jié)而言,我們的實(shí)踐路徑清晰地描繪了從追求極致的運(yùn)動(dòng)性能“最能跑”,到聚焦解決實(shí)際問題的綜合能力“最好用”的演進(jìn)。
通過運(yùn)動(dòng)智能、操作智能與學(xué)習(xí)智能的協(xié)同突破,并輔以堅(jiān)實(shí)的產(chǎn)業(yè)化生態(tài)支撐,我們堅(jiān)信,具身智能與人形機(jī)器人將在不遠(yuǎn)的未來深刻重塑我們的社會(huì)與生活。(本文完)
![]()
![]()
微信 ID:chunnuanhuakai-cch
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.