來源:鼓搗AI。
在通用人工智能(AGI)的探索中,“讓AI走出數(shù)字世界、走進(jìn)物理世界”始終是核心難題。傳統(tǒng)AI能在算力中處理復(fù)雜數(shù)據(jù),卻難以像人類一樣通過“感知-思考-行動(dòng)”與真實(shí)環(huán)境互動(dòng)。清華大學(xué)最新具身智能方向綜述《Embodied AI: From LLMs to World Models》,不僅系統(tǒng)梳理了具身AI(Embodied AI)的發(fā)展脈絡(luò),更提出了“MLLM與世界模型(WM)聯(lián)合驅(qū)動(dòng)”的核心架構(gòu),為AGI落地物理世界提供了清晰路線圖。
論文鏈接:
https://arxiv.org/pdf/2509.20021
論文摘要
具身智能(Embodied AI)是實(shí)現(xiàn)通用人工智能(AGI)的一種智能系統(tǒng)范式,它既是各類應(yīng)用的核心基石,也推動(dòng)著人工智能從網(wǎng)絡(luò)空間向物理系統(tǒng)演進(jìn)。近年來,大語言模型(LLMs)與世界模型(WMs)的突破性進(jìn)展為具身智能領(lǐng)域帶來了廣泛關(guān)注。一方面,LLMs通過語義推理與任務(wù)分解為具身智能賦能,將高層自然語言指令與低層自然語言動(dòng)作融入具身認(rèn)知過程;另一方面,WMs通過構(gòu)建外部世界的內(nèi)部表征與未來預(yù)測為具身智能提供支持,助力實(shí)現(xiàn)符合物理定律的具身交互。
為此,本文系統(tǒng)梳理了具身智能領(lǐng)域從基礎(chǔ)到前沿的相關(guān)文獻(xiàn),涵蓋了LLM驅(qū)動(dòng)與WM驅(qū)動(dòng)的兩類核心研究方向。具體而言,本文首先闡述了具身智能的發(fā)展歷史、關(guān)鍵技術(shù)、核心組件及硬件系統(tǒng),并從單模態(tài)到多模態(tài)的視角探討了其發(fā)展歷程;隨后,深入探討了具身智能領(lǐng)域的兩個(gè)新興方向——基于LLM/多模態(tài)LLM(MLLMs)的具身智能與基于WM的具身智能,細(xì)致闡述了它們在端到端具身認(rèn)知與物理定律驅(qū)動(dòng)的具身交互中所發(fā)揮的不可或缺的作用。
基于上述研究進(jìn)展,本文進(jìn)一步提出了多模態(tài)大語言模型-世界模型(MLLM-WM)聯(lián)合驅(qū)動(dòng)的具身智能架構(gòu)的必要性,闡明了該架構(gòu)在物理世界中實(shí)現(xiàn)復(fù)雜任務(wù)的深遠(yuǎn)意義。此外,本文還分析了具身智能的典型應(yīng)用場景,展現(xiàn)了其在現(xiàn)實(shí)場景中的廣泛適用性。最后,本文指出了具身智能領(lǐng)域值得進(jìn)一步探索的未來研究方向。
![]()
什么是具身智能?為什么它是AGI的關(guān)鍵?
很多人對AI的印象停留在“聊天機(jī)器人”“圖像識(shí)別”,但這些都屬于“非具身AI”——它們僅在數(shù)字空間處理抽象任務(wù),無法觸碰、感知物理世界。而具身智能的核心,是讓AI通過“身體”(硬件載體)與物理世界形成“感知-認(rèn)知-交互”的閉環(huán),最終實(shí)現(xiàn)類人智能。
具身智能的起源:從圖靈測試到認(rèn)知科學(xué)
論文指出,具身智能的理論根源可追溯至1950年圖靈提出的“具身圖靈測試”——圖靈認(rèn)為,真正的智能必須與物理經(jīng)驗(yàn)綁定。到1980年代,認(rèn)知科學(xué)進(jìn)一步夯實(shí)這一基礎(chǔ):
語言學(xué)家Lakoff提出“認(rèn)知源于身體經(jīng)驗(yàn)”(比如人類對“上下”的理解,源于自身與地面的互動(dòng));
認(rèn)知科學(xué)家Harnad則強(qiáng)調(diào)“符號(hào)接地問題”——AI的語言、邏輯符號(hào),必須與感官-動(dòng)作體驗(yàn)結(jié)合,否則只是無意義的字符組合。
![]()
主動(dòng)感知 :通過傳感器(RGB-D相機(jī)、激光雷達(dá)、麥克風(fēng)等)主動(dòng)獲取環(huán)境信息(如識(shí)別物體位置、判斷聲音來源);
具身認(rèn)知 :基于歷史經(jīng)驗(yàn)更新內(nèi)部認(rèn)知(如規(guī)劃“從客廳到廚房拿水杯”的步驟,反思上次打翻水杯的原因);
動(dòng)態(tài)交互 :通過執(zhí)行器(機(jī)械臂、輪子、電機(jī)等)輸出動(dòng)作,改變環(huán)境(如開門、抓取物體);
硬件載體 :支撐計(jì)算與能量需求——比如無人機(jī)的輕量化芯片、機(jī)器人的低功耗傳感器,需平衡實(shí)時(shí)性與功耗。
舉個(gè)例子:家庭服務(wù)機(jī)器人通過攝像頭“感知”到地上的垃圾(主動(dòng)感知),結(jié)合“垃圾需扔進(jìn)垃圾桶”的經(jīng)驗(yàn)(具身認(rèn)知),控制機(jī)械臂撿起垃圾并移動(dòng)到垃圾桶(動(dòng)態(tài)交互),而這一切依賴其內(nèi)置的處理器與電池(硬件載體)。
早期具身智能的研究局限于“單模態(tài)”——感知靠視覺、認(rèn)知靠語言、交互靠動(dòng)作,導(dǎo)致智能體在復(fù)雜環(huán)境中“偏科嚴(yán)重”。
![]()
單模態(tài)與多模態(tài)具身AI對比
單模態(tài)局限性
信息殘缺 :比如僅靠視覺的機(jī)器人,在黑暗環(huán)境中會(huì)“失明”;僅靠語言的AI,無法理解“紅色杯子在桌子左邊”的空間關(guān)系;
模態(tài)鴻溝 :感知模塊的視覺信息無法傳遞給認(rèn)知模塊,導(dǎo)致“看到杯子卻不知道該怎么拿”。
論文中提到早期典型案例:視覺SLAM(同步定位與地圖構(gòu)建)技術(shù)僅能生成幾何地圖,卻無法識(shí)別“這是桌子”“那是椅子”,導(dǎo)致機(jī)器人導(dǎo)航時(shí)“知其然不知其所以然”。
多模態(tài)融合
隨著技術(shù)發(fā)展,多模態(tài)具身智能逐漸成為主流——通過融合視覺、聽覺、觸覺、語言等多感官輸入,解決單模態(tài)的局限:
比如“視覺+語言”融合:機(jī)器人通過視覺識(shí)別物體,結(jié)合語言指令“把紅色杯子遞給我”,精準(zhǔn)執(zhí)行動(dòng)作;
再如“視覺+觸覺”融合:抓取雞蛋時(shí),視覺判斷位置,觸覺感知力度,避免捏碎。
論文指出,多模態(tài)的核心價(jià)值是“讓感知輔助認(rèn)知、認(rèn)知指導(dǎo)交互”,比如救援無人機(jī)通過“視覺(識(shí)別廢墟)+聽覺(捕捉呼救聲)+語言(接收指揮指令)”,高效完成 survivor 搜救。
兩大核心技術(shù):LLM/MLLM與世界模型
具身智能能突破多模態(tài)瓶頸,關(guān)鍵依賴兩大技術(shù)突破:多模態(tài)大語言模型(MLLM) 與世界模型(WM)。論文用大量篇幅分析了兩者的作用與局限,此處可分別插入對應(yīng)技術(shù)路線圖,增強(qiáng)可讀性。
MLLM:高層語義與任務(wù)規(guī)劃
傳統(tǒng)智能體面對“清潔客廳”這樣的復(fù)雜任務(wù)時(shí),會(huì)因無法分解步驟而束手無策。而MLLM(如GPT-4o、Gemini 1.5、RT-2)通過兩大能力賦能具身智能體:
語義推理 :解析多模態(tài)輸入的含義——比如從“杯子倒了”的圖像+“擦干凈”的語言指令中,理解需要“拿抹布→擦拭桌面”;
任務(wù)分解 :將復(fù)雜目標(biāo)拆分為可執(zhí)行子任務(wù)——比如“做早餐”拆分為“煮雞蛋→烤面包→沖咖啡”。
論文中提到的典型案例:
SayCan(2022) :給LLM配備“自然語言動(dòng)作庫”,避免其提出“飛起來拿高處杯子”這類不切實(shí)際的動(dòng)作;
RT-2(2023) :將圖像、語言、機(jī)器人動(dòng)作編碼為統(tǒng)一“文本token”,直接輸出控制信號(hào),實(shí)現(xiàn)“看到杯子就知道怎么抓”。
![]()
MLLM在具身AI中的發(fā)展路線圖
但MLLM有明顯局限:忽視物理約束——比如規(guī)劃“拿杯子”時(shí),可能忽略杯子是玻璃材質(zhì)需要輕拿,或桌子有障礙物無法直接伸手。
世界模型(WM):物理合規(guī)與未來預(yù)測
如果說MLLM是“大腦”,世界模型就是具身智能體的“物理模擬器”——它通過構(gòu)建物理世界的內(nèi)部模型,確保動(dòng)作符合現(xiàn)實(shí)規(guī)律。論文指出WM的兩大核心能力:
內(nèi)部表征 :將復(fù)雜感官輸入(如圖像、觸覺)壓縮為結(jié)構(gòu)化“ latent 空間”,捕捉物理定律(重力、摩擦力)與環(huán)境結(jié)構(gòu)(物體位置、空間關(guān)系);
未來預(yù)測 :模擬不同動(dòng)作的物理后果——比如預(yù)測“用力推杯子會(huì)導(dǎo)致杯子滑落摔碎”,從而選擇“輕推”動(dòng)作。
論文中提到的典型WM架構(gòu):
RSSM(2019) :分解環(huán)境狀態(tài)為“確定部分+概率部分”,適配動(dòng)態(tài)環(huán)境(如風(fēng)吹動(dòng)窗簾導(dǎo)致光影變化);
Genie(2024) :基于時(shí)空Transformer,通過大規(guī)模視頻預(yù)訓(xùn)練生成交互式環(huán)境,讓AI“在模擬中練習(xí)動(dòng)作”;
Sora(2024) :通過視頻生成能力,預(yù)測多時(shí)間尺度的環(huán)境變化(如預(yù)測“倒水10秒后杯子會(huì)滿”)。
![]()
世界模型在具身AI中的發(fā)展路線圖
但WM也有短板:缺乏高層語義——它能模擬“推杯子會(huì)倒”,卻無法理解“為什么要推杯子”(比如是為了清理桌面),更無法分解“清理桌面”這樣的語義任務(wù)。
聯(lián)合MLLM-WM架構(gòu),打通語義與物理
既然MLLM缺物理約束、WM缺語義理解,論文歸納了聯(lián)合MLLM-WM驅(qū)動(dòng)的具身AI架構(gòu)——讓MLLM負(fù)責(zé)“做什么”,WM負(fù)責(zé)“如何安全做”,二者協(xié)同實(shí)現(xiàn)復(fù)雜物理任務(wù)。
三大閉環(huán),實(shí)現(xiàn)端到端交互
![]()
聯(lián)合MLLM-WM的具身智能架構(gòu)
閉環(huán)1:自狀態(tài)-硬件閉環(huán)
機(jī)器人先將自身狀態(tài)(如“有2個(gè)機(jī)械臂、1個(gè)RGB-D相機(jī)”)輸入MLLM與WM:WM構(gòu)建機(jī)器人物理模型(如“機(jī)械臂最大伸展距離1米”),MLLM將狀態(tài)與任務(wù)目標(biāo)(如“拿桌子上的書”)對齊,再通過硬件載體落地為動(dòng)作,確保不超出機(jī)械極限。閉環(huán)2:任務(wù)規(guī)劃-記憶閉環(huán)
MLLM將“拿書”分解為“移動(dòng)到桌子旁→伸出機(jī)械臂→抓取書”;WM模擬每個(gè)步驟的物理后果(如“移動(dòng)速度過快會(huì)碰撞椅子”);執(zhí)行后,WM記錄結(jié)果(如“第一次抓取失敗,因?yàn)闀保┎⒏掠洃浤K;記憶反饋給MLLM,下次調(diào)整抓取力度。閉環(huán)3:環(huán)境感知-交互閉環(huán)
WM預(yù)測環(huán)境變化(如“有人走近桌子,需暫停動(dòng)作”),驅(qū)動(dòng)傳感器優(yōu)先感知?jiǎng)討B(tài)目標(biāo);多模態(tài)輸入(圖像+聲音)經(jīng)WM生成物理表征(“人在桌子左側(cè),距離0.5米”),經(jīng)MLLM解析語義(“這是主人,需避讓”);二者協(xié)同生成“暫停抓取→后退0.3米”的動(dòng)作,交互后新環(huán)境信息重新輸入系統(tǒng),形成迭代。
論文通過表格對比了MLLM-only、WM-only與聯(lián)合架構(gòu)的差異,核心優(yōu)勢如下:
性能維度
MLLM-only(缺物理)
WM-only(缺語義)
聯(lián)合MLLM-WM(語義-物理對齊)
任務(wù)規(guī)劃
能分解“做早餐”
無法理解“做早餐”
分解“做早餐”+模擬“煮雞蛋火候”
物理合規(guī)
可能“用手直接拿熱鍋”
能模擬“熱鍋燙手”
規(guī)劃“用鍋鏟拿熱鍋”
實(shí)時(shí)響應(yīng)
延遲高(語義推理慢)
實(shí)時(shí)性強(qiáng)
動(dòng)態(tài)調(diào)整推理速度,兼顧精度
論文中提到的典型案例EvoAgent(2025) 就是這一架構(gòu)的實(shí)踐:它通過MLLM實(shí)現(xiàn)“自主規(guī)劃+反思”,通過WM模擬環(huán)境動(dòng)態(tài),無需人類干預(yù)即可完成“跨房間取物→整理桌面→充電”的長周期任務(wù)。
具身智能的應(yīng)用落地
論文綜述了具身AI的三大核心應(yīng)用場景,每個(gè)場景都有成熟案例支撐,展現(xiàn)其真實(shí)價(jià)值:
服務(wù)機(jī)器人
家庭場景:RT-2機(jī)器人通過“視覺+語言”理解“疊盤子”“煮面條”等指令,WM確保動(dòng)作力度適中(不打碎盤子、不溢鍋);
醫(yī)療場景:多模態(tài)機(jī)器人通過“視覺(觀察表情)+聽覺(聽心跳)+觸覺(測體溫)”輔助老人陪護(hù),MLLM理解“我不舒服”的語義,WM規(guī)劃“輕觸額頭測溫度”的安全動(dòng)作。
地震救援:無人機(jī)通過“視覺(識(shí)別廢墟)+聽覺(捕捉呼救聲)”定位 survivor,WM模擬“飛越倒塌墻體”的安全路徑,MLLM接收指揮中心“優(yōu)先搜索角落”的語言指令;
森林火災(zāi):WM預(yù)測火勢蔓延方向,避免無人機(jī)飛入高溫區(qū);MLLM解析“尋找被困人員”的指令,規(guī)劃分區(qū)域搜索路線。
特斯拉工廠:機(jī)器人通過WM感知零件裝配精度,MLLM理解“調(diào)整螺絲松緊度”的指令,動(dòng)態(tài)修正動(dòng)作,避免零件損壞;
京東倉庫:機(jī)器人融合“視覺(識(shí)別包裹)+觸覺(判斷重量)”,MLLM分解“按地址分揀”任務(wù),WM規(guī)劃最優(yōu)搬運(yùn)路徑,提升分揀效率。
此外,論文還提到具身AI在教育(個(gè)性化教學(xué)機(jī)器人)、太空探索(自主決策的火星車)等場景的潛力,展現(xiàn)其廣泛應(yīng)用前景。
未來方向
論文最后指出,要實(shí)現(xiàn)“通用具身智能”,仍需聚焦四大研究方向:
自主具身智能體
當(dāng)前具身智能體依賴人類初始化任務(wù),未來需實(shí)現(xiàn)“自主感知需求→規(guī)劃長期目標(biāo)→動(dòng)態(tài)適應(yīng)環(huán)境”——比如家庭機(jī)器人自主發(fā)現(xiàn)“洗衣液快用完了”,主動(dòng)規(guī)劃“記錄品牌→添加購物清單→提醒主人購買”。
硬件優(yōu)化
現(xiàn)有具身AI硬件(如高精度機(jī)械臂)成本高、功耗大,未來需通過“模型壓縮(如量化、剪枝)+專用加速器(如TPU、FPGA)+軟硬協(xié)同設(shè)計(jì)”,實(shí)現(xiàn)“低成本、低功耗、高實(shí)時(shí)性”——比如讓無人機(jī)的芯片在續(xù)航8小時(shí)的同時(shí),支持實(shí)時(shí)環(huán)境模擬。
多智能體協(xié)同
單一具身AI能力有限,未來需實(shí)現(xiàn)“多機(jī)器人協(xié)同”——比如救援場景中,無人機(jī)負(fù)責(zé)搜索、地面機(jī)器人負(fù)責(zé)挖掘、醫(yī)療機(jī)器人負(fù)責(zé)急救,通過“協(xié)同WM”共享環(huán)境信息,通過MLLM實(shí)現(xiàn)任務(wù)分配與溝通。
可解釋性與可信度
當(dāng)前具身AI的動(dòng)作決策常是“黑箱”,未來需:
實(shí)現(xiàn)“行為可解釋”:比如機(jī)器人能說明“為什么選擇從左側(cè)拿杯子”(因?yàn)橛覀?cè)有障礙物);
確保“倫理合規(guī)”:在醫(yī)療、救援等場景中,AI需優(yōu)先保障人類安全,避免“為完成任務(wù)犧牲人類利益”。
這篇論文的價(jià)值,不僅在于系統(tǒng)梳理了具身AI的發(fā)展脈絡(luò),更在于提出“MLLM-WM聯(lián)合架構(gòu)”這一可落地的技術(shù)路線——它讓AI不再是“紙上談兵”的數(shù)字工具,而是能“動(dòng)手、思考、適應(yīng)”的物理世界參與者。從圖靈的具身測試,到今天的MLLM與世界模型融合,具身智能正一步步縮短“機(jī)器智能”與“人類智能”的距離。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.