近日,復(fù)旦大學(xué)、上海創(chuàng)智學(xué)院付彥偉教授團(tuán)隊(duì)為機(jī)器人打造了一種薛定諤的導(dǎo)航器,名字取自量子力學(xué)里那只既死又活的貓。
![]()
圖 | 付彥偉(來源:資料圖)
研究中,他們把機(jī)器人在辦公室、教室、休息室里的導(dǎo)航過程拍成了視頻。
視頻里,機(jī)器人猶豫幾秒之后果斷繞過一張桌子,后面露出一只玩具貓,它沒看見貓,但猜到了貓?jiān)谀恰_@個(gè)動(dòng)作人類做起來很自然,但是機(jī)器做起來卻需要一整套想象的能力。
他們讓機(jī)器人在行動(dòng)前,先想象出幾種可能的未來場(chǎng)景,每種場(chǎng)景對(duì)應(yīng)一條不同的路線。想象里藏著目標(biāo),就走那條路;想象里藏著危險(xiǎn),就避開它。
這套系統(tǒng)在真實(shí)的四足機(jī)器人 Go2 上進(jìn)行了測(cè)試,在找靜態(tài)物體、追動(dòng)態(tài)物體、躲避突發(fā)障礙三個(gè)場(chǎng)景里,成功率都遠(yuǎn)超現(xiàn)有最強(qiáng)方案。
付彥偉告訴 DeepTech:“有了這套框架,人形機(jī)器人或者四足狗就可以在一個(gè)全新的環(huán)境里直接導(dǎo)航,比如讓它去抓住一只移動(dòng)的貓,或者去拿一個(gè)會(huì)動(dòng)的玩偶。這些以前很難做到的事,以后可能就變得很容易了。”
![]()
(來源:https://arxiv.org/pdf/2512.21201)
研究中,付彥偉等人首次使用想象的方式來導(dǎo)航,這在以前幾乎沒人做過。以前的方法處理不了動(dòng)態(tài)物體或者嚴(yán)重遮擋的場(chǎng)景,而他們給出了一個(gè)全新的框架。
他們還首次在真實(shí)四足機(jī)器人上驗(yàn)證了這套系統(tǒng),在找動(dòng)態(tài)物體和應(yīng)對(duì)突發(fā)障礙這兩個(gè)場(chǎng)景里,效果明顯比現(xiàn)有方法好。
![]()
(來源:https://arxiv.org/pdf/2512.21201)
看不見的地方,靠想象填滿
這一方案想解決的問題是:假如你走進(jìn)一個(gè)房間,目標(biāo)是一只貓。你面前有張桌子,貓可能在后面,也可能不在。你該往左繞還是往右繞?如果桌后藏著危險(xiǎn)的障礙物怎么辦?如果貓正在移動(dòng)呢?
普通機(jī)器人會(huì)怎么做?它只能看到眼前的東西,被桌子擋住的部分,它完全看不見。它要么隨機(jī)選一邊,要么花很長(zhǎng)時(shí)間先把桌子周圍探一遍,不僅效率低,還容易出錯(cuò)。
普通導(dǎo)航系統(tǒng)的弱點(diǎn)在于,它們只處理眼前能看見的信息。但真實(shí)世界里,大量信息藏在障礙物后面。機(jī)器人只能看見桌子的正面,看不見桌后是否有貓。
薛定諤的導(dǎo)航器用一個(gè)軌跡條件 3D 世界模型來解決這個(gè)問題。每次決策前,機(jī)器人先用一個(gè)程序生成三條候選路線:從左繞、從右繞、從上繞。
然后它把當(dāng)前看到的畫面和這三條路線一起喂給一個(gè)叫 FlashWorld 的模型。這個(gè)模型能在幾秒內(nèi)生成每條路線對(duì)應(yīng)的未來 3D 場(chǎng)景,所使用的是 3D 高斯?jié)姙R技術(shù),也就是用大量小圓點(diǎn)堆出立體畫面。
所生成的未來場(chǎng)景要跟真實(shí)世界對(duì)齊。具體來說,機(jī)器人用深度相機(jī)測(cè)出當(dāng)前畫面里每個(gè)點(diǎn)的真實(shí)距離,再和生成場(chǎng)景里的距離對(duì)比,算出縮放比例,把想象出的場(chǎng)景縮放到真實(shí)尺寸。
然后,它把想象出的場(chǎng)景里的物體貼上語義標(biāo)簽,比如哪些點(diǎn)是貓、哪些點(diǎn)是桌子。而這些想象出來的信息會(huì)被融合進(jìn)一個(gè)未來感知價(jià)值地圖里。
![]()
(來源:https://arxiv.org/pdf/2512.21201)
在 Go2 四足機(jī)器上驗(yàn)證:找得最準(zhǔn)最重要
研究中,付彥偉等人在真實(shí)的 Go2 四足機(jī)器人上做了三組實(shí)驗(yàn)。
第一組是找靜態(tài)物體,比如辦公室里的椅子、教室里的綠植、休息室里的垃圾桶。每條路線重復(fù)五次,結(jié)果顯示,薛定諤的導(dǎo)航器成功 23 次,對(duì)比方法成功 22 次,兩者差不多。
第二組是找動(dòng)態(tài)物體。目標(biāo)物在場(chǎng)景里移動(dòng),機(jī)器人必須實(shí)時(shí)追蹤。結(jié)果顯示,薛定諤的導(dǎo)航器成功 16 次,對(duì)比方法只有 10 次。差距開始顯現(xiàn)。
第三組是突發(fā)障礙。機(jī)器人正沿著一條路走,突然一個(gè)物體出現(xiàn)在路中間擋住去路。結(jié)果顯示,薛定諤的導(dǎo)航器成功 19 次,對(duì)比方法只有 12 次。這個(gè)結(jié)果很關(guān)鍵,因?yàn)樗C明系統(tǒng)不僅能想象靜態(tài)場(chǎng)景,還能實(shí)時(shí)應(yīng)對(duì)環(huán)境變化。
在模擬環(huán)境里的測(cè)試更全面。HM3D 數(shù)據(jù)集包含 36 個(gè)室內(nèi)場(chǎng)景,1,000 個(gè)導(dǎo)航任務(wù),六類目標(biāo)物體。薛定諤的導(dǎo)航器在到目標(biāo)距離指標(biāo)上排第一,意味著它最終停下的位置離目標(biāo)最近。而這恰恰是這套方法的設(shè)計(jì)目標(biāo):跑得最快是其次,找得最準(zhǔn)最重要。
薛定諤的導(dǎo)航器最巧妙的地方在于,它把想象和決策連在了一起。而對(duì)比方法用的是同樣的底層硬件和語言模型,區(qū)別只在于決策邏輯。
對(duì)比方法只看到了當(dāng)前畫面,想象不到桌后面的事。薛定諤的導(dǎo)航器多了一步:在行動(dòng)前先想象。這一步聽起來簡(jiǎn)單,但在機(jī)器人身上實(shí)現(xiàn)很復(fù)雜。
因?yàn)橐屔傻?3D 場(chǎng)景和真實(shí)世界對(duì)齊,就要給每個(gè)小圓點(diǎn)貼上正確的語義標(biāo)簽,要保證計(jì)算速度夠快不耽誤實(shí)時(shí)決策。
![]()
(來源:https://arxiv.org/pdf/2512.21201)
“讓他們?nèi)ネ谝粋€(gè)新坑,他們一開始是猶豫的”
這套方法的應(yīng)用范圍很廣。比如,家用機(jī)器人找遙控器、掃地機(jī)器人繞開突然出現(xiàn)的拖鞋、搜救機(jī)器人在廢墟里尋找幸存者,都需要在看不見的地方做推理。
付彥偉告訴 DeepTech:“研究期間我花了兩三周時(shí)間,努力讓學(xué)生的研究思路轉(zhuǎn)變過來。我們中國(guó)的學(xué)生都很踏實(shí),做事認(rèn)真,但比較小心謹(jǐn)慎。你突然提出一個(gè)全新的東西,讓他們?nèi)ネ谝粋€(gè)新坑,他們一開始是猶豫的。”
他繼續(xù)說道:“我花了很大力氣去說服他們,讓他們理解:不能只是跟著別人的經(jīng)典框架走,要自己去創(chuàng)造一個(gè)新框架。這種跨越,其實(shí)對(duì)博士生來說挺難的。但現(xiàn)在論文做完了,學(xué)生自己也覺得這種經(jīng)歷很寶貴,他們現(xiàn)在的研究思路也比以前更開闊了。”
![]()
(來源:https://arxiv.org/pdf/2512.21201)
目前系統(tǒng)只生成了三條固定路線(左、右、上),未來可以增加更多樣化的路徑。談及后續(xù)計(jì)劃他表示:“后續(xù)計(jì)劃有不少。其中一個(gè)方向是多機(jī)器人共享同一個(gè) 3D 世界。”
如果有好幾臺(tái)異構(gòu)的機(jī)器人,它們可以共享同一個(gè)想象空間,通過這個(gè)空間去規(guī)劃每個(gè)機(jī)器人的路線。“那樣的話,機(jī)器人在導(dǎo)航這件事上可能比人還厲害,因?yàn)槲覀兛梢院苋菀椎貥?gòu)造很多機(jī)器人,讓它們協(xié)同工作。”他說。
關(guān)于本次導(dǎo)航器的落地,他們可能會(huì)找企業(yè)合作,也可能做成開源工具包,讓各種機(jī)器人平臺(tái)都能調(diào)用。目前已經(jīng)在和一些公司接觸。
參考資料:
相關(guān)論文:https://arxiv.org/pdf/2512.21201
運(yùn)營(yíng)/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.