在擁擠的商場(chǎng)或辦公室里,一個(gè)機(jī)器人如何才能像人類一樣,優(yōu)雅地避開行人,不打擾他人,同時(shí)高效到達(dá)目的地?這個(gè)看似簡(jiǎn)單的問題,卻隱藏著人工智能領(lǐng)域的一個(gè)重大挑戰(zhàn)。傳統(tǒng)導(dǎo)航技術(shù)在靜態(tài)環(huán)境中表現(xiàn)出色,但在有人類活動(dòng)的動(dòng)態(tài)場(chǎng)景中往往顯得笨拙生硬。本文介紹了一種基于"近距感知任務(wù)"的創(chuàng)新方法,通過模擬人類對(duì)即時(shí)和潛在危險(xiǎn)的感知能力,使機(jī)器人能在人群中自然穿行。這種方法不僅提高了導(dǎo)航成功率,更通過精細(xì)化的"遭遇"分析,揭示了機(jī)器人如何在各種社交情境中做出適當(dāng)決策的內(nèi)在機(jī)制。
![]()
人機(jī)共舞的挑戰(zhàn)
想象一下,你正在一個(gè)擁擠的購(gòu)物中心走動(dòng)。當(dāng)你看到迎面走來的人,你會(huì)自然地調(diào)整步伐、改變方向以避免碰撞。這種能力對(duì)我們?nèi)祟悂碚f似乎很簡(jiǎn)單,但對(duì)機(jī)器人來說卻是一項(xiàng)極具挑戰(zhàn)性的任務(wù)。這就是社交導(dǎo)航(Social Navigation)所要解決的核心問題:讓機(jī)器人在有人類活動(dòng)的環(huán)境中安全、有效且符合社交禮儀地移動(dòng)。
社交導(dǎo)航與傳統(tǒng)的機(jī)器人導(dǎo)航有著本質(zhì)區(qū)別。傳統(tǒng)導(dǎo)航主要關(guān)注如何在靜態(tài)環(huán)境中從起點(diǎn)到達(dá)終點(diǎn),而社交導(dǎo)航則需要考慮環(huán)境中動(dòng)態(tài)變化的人類因素。就像我們?cè)谌粘I钪袝?huì)遇到各種"社交情境"一樣,機(jī)器人也會(huì)面臨多種人機(jī)互動(dòng)場(chǎng)景:它可能需要面對(duì)迎面走來的人,處理道路交叉口的讓行問題,應(yīng)對(duì)突然從拐角處出現(xiàn)的人,或者安全地跟隨前方的人行走。
早期的導(dǎo)航算法在模擬器中表現(xiàn)出色,例如在名為"PointGoal Navigation"的任務(wù)中,機(jī)器人只需要到達(dá)指定的位置點(diǎn)。研究人員發(fā)現(xiàn),經(jīng)過數(shù)十億步的訓(xùn)練后,一個(gè)沒有任何傳感器和執(zhí)行噪聲的智能體幾乎可以達(dá)到完美的表現(xiàn)。但這些算法在加入人類因素后表現(xiàn)急劇下降,因?yàn)樗鼈儫o法理解和預(yù)測(cè)人類的行為模式。
現(xiàn)有的社交導(dǎo)航模型存在明顯局限。一些方法依賴于全局規(guī)劃和完整地圖,但這在真實(shí)世界中往往難以獲取;另一些方法雖然采用了端到端的強(qiáng)化學(xué)習(xí)訓(xùn)練,但沒有明確編碼社交行為,導(dǎo)致機(jī)器人在面對(duì)人類時(shí)表現(xiàn)生硬,甚至可能造成危險(xiǎn)。
2021年,在iGibson交互式挑戰(zhàn)賽中,Yokoyama等人提出的方法取得了第一名,但該方法并沒有在其導(dǎo)航策略中明確編碼任何社交行為。這凸顯了一個(gè)關(guān)鍵問題:我們需要一種能夠明確理解和處理人機(jī)互動(dòng)的導(dǎo)航系統(tǒng),而不僅僅是簡(jiǎn)單地避開障礙物。
![]()
社交導(dǎo)航評(píng)估標(biāo)準(zhǔn)也存在問題。傳統(tǒng)指標(biāo)如成功率和路徑效率難以全面衡量社交導(dǎo)航的質(zhì)量。例如,高成功率可能是以冒險(xiǎn)和不禮貌的行為為代價(jià)的,而這在與人類共存的環(huán)境中是不可接受的。安全性和社交合規(guī)性應(yīng)該成為關(guān)鍵考量因素。
近距感知的革新
針對(duì)這些挑戰(zhàn),研究者提出了一種基于"近距感知任務(wù)"的創(chuàng)新方法,旨在賦予機(jī)器人類似人類的社交感知能力。這種方法的核心是兩個(gè)互補(bǔ)的近距感知任務(wù):風(fēng)險(xiǎn)估計(jì)和近距指南針。
風(fēng)險(xiǎn)估計(jì)任務(wù)旨在處理短距離社交互動(dòng),告知智能體即將發(fā)生碰撞的危險(xiǎn)。具體來說,它計(jì)算了一個(gè)代表智能體與最近人物距離的標(biāo)量值。當(dāng)最近的人物超過一定距離(如Dr米)時(shí),風(fēng)險(xiǎn)值為0;當(dāng)智能體與人物發(fā)生碰撞時(shí),風(fēng)險(xiǎn)值為1。這種機(jī)制使機(jī)器人能夠感知到迫在眉睫的碰撞風(fēng)險(xiǎn),并采取適當(dāng)?shù)谋茏寗?dòng)作。
近距指南針則模擬了社交動(dòng)態(tài)的長(zhǎng)距離組成部分。它不僅捕捉更大半徑范圍(Dc >; Dr)內(nèi)的社交互動(dòng),還提供了人物可能來向的弱指示。這就像人類能夠根據(jù)先前的觀察、對(duì)環(huán)境的部分了解和人物軌跡來推測(cè)人們的行蹤一樣,期望機(jī)器人在訓(xùn)練時(shí)獲得類似的知識(shí)。
近距指南針的工作原理是將智能體周圍空間分割成若干個(gè)扇區(qū),計(jì)算每個(gè)扇區(qū)中人物的風(fēng)險(xiǎn)值。整個(gè)指南針表示為一個(gè)向量,通過從北方開始順時(shí)針展開扇區(qū)序列來實(shí)現(xiàn)。這使機(jī)器人能夠感知到不同方向上可能存在的人物,并據(jù)此規(guī)劃安全路徑。
這兩個(gè)任務(wù)共同構(gòu)成了一個(gè)端到端的社交導(dǎo)航架構(gòu),能夠從RGB-D和GPS+指南針傳感器中提取嵌入,并通過狀態(tài)注意力機(jī)制融合多個(gè)任務(wù)嵌入,最終采樣出機(jī)器人應(yīng)執(zhí)行的動(dòng)作。與傳統(tǒng)方法不同的是,這種架構(gòu)明確地將社交感知能力注入到導(dǎo)航策略中,使機(jī)器人能夠推斷出符合常識(shí)的社交行為。
為了實(shí)現(xiàn)這些近距感知任務(wù),研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)包含兩個(gè)主要模塊的框架:近距特征提取和策略架構(gòu)。近距特征提取模塊從模擬器獲取近距信息,并提取描述社交互動(dòng)某些方面的特征。策略架構(gòu)則從RGB-D和GPS+指南針傳感器中提取嵌入,作為近距感知任務(wù)的輸入。
![]()
通過實(shí)驗(yàn)驗(yàn)證,這種方法在Gibson4+和Habitat-Matterport3D數(shù)據(jù)集上都表現(xiàn)出色。特別是,當(dāng)將兩個(gè)近距感知任務(wù)與自我監(jiān)督輔助任務(wù)結(jié)合使用時(shí),模型在成功率、路徑效率和人物碰撞率等指標(biāo)上都取得了顯著提升。
值得注意的是,不同的模型表現(xiàn)出不同的導(dǎo)航策略。有些模型傾向于冒險(xiǎn)與人物互動(dòng)以獲取潛在的更高效路徑,而其他模型則傾向于保持安全距離,避免與人物互動(dòng)。這反映了社交導(dǎo)航的不同方法:冒險(xiǎn)還是保守,這取決于具體應(yīng)用場(chǎng)景的需求。
在面對(duì)突發(fā)危險(xiǎn)的能力測(cè)試中,搭載近距感知任務(wù)的模型表現(xiàn)出色。當(dāng)遇到視野受限的"盲角"場(chǎng)景時(shí),這些模型能夠維持適當(dāng)?shù)木€性速度,而基線模型則需要?jiǎng)x車和倒退,表現(xiàn)出更高的不確定性和風(fēng)險(xiǎn)。
總的來說,基于近距感知任務(wù)的社交導(dǎo)航方法不僅提高了導(dǎo)航成功率,還通過明確編碼社交行為,使機(jī)器人能夠在人類環(huán)境中安全、有效且禮貌地移動(dòng)。這代表了社交導(dǎo)航研究的一個(gè)重要進(jìn)步,為未來家庭助理機(jī)器人等實(shí)體智能體融入人類社會(huì)邁出了關(guān)鍵一步。
遭遇解析新方法
傳統(tǒng)的社交導(dǎo)航評(píng)估方式往往只關(guān)注整體成功率、路徑效率或避碰能力,難以真正反映機(jī)器人在社交場(chǎng)景中的表現(xiàn)。為了解決這個(gè)問題,研究團(tuán)隊(duì)提出了一種精細(xì)化的評(píng)估方案,通過分析機(jī)器人與人類的"遭遇"來評(píng)價(jià)社交導(dǎo)航的質(zhì)量。
什么是"遭遇"?簡(jiǎn)單來說,就是機(jī)器人與人類在空間上產(chǎn)生互動(dòng)的短暫片段。研究者將遭遇定義為在特定時(shí)間框架內(nèi),滿足三個(gè)約束條件的軌跡子序列:時(shí)間約束(時(shí)間框架大于閾值Tmin)、空間約束(機(jī)器人與人類的測(cè)地距離小于閾值Dmax)以及朝向約束(在前Tfront個(gè)時(shí)間步中,人類在機(jī)器人前方)。
基于這些約束,研究者將遭遇分為四類,每一類都代表了日常生活中常見的社交場(chǎng)景:
正面接近型遭遇是指機(jī)器人和人類從相反方向走來,軌跡大致平行。在這種情況下,機(jī)器人應(yīng)該稍微偏離原路線以避免正面碰撞。判斷標(biāo)準(zhǔn)是人在初始時(shí)間步內(nèi)對(duì)機(jī)器人可見,且兩者軌跡方向之間的角度接近180度。
交叉型遭遇是指機(jī)器人和人類的軌跡以約90度相交。面對(duì)這種情況,機(jī)器人可能需要停下來讓人先行,或者減速并稍微改變方向。判斷標(biāo)準(zhǔn)是人在初始時(shí)間步內(nèi)對(duì)機(jī)器人可見,兩者軌跡方向之間的角度接近90度,且軌跡相交。
盲角型遭遇是機(jī)器人從最初被遮擋的位置接近人類,比如拐角或狹窄的門道。在這種視野受限的情況下,機(jī)器人應(yīng)該謹(jǐn)慎行動(dòng)以避免撞車。判斷標(biāo)準(zhǔn)是人在初始時(shí)間步內(nèi)對(duì)機(jī)器人不可見,且測(cè)地距離與歐幾里得距離之差小于0.5。
人物跟隨型遭遇是指人類和機(jī)器人朝同一方向行進(jìn)。機(jī)器人必須與人保持安全距離,并保持相對(duì)較低的線性速度。判斷標(biāo)準(zhǔn)是人在初始時(shí)間步內(nèi)對(duì)機(jī)器人可見,且兩者軌跡方向之間的角度很小。
針對(duì)每種遭遇類型,研究者提出了三個(gè)關(guān)鍵指標(biāo)來評(píng)估社交導(dǎo)航質(zhì)量:遭遇存活率(ESR)是指特定類別中沒有發(fā)生人類碰撞的遭遇百分比;平均線性速度(ALV)是指機(jī)器人在遭遇中的平均線性速度;平均距離(AD)是指機(jī)器人在遭遇中與人類的平均距離。
這種基于遭遇的評(píng)估方法相比傳統(tǒng)指標(biāo)有明顯優(yōu)勢(shì)。它不僅能捕捉到機(jī)器人在不同社交場(chǎng)景中的表現(xiàn)差異,還能提供關(guān)于機(jī)器人如何處理特定類型互動(dòng)的詳細(xì)信息。比如,一個(gè)機(jī)器人可能在處理交叉型遭遇時(shí)表現(xiàn)出色,但在面對(duì)盲角型遭遇時(shí)卻表現(xiàn)糟糕。這種細(xì)粒度的評(píng)估能夠幫助研究者識(shí)別和改進(jìn)社交導(dǎo)航算法中的具體缺陷。
這種評(píng)估方法的靈感來源于機(jī)器人學(xué)領(lǐng)域的類似嘗試。Pirk等人曾通過問卷調(diào)查收集人類與機(jī)器人之間特定類型互動(dòng)的統(tǒng)計(jì)數(shù)據(jù)。不同的是,本研究提出的方法是完全自動(dòng)化的,適用于包含數(shù)千個(gè)場(chǎng)景的模擬測(cè)試集。
![]()
在實(shí)際應(yīng)用中,研究者隨機(jī)抽樣了500個(gè)驗(yàn)證場(chǎng)景,對(duì)不同模型在各類遭遇中的表現(xiàn)進(jìn)行了統(tǒng)計(jì)。通過分析遭遇數(shù)量與存活率的關(guān)系,發(fā)現(xiàn)了兩種類型的導(dǎo)航策略:一種傾向于冒險(xiǎn)與人類互動(dòng)以獲取潛在更高效的路線,另一種傾向于避免遭遇并保持安全距離。
特別值得注意的是盲角型遭遇的表現(xiàn)分析。通過繪制平均距離和平均線性速度與遭遇完成百分比的關(guān)系圖,研究者發(fā)現(xiàn)基線模型在面對(duì)突發(fā)危險(xiǎn)時(shí)需要?jiǎng)x車和倒退(線性速度約為-0.5),而搭載近距感知任務(wù)的模型則能夠在整個(gè)遭遇過程中保持適當(dāng)?shù)恼€性速度。這表明近距感知任務(wù)能夠顯著提高機(jī)器人應(yīng)對(duì)高風(fēng)險(xiǎn)、高不確定性情境的能力。
多維驗(yàn)證與前瞻
為了全面評(píng)估基于近距感知任務(wù)的社交導(dǎo)航方法的有效性,研究團(tuán)隊(duì)在兩個(gè)公共數(shù)據(jù)集上進(jìn)行了廣泛實(shí)驗(yàn):Gibson4+和HM3D-S。
Gibson4+數(shù)據(jù)集包含86個(gè)場(chǎng)景,其中64個(gè)用于訓(xùn)練,8個(gè)用于驗(yàn)證,14個(gè)用于測(cè)試。而HM3D-S是研究團(tuán)隊(duì)基于HM3D創(chuàng)建的一個(gè)專為社交導(dǎo)航設(shè)計(jì)的新數(shù)據(jù)集,包含900個(gè)場(chǎng)景(800個(gè)用于訓(xùn)練,30個(gè)用于驗(yàn)證,70個(gè)用于測(cè)試),每個(gè)場(chǎng)景的可行走面積平均比Gibson4+更大。
在訓(xùn)練過程中,每個(gè)模型在Gibson4+上訓(xùn)練了約1億步(相當(dāng)于2.5天訓(xùn)練時(shí)間),并在HM3D-S上進(jìn)一步微調(diào)了約4000萬(wàn)步(相當(dāng)于1天訓(xùn)練時(shí)間)。這種分階段訓(xùn)練策略旨在減少計(jì)算成本,同時(shí)確保模型能夠適應(yīng)不同環(huán)境的特點(diǎn)。
實(shí)驗(yàn)結(jié)果表明,單獨(dú)使用近距感知任務(wù)的模型就能顯著提高社交導(dǎo)航性能。在Gibson4+上,風(fēng)險(xiǎn)估計(jì)(Risk-only)和近距指南針(Compass-only)模型表現(xiàn)相似,兩者在各項(xiàng)指標(biāo)上的差異不到0.7%。但在更大的HM3D-S環(huán)境中,近距指南針模型略勝一籌,成功率高出1.1%,人類碰撞率低0.93%,時(shí)間長(zhǎng)度加權(quán)成功率(STL)高1.44%。這一差異符合預(yù)期,因?yàn)榻嘀改厢樔蝿?wù)專門用于處理長(zhǎng)距離近距信息,在更大的場(chǎng)景中發(fā)揮更大作用。
![]()
當(dāng)將近距感知任務(wù)與自監(jiān)督任務(wù)結(jié)合時(shí),性能進(jìn)一步提升。這種組合顯著提高了成功率加權(quán)路徑長(zhǎng)度(SPL)和成功率指標(biāo),也積極影響了人類碰撞率。在Gibson4+上,結(jié)合風(fēng)險(xiǎn)估計(jì)任務(wù)的自監(jiān)督模型(Aux+Risk)使人類碰撞率減少了1.52%,在HM3D-S上減少了2.47%。研究者推測(cè),自監(jiān)督任務(wù)由于基于動(dòng)作的對(duì)比性質(zhì)或試圖恢復(fù)導(dǎo)航反向動(dòng)力學(xué),幫助近距感知模型實(shí)現(xiàn)更平滑的軌跡,通過更精確的線性和角速度調(diào)節(jié)提高性能。
綜合各項(xiàng)指標(biāo),結(jié)合所有任務(wù)的模型(Proximity+Aux)表現(xiàn)最佳。在Gibson4+上,該模型實(shí)現(xiàn)了77.24%的成功率、55.23%的SPL和19.50%的人類碰撞率。在HM3D-S上,實(shí)現(xiàn)了70.16%的成功率、47.60%的SPL和22.09%的人類碰撞率。
通過精細(xì)化的遭遇分析,研究者發(fā)現(xiàn)不同模型采用不同的社交導(dǎo)航策略。例如,Risk-only模型傾向于避免遭遇,在跟隨型和交叉型遭遇中存活率較低(分別為74.11%和86.85%),總遭遇數(shù)也最少(僅188次)。相反,Compass-only模型在各類遭遇中存活率較高,總遭遇數(shù)也較多(279次)。有趣的是,兩個(gè)表現(xiàn)最佳的模型Proximity tasks和Proximity+Aux采用了這兩種不同的策略,但在整體指標(biāo)上表現(xiàn)相當(dāng)。
![]()
在定性分析中,研究者展示了兩個(gè)成功管理遭遇的案例。在一個(gè)正面遭遇中,機(jī)器人在看到人后移動(dòng)到一側(cè)并讓路,讓人們離開后再繼續(xù)前進(jìn)。在一個(gè)交叉遭遇中,機(jī)器人看到行人后讓行,讓行人通過后再繼續(xù)其路徑。
盡管取得了顯著進(jìn)展,當(dāng)前社交導(dǎo)航研究仍面臨一個(gè)重大限制:模擬器中人類運(yùn)動(dòng)模擬的簡(jiǎn)單性。目前主流的模擬器(如Habitat、iGibson或AI2Thor)都沒有實(shí)現(xiàn)具有復(fù)雜導(dǎo)航模式和自然動(dòng)畫的人類。這意味著社交元素如社交暗示和近距離學(xué)等尚未被現(xiàn)有模型充分利用。雖然研究繼承了這些問題,但即使在這種簡(jiǎn)化模型下,所學(xué)習(xí)的行為和討論的特性仍代表了該領(lǐng)域的重要進(jìn)步,為未來工作奠定了基礎(chǔ)。
展望未來,研究團(tuán)隊(duì)計(jì)劃專注于模擬更自然的人類行為,并實(shí)驗(yàn)?zāi)M到真實(shí)世界(sim2real)的域遷移,進(jìn)一步提升社交導(dǎo)航技術(shù)在實(shí)際應(yīng)用中的表現(xiàn)。
參考資料
Cancelli, E., Campari, T., Serafini, L., Chang, A. X., &; Ballan, L. (2023). Exploiting Proximity-Aware Tasks for Embodied Social Navigation. ICCV.
Ye, J., et al. (2021). Auxiliary Tasks and Exploration Enable ObjectNav. ICCV.
Pirk, S., et al. (2020). Modeling Mobile Agent-Environment Interactions with Activity Spaces. IEEE Robotics and Automation Letters.
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.