<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      RAPID:基于逆強化學習的無人機視覺導航魯棒且敏捷規劃器

      0
      分享至

      文章來源:視覺語言導航。

      • 作者:Minwoo Kim, Geunsik Bae, Jinwoo Lee, Woojae Shin, Changseung Kim, Myong-Yol Choi, Heejung Shin, Hyondong Oh

      • 單位:韓國蔚山科學技術院機械工程系

      • 論文標題:RAPID: Robust and Agile Planner Using Inverse Reinforcement Learning for Vision-Based Drone Navigation

      • 論文鏈接:https://arxiv.org/pdf/2502.02054

      主要貢獻
      • 提出了 基于逆強化學習 的學習型視覺規劃器RAPID,用于復雜環境中的敏捷無人機飛行,能夠在毫秒級生成無碰撞的航點,無需單獨的感知、建圖和規劃模塊,可直接應用于現實場景,無需額外訓練或調整。

      • 開發了 基于逆軟Q學習 的框架,用于高速視覺導航,無需手動設計獎勵函數,通過針對高速場景的吸收態處理,實現魯棒且樣本高效的策略學習。

      • 引入 輔助自編碼器 損失函數,減輕高維視覺輸入的復雜性,提高學習效率。

      • 通過在訓練中考慮 控制器跟蹤誤差 ,減少仿真到現實(sim-to-real)的差距,驗證了在自然和城市環境中以平均速度7 m/s進行高速飛行實驗的可行性。

      研究背景
      • 無人機(UAV)因其敏捷性和緊湊性,在災難救援、城市室內探索和目標跟蹤等領域具有廣泛應用前景,但在復雜環境中(如森林和工廠)利用其敏捷性仍面臨感知、控制和實時運動規劃的挑戰。

      • 傳統的視覺導航方法依賴于模塊化架構,將感知、建圖和規劃分開,雖然具有可解釋性和易于與其他模塊集成的優點,但計算成本高、延遲大,不適合敏捷無人機飛行。而端到端的神經網絡學習方法將感知、建圖和規劃集成到一個過程中,減少了延遲,能夠實現快速實時規劃。

      • 行為克?。˙C)和強化學習(RL)是常用的視覺導航學習方法,但BC容易因專家模仿有限而出現累積誤差,RL則面臨獎勵函數設計困難和樣本效率低下的問題。逆強化學習(IRL)通過從專家行為中學習潛在獎勵來解決這些問題,但在視覺導航任務中應用IRL仍面臨諸多挑戰,如高維視覺信息處理、實時可行性檢查和精確飛行姿態控制等。

      方法 基礎知識

      RAPID 將視覺導航問題建模為無限時域馬爾可夫決策過程(MDP),其組成部分包括狀態 、動作 、初始狀態分布 、轉移概率 、獎勵函數 和折扣因子 。策略 是一個隨機策略,表示在給定狀態 時采取動作 的概率分布。數據集分為專家策略數據 和學習者策略數據 。

      狀態和動作

      • 狀態

        • 狀態空間 包括深度圖像 、速度 、姿態四元數 和相對目標向量 。

        • 為了縮小仿真與現實環境之間的差距,使用半全局匹配(SGM)算法生成類似真實深度圖像的立體深度圖像用于訓練。

        • 采用低分辨率圖像(64×64)以減少過擬合并提高魯棒性。

      • 動作

        • 動作 包含 個航路點,每個航路點由相對距離 和相對角度 定義,使用柱坐標系表示以減少動作空間的復雜性。

        • 將柱坐標系中的航路點轉換為笛卡爾坐標系中的絕對位置,最終生成的動作 是 個航路點的集合。

        • 設置 ,時間間隔 秒。

      樣本高效訓練與圖像重建
      • 輔助自編碼器損失函數

        • 使用 -VAE學習緊湊的狀態表示,將高維輸入嵌入到低維潛在向量 中,同時減輕噪聲并提高視覺數據處理的魯棒性。

        • 自編碼器由卷積編碼器 和反卷積解碼器 組成,目標函數 包括重建誤差、潛在向量的 正則化和解碼器參數的權重衰減。

        • 為了避免策略網絡的梯度更新影響編碼器,只允許critic網絡的梯度更新共享的編碼器參數。

        • 采用更快的 Polyak 平均率更新目標 Q 函數的編碼器參數,以解決梯度傳播延遲的問題。

      • 跳躍連接網絡

        • 采用 D2RL 網絡結構,通過跳躍連接保留重要輸入信息,實現更快的收斂速度。

        • 使用正交初始化和 delta-正交初始化分別初始化全連接層和卷積層的權重,以提高學習過程的穩定性。

      隱式獎勵的策略學習
      • 學習隱式獎勵

        • 使用最小二乘逆 Q 學習(LS-IQ)算法,通過逆軟 Q 學習(IQ-learning)引入逆貝爾曼算子 ,將獎勵函數表示為 Q 函數的形式,從而無需單獨訓練獎勵網絡。

        • 通過引入正則化項 來穩定學習過程,該正則化項結合了專家數據和學習者數據的分布,以平衡兩者的貢獻。

        • 對于吸收態(如目標或碰撞狀態),采用引導式更新和分析計算相結合的方法來處理,提高穩定性。

        • 設置吸收態獎勵值 和 ,以避免在終端狀態獲得過高獎勵,增強障礙物規避性能。

      • SAC更新

        • 使用soft actor-critic(SAC)方法更新策略,通過固定 Q 函數來近似最優策略。

        • 策略更新公式為 ,其中 是溫度參數,用于控制探索與利用的權衡。

      軌跡生成與控制
      • 軌跡生成

        • 將離散的航路點轉換為連續可微的軌跡,軌跡 可以表示為沿每個軸的多項式函數。

        • 為了確保軌跡的平滑性,多項式段的起點和終點必須與指定的航路點一致,并且在中間航路點處保持導數的連續性。

        • 通過求解優化問題來最小化加速度平方的積分,生成軌跡,采用四階多項式并確保在航路點處速度連續。

      • 軌跡跟蹤控制

        • 使用幾何控制器進行軌跡跟蹤,該控制器通過直接應用剛體動力學的幾何原理來確保跟蹤精度和穩定性,計算出必要的機體角速度和推力指令。

        • 幾何控制器的低延遲和易于實現的特點使其更適合于學習過程,與模型預測控制(MPC)相比,幾何控制器的計算開銷更低。

      仿真 數據獲取與訓練
      • 數據獲取

        • 環境設置 :使用 AirSim 模擬器生成多樣化的訓練環境,包括樹木、圓錐體、立方體、球體等障礙物,以增強模型的泛化能力。圖 6 展示了不同訓練環境的示例。

        • 專家數據生成 :采用基于運動原語的專家規劃器生成全局軌跡。首先收集環境的點云數據,構建全局軌跡,然后根據障礙物成本采樣局部軌跡。全局軌跡是從起點到終點的完整路徑,局部軌跡是全局軌跡的細化片段。

        • 參數設置 :全局軌跡的平均速度設置為 7m/s,最大速度和加速度分別限制為 8m/s 和 10m/s2。為了增加軌跡多樣性,對滾轉角和偏航角施加隨機擾動(最大 0.3 弧度)。共生成 1,800 條全局軌跡,覆蓋 600 個訓練地圖,最終收集到約 10 萬個局部軌跡及其對應的狀態-動作數據。

      • 訓練

        • 領域隨機化 :為了增強模型的泛化能力,訓練過程中應用了多種隨機化技術。例如,每次訓練時隨機選擇起始位置,并在控制器增益中加入約 10% 的噪聲。此外,還使用了圖像隨機打亂技術以增強編碼器的魯棒性。

        • 地圖更新 :每 5 個訓練周期更換一次地圖,以增加環境的多樣性。

        • 訓練終止條件 :如果無人機與障礙物碰撞或到達目標點,則終止當前訓練周期。

      仿真結果
      • 基線方法 :將 RAPID 與以下基線方法進行比較:

        • 行為克?。˙C) :使用預訓練的 MobileNetV3 模型,具有相同的網絡結構。

        • 最小二乘逆 Q 學習(LS-IQ) :與 RAPID 具有相同的網絡結構,但吸收態獎勵更新規則不同。

        • AGILE :基于 DAgger 的規劃器,使用松弛的贏者通吃(R-WTA)損失函數。

      • 實驗設置 :在不同樹密度的測試環境中進行實驗,樹密度表示單位面積內的樹木數量。樹木被隨機傾斜并賦予隨機方向,以增加測試環境的復雜性。樹木的尺寸根據連續均勻隨機分布進行隨機化,范圍為 ,測試地圖大小為 50m×50m。

      • 測試環境 :測試環境的樹密度分別為 1/80、1/50、1/30 和 1/25(單位:樹木/平方米)。圖 7 展示了不同樹密度的測試環境。

      • 評估指標 :包括任務進度(MP,從起點到目標點的進度)、速度和飛行距離。

      • 實驗結果

        • BC :由于過擬合和累積誤差,性能最低。在復雜環境中,其泛化能力受限。

        • LS-IQ :性能優于 BC,但在高樹密度環境中,優先考慮高速飛行而犧牲了碰撞規避能力。

        • AGILE :在低樹密度環境中表現良好,但在高樹密度環境中,其性能顯著下降,且對控制器跟蹤誤差的適應性較差。

        • RAPID :在所有測試條件下均表現出最佳的碰撞規避性能,任務進度和速度均優于其他方法。表 I 和圖 8 展示了詳細的定量結果。

      實驗 硬件設置
      • 無人機設計

        • 為了實現高速飛行,設計了一款類似競速無人機的輕量化無人機,配備 Velox 2550kV 電機和 Gemfan Hurricane 51466 螺旋槳,整體重量為 1.1kg,推重比達到 3.57,能夠進行高速和敏捷機動。

        • 機載計算單元采用 NVIDIA Jetson Orin NX,該計算板輕巧且緊湊,能夠快速執行神經網絡部署。

        • 使用 Oak-D Pro 深度相機進行深度測量和視覺慣性里程計(VIO),相機配備全局快門鏡頭,提供 80°×55° 的立體圖像視野和 72°×50° 的立體深度圖像視野,圖像和深度圖像的采集頻率均為 20Hz。

      • 處理延遲測試

        • 上表顯示了 RAPID 模型與 AGILE 模型的處理延遲對比。盡管 RAPID 的參數數量更多,但由于其浮點運算次數(FLOPS)更低,因此在 CPU 和 GPU 推理速度上均優于 AGILE,推理時間比 AGILE 快 6 倍以上。

      系統概述
      • 系統模塊

        • VIO 模塊 :使用 OpenVINS 進行穩定高速飛行,該模塊結合圖像狀態信息和慣性測量單元(IMU)數據,深度相機以 20Hz 的頻率運行,IMU 測量數據以 200Hz 的頻率收集,最終將局部里程計信息以 20Hz 的頻率發布到 PX4 自動飛行控制系統。

        • 局部規劃器模塊 :RAPID 方法以 10Hz 的頻率接收深度圖像、速度、姿態和目標方向向量,并生成無碰撞航路點。生成的航路點通過最小加速度軌跡生成方法轉換為連續軌跡,然后以 50Hz 的頻率對軌跡進行采樣,以獲得目標位置和速度指令。

        • 控制器模塊 :幾何控制器根據目標位置和速度指令計算必要的機體角速度和推力指令,以跟蹤目標軌跡。這些指令以 250Hz 的頻率發送到 PX4 控制器,控制無人機的執行器。

      • 系統集成

        • 整個系統包括 VIO、局部規劃器和控制器三個模塊,如圖 9(b) 所示。系統能夠實現從視覺輸入到軌跡生成和跟蹤的完整流程,確保無人機在復雜環境中進行高速飛行。

      實驗結果
      • 自然環境實驗

        • 長森林場景 :樹木間距為 5 米,目標點距離 60 米。實驗中,無人機從懸停狀態開始,沿著軌跡飛行,成功避開沿途障礙物,最大速度達到 7.5m/s。

        • 短森林場景 :樹木密集排列,間距為 2 米,目標點距離 30 米。為了測試無人機在更復雜環境中的飛行能力,將航路點生成時間縮短至 0.9 秒,無人機成功到達目標點,最大速度達到 8.8m/s。

        • 觀察現象 :盡管訓練數據集中的速度為 7m/s,但 IRL 訓練使策略能夠表現出加速和減速行為,甚至在接近障礙物時顯著降低速度以執行避障動作,這表明 IRL 方法能夠超越簡單模仿專家行為,有效捕捉避障意圖。

      • 城市環境實驗

        • 大塊障礙物場景 :障礙物幾何形狀簡單但體積較大。為了降低安全風險,將無人機速度降低至平均 6m/s。無人機成功從起點生成避障路徑并到達目的地,最大速度達到 6.5m/s。

        • 柱狀障礙物場景 :包含六個大型柱狀障礙物。無人機在飛行過程中減速以避開障礙物,然后再次加速,最終成功到達目的地,最大速度達到 6.2m/s。

        • 實驗結論 :盡管模型僅在仿真環境中訓練,但在真實世界場景中表現出良好的性能,與仿真環境相比幾乎沒有性能下降。實驗結果表明,模型在類似仿真設置的樹環境中部分彌合了仿真到現實的差距,并且在城市環境中能夠泛化到新的障礙物形狀,展現出對多樣化真實世界環境的適應能力。

      結論與未來工作
      • 結論

        • RAPID作為一種基于IRL的無人機視覺規劃器,在復雜環境中的高速視覺導航方面表現出色,通過整合視覺輸入和規劃,能夠實時生成無碰撞的航點,并在仿真和現實世界場景中均展現出優越的性能。

        • 盡管RAPID取得了良好的效果,但仍存在一些局限性,如缺乏時間感知能力導致在面對大型障礙物時容易陷入局部最小值;在探索過程中可能會生成不可行的軌跡,影響Q函數的收斂;專家數據集的不完整性可能導致模型在遇到遠離專家軌跡的狀態時無法找到解決方案;sim-to-real差距尚未完全彌合。

      • 未來工作

        • 將致力于解決這些限制,通過探索基于記憶的架構、采用基于約束的強化學習方法以及改進數據獲取策略,以實現更穩健、可擴展和高效的高速無人機導航學習。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      “最風流”央視女主持:將2個有婦之夫玩弄于股掌,如今幸福嗎

      “最風流”央視女主持:將2個有婦之夫玩弄于股掌,如今幸福嗎

      優趣紀史記
      2025-11-29 17:22:29
      一口氣看完四集郭京飛新劇《老舅》,我感慨萬千,寫下這篇文章

      一口氣看完四集郭京飛新劇《老舅》,我感慨萬千,寫下這篇文章

      晴晴的娛樂日記
      2025-12-15 22:06:55
      何晴去世不到24小時,惡心事發生!私生活被詬病,網友:紅顏薄命

      何晴去世不到24小時,惡心事發生!私生活被詬病,網友:紅顏薄命

      徐徐道史
      2025-12-14 18:28:32
      廣西54歲李某甘蔗地殺2女后續!10萬懸賞追逃,當地人曝更多內幕

      廣西54歲李某甘蔗地殺2女后續!10萬懸賞追逃,當地人曝更多內幕

      奇思妙想草葉君
      2025-12-14 21:46:07
      醫生苦勸:長期吃降壓藥的人,千萬要牢記,多補充這3種維生素!

      醫生苦勸:長期吃降壓藥的人,千萬要牢記,多補充這3種維生素!

      紙上的心語
      2025-12-15 21:32:22
      中方一句“東倭”,嚇壞日本右翼?前駐華大使急呼:該臥薪嘗膽了

      中方一句“東倭”,嚇壞日本右翼?前駐華大使急呼:該臥薪嘗膽了

      近史博覽
      2025-12-15 14:43:10
      突發!澤連斯基,妥協了!一切結束了!

      突發!澤連斯基,妥協了!一切結束了!

      財經要參
      2025-12-15 13:18:38
      人社部定調!穩步提高社會保障待遇水平,2026年養老金雙增長嗎?

      人社部定調!穩步提高社會保障待遇水平,2026年養老金雙增長嗎?

      財話連篇
      2025-12-15 18:35:49
      亞運三金王王莉實名舉報:基地主任索要15萬 體罰辱罵下跪是常事

      亞運三金王王莉實名舉報:基地主任索要15萬 體罰辱罵下跪是常事

      醉臥浮生
      2025-12-15 08:01:17
      錢再多有啥用?鞏俐帶77歲老公回北京,雪中騎一輛車,笑容藏不住

      錢再多有啥用?鞏俐帶77歲老公回北京,雪中騎一輛車,笑容藏不住

      洲洲影視娛評
      2025-12-13 19:57:10
      張藝興發文致歉:因參加國家話劇院重要活動而趕回北京,此前SM娛樂臨時公告張藝興將缺席EXO粉絲見面會,已入場觀演門票不可退款

      張藝興發文致歉:因參加國家話劇院重要活動而趕回北京,此前SM娛樂臨時公告張藝興將缺席EXO粉絲見面會,已入場觀演門票不可退款

      極目新聞
      2025-12-14 18:51:00
      張文宏直言:不管你信不信,老人過了80歲,基本都有如下7個現狀

      張文宏直言:不管你信不信,老人過了80歲,基本都有如下7個現狀

      黃河新流域
      2025-09-28 13:34:43
      被全網瘋傳的“雙頂流”戀愛瓜,竟是他倆?結果大反轉!

      被全網瘋傳的“雙頂流”戀愛瓜,竟是他倆?結果大反轉!

      毒舌八卦
      2025-12-15 22:52:12
      央視一哥畢福劍再婚生子,次子已上幼兒園,生活近況曝光

      央視一哥畢福劍再婚生子,次子已上幼兒園,生活近況曝光

      復轉這些年
      2025-12-07 15:39:25
      U23亞洲杯最終23人名單確定,6人無緣參賽或被淘汰

      U23亞洲杯最終23人名單確定,6人無緣參賽或被淘汰

      凡人說體育
      2025-12-15 13:55:06
      何晴離世消息曝光不到24小時,惡心的一幕出現了!

      何晴離世消息曝光不到24小時,惡心的一幕出現了!

      叨嘮
      2025-12-15 01:57:05
      撒切爾夫人在回憶錄中坦言:當年并不想歸還香港,考慮過發動戰爭

      撒切爾夫人在回憶錄中坦言:當年并不想歸還香港,考慮過發動戰爭

      泠泠說史
      2025-12-15 18:05:17
      西方內訌升級:英銀行家集體反水威脅撤出俄資產

      西方內訌升級:英銀行家集體反水威脅撤出俄資產

      夢想的現實
      2025-12-15 10:41:52
      賺大陸錢捐給“臺獨”的集團:民進黨的頭號金主,終于被殺雞儆猴

      賺大陸錢捐給“臺獨”的集團:民進黨的頭號金主,終于被殺雞儆猴

      被誤解的時候能微微一笑
      2025-12-15 08:54:45
      變臉?亞歷山大賽前曾表示想追73勝紀錄,輸馬刺后稱破紀錄毫無意義

      變臉?亞歷山大賽前曾表示想追73勝紀錄,輸馬刺后稱破紀錄毫無意義

      懂球帝
      2025-12-15 15:24:06
      2025-12-16 06:43:00
      算法與數學之美 incentive-icons
      算法與數學之美
      分享知識,交流思想
      5267文章數 64595關注度
      往期回顧 全部

      科技要聞

      大佬冷酷預言:未來15年 人形機器人成廢鐵

      頭條要聞

      小米車主第1天提車在交付中心撞人 小米內部人士回應

      頭條要聞

      小米車主第1天提車在交付中心撞人 小米內部人士回應

      體育要聞

      戰勝完全體雷霆,馬刺“瘋狂動物城”只是半成品

      娛樂要聞

      何晴告別式現場,前夫許亞軍雙眼泛紅?

      財經要聞

      新農合漲到400元 農民斷繳背后的扎心真相

      汽車要聞

      主駕配按摩還可選6座 新款捷途X90PRO售13.59萬起

      態度原創

      藝術
      游戲
      家居
      旅游
      房產

      藝術要聞

      從木匠到巨匠,大師是如何煉成的

      當手機能自動清每日任務,玩家天天上線是為了什么?

      家居要聞

      溫暖色調 大空間不冷清

      旅游要聞

      跨年夜京城將上演鐘鼓齊鳴

      房產要聞

      6.66億摘地,海南封關大動作,千畝海澄新城震撼登場

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 成人精诚精品| 另类一区| 香蕉在线精品一区二区| 亚洲男人的天堂av手机在线观看| 性九九九九九九| 夜夜添无码一区二区三区| 国产裸体舞一区二区三区| 国产午夜福利在线机视频| 潮喷视频在线| AV在线无码| 少妇高潮喷水惨叫久久久久电影| 国产自啪精品视频网站丝袜| 一本色道久久亚洲加勒比| 丰满少妇被猛烈进入| 无码人妻一区二区三区免费九色| 亚洲精品美女久久久久99| 人妻一卡二卡| 黄色不卡| 熟女中文字幕| 国产高清在线精品一本大道| 日本免费一区二区三区四区五区| 人妻无码久久| 日本无码免费网站| 国产不卡精品视频男人的天堂| 国产精品无码素人福利不卡| 国产精品久久久一区二区| 亚洲综合色中文网| 国产高清A片| 日韩成人一区二区三区在线观看| 亚洲国产一区二区三区| 九月婷婷人人澡人人添人人爽| 金典黄色网| 无码中文幕| 国产毛片基地| 99久热在线精品996热是什么| 无码专区—va亚洲v天堂麻豆| 彰化市| 亚洲熟妇AV乱码在线观看| 国产亚欧女人天堂AV在线| 国产又粗又猛又黄又爽无遮挡| 国产高清一区二区三区视频|