<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      我在哪?要去哪?字節跳動Astra雙模型架構助力機器人自由導航

      0
      分享至

      機器之心發布

      機器之心編輯部

      在當今科技飛速發展的時代,機器人在各個領域的應用越來越廣泛,從工業生產到日常生活,都能看到它們的身影。然而,現代機器人導航系統在多樣化和復雜的室內環境中面臨著諸多挑戰,傳統方法的局限性愈發明顯。

      一、傳統導航瓶頸凸顯,Astra 應勢而生

      在復雜的真實世界中,移動機器人想要安全可靠地行走,必須解決三大挑戰:我要去哪?我在哪?我要怎么去?這正是目標定位、自我定位與路徑規劃三大導航核心問題。目標定位時,在某些應用中,目標可能通過自然語言或目標圖像提示指定,這就需要系統理解提示并在地圖中定位目標;自我定位要求機器人在地圖中確定自身位置,尤其是在像倉庫這樣高度重復且缺乏全局地標的復雜場景中,傳統導航系統常依賴人工地標,如 QR 碼;路徑規劃又分為全局規劃和局部規劃,全局規劃根據機器人位姿和目標位姿生成粗略路線,局部規劃則負責在避開障礙物的同時到達全局路徑上的中間路點。

      為解決這些任務,傳統導航系統通常由多個模塊組成,包含多個小模型或基于規則的系統。近年來,基礎模型的出現促使人們將小模型集成到更大的模型中以解決更多任務,但所需模型數量及如何有效整合仍有待探索。

      為了突破傳統導航系統的瓶頸,字節跳動研發了一種創新的雙模型架構 Astra。



      • 論文標題:Astra: Toward General-Purpose Mobile Robots via Hierarchical Multimodal Learning
      • 網站:https://astra-mobility.github.io/

      通過兩大子模型:Astra-Global 與 Astra-Local,在環境理解感知與實時規劃決策之間建立通路,為下一代智能體的 “通用導航能力” 打下基礎。Astra 遵循 System 1/System 2 理念,Astra-Global 負責低頻任務,如目標和自我定位;Astra-Local 管理高頻任務,包括局部路徑規劃和里程計估計。這種架構的出現,為移動機器人導航領域帶來了新的希望,有望徹底改變機器人在復雜室內環境中的導航方式。



      圖1: Astra模型概述

      二、Astra 雙模型架構揭秘,賦能機器人高效導航

      1. Astra-Global:全局定位的智慧大腦

      Astra-Global 作為 Astra 架構中的重要組成部分,猶如智慧大腦,承擔著關鍵的低頻任務,即自我定位和目標定位。它是一個多模態大語言模型(MLLM),能夠巧妙地處理視覺和語言輸入,在全局地圖中實現精準定位。其核心在于利用混合拓撲語義圖,將其作為上下文輸入,使得模型能夠依據查詢圖像或文本提示,在地圖中準確找到對應的位置。



      圖2: Astra-Global 架構

      在構建這個強大的定位系統時,離線映射是關鍵的第一步。研究團隊提出了一種離線方法來構建混合拓撲語義圖 G=(V,E,L)。在這個圖中,V 代表節點集合,通過對輸入視頻進行時間下采樣,并利用 SfM 估計近似的 6 自由度(DoF)相機位姿,將關鍵幀設為節點,這些節點編碼了相機位姿和地標引用;E 是基于節點相對位姿關系建立的無向邊集合,對于全局路徑規劃至關重要,它代表了幾何連通性;L 則是地標信息集合,通過 Astra-Global 從每個節點的視覺數據中提取語義地標,豐富了地圖的語義理解,地標存儲了語義屬性,并通過共視關系與多個節點相連。例如,在一個辦公室場景中,拓撲地圖構建確定了各個房間、走廊等位置的節點和連接關系,地標語義豐富則為這些節點添加了如 “會議室”“辦公桌區域” 等地標信息。地標共視圖表的構建進一步確保了不同節點間關于地標信息的一致性,使得機器人能夠更全面地理解場景。

      在實際定位過程中,Astra-Global 的自定位與目標定位功能展現出獨特的優勢。視覺 - 語言定位采用粗到精的兩階段過程。在粗定位階段,模型分析輸入圖像和定位提示,檢測地標并與預建地標地圖建立對應關系,同時通過視覺一致性過濾,依據圖像相似性進一步優化匹配結果,確定最終候選節點。如在一個倉庫環境中,機器人通過攝像頭獲取圖像,Astra-Global 能夠識別出貨架、叉車等地標,并與地圖中的地標信息匹配,篩選出可能的位置。在精定位階段,模型利用查詢圖像和粗定位輸出的候選節點,從離線地圖中采樣參考地圖節點,通過比較參考節點的視覺和位置信息,直接輸出查詢圖像的預測位姿,實現高精度定位。基于語言的目標定位同樣出色,模型根據自然語言指令,利用地圖中地標已有的功能描述,識別相關地標,再通過地標到節點的關聯機制,定位相關節點,獲取目標位置的圖像和 6 自由度位姿。比如,當用戶發出 “找到打印機” 的指令時,Astra-Global 能迅速在地圖中找到與 “打印機” 相關的地標節點,從而確定打印機的位置。

      為了讓 Astra-Global 具備強大的定位能力,研究團隊采用了精心設計的訓練方法。以 Qwen2.5-VL 為骨干,結合監督微調(SFT)和組相對策略優化(GRPO)。在 SFT 階段,準備包含不同任務的多樣化數據集,除了粗定位和精定位數據集外,還構建了如共視檢測、共視圖像選擇、運動趨勢估計等輔助任務數據集,以提升模型的空間理解能力。在 GRPO 階段,針對視覺 - 語言定位任務,利用基于規則的獎勵函數進行訓練,獎勵函數包括格式獎勵、地標提取獎勵、地圖匹配獎勵和額外地標獎勵等,通過不斷優化獎勵函數,提升模型在定位任務中的表現。實驗結果表明,GRPO 顯著提升了 Astra-Global 在零樣本場景下的泛化能力,如在未見過的家庭環境中,SFT + GRPO 方法的定位準確率達到 99.9%,超過同等數據量下 SFT-only 方法的 93.7% 。

      2. Astra-Local:本地規劃的智能助手

      Astra-Local 則是 Astra 架構中負責高頻任務的智能助手,它是一個多任務網絡,能夠從傳感器數據中高效地生成局部路徑并準確估計里程計。其架構包含三個核心組件:4D 時空編碼器、規劃頭和里程計頭,每個組件都發揮著不可或缺的作用。



      圖3: Astra-Local 架構

      4D 時空編碼器是 Astra-Local 的基礎組件,它旨在取代傳統移動性堆棧中的感知和預測模塊。首先是 3D 空間編碼器,它以 N 個環視圖像為輸入,通過 Vision Transformer(ViT)將圖像編碼為判別性特征表示,再利用 Lift-Splat-Shoot 將 2D 圖像特征轉換為 3D voxel 特征。為了訓練 3D 空間編碼器,采用自監督學習方式,通過 3D 體積可微神經渲染,利用深度和顏色圖像進行監督。對于缺乏深度標簽的情況,借助大尺度單目深度估計模型對齊稀疏深度傳感器數據后生成偽深度標簽。接著,4D 時空編碼器在 3D 編碼器的基礎上進行訓練,它以過去的 voxel 特征和未來時間戳為輸入,通過 ResNet 和 DiT 模塊預測未來 voxel 特征。經過預訓練的 4D 時空編碼器能夠生成當前和未來的環境狀態表示,為后續的路徑規劃和里程計估計提供有力支持。

      規劃頭基于預訓練的 4D 特征,結合機器人速度和任務信息(如目標位姿),通過基于 Transformer 的流匹配來生成可執行的軌跡。在復雜環境中,軌跡具有多模態特性,流匹配因其高效率成為實時系統中路徑規劃的理想方法。為了避免與各種障礙物發生碰撞,規劃頭引入了掩碼 ESDF 損失。通過計算 3D 占用地圖的歐幾里得空間距離場(ESDF)圖,并在 ESDF 圖上添加 2D 地面真實軌跡掩碼,有效地減少了碰撞率。實驗結果顯示,在包含許多未見擁擠場景的 OOD 數據集上,使用掩碼 ESDF 損失的方法在碰撞率和綜合得分方面都優于其他方法,充分證明了其在生成高質量軌跡方面的有效性。

      里程計頭的主要任務是利用當前和過去的 4D 特征以及額外的傳感器數據(如 IMU、車輪數據)來預測機器人的相對位姿。它通過訓練一個 Transformer 模型來融合不同傳感器的信息,每個傳感器模態的數據都經過特定的 tokenizer 處理,再結合模態嵌入和時間位置嵌入,輸入到 Transformer 編碼器中,最后利用 CLS token 預測相對位姿。在實驗中,與基于兩幀的基線方法相比,Astra-Local 的里程計頭在多傳感器融合和位姿估計方面表現出色,如在加入 IMU 數據后,旋轉估計精度大幅提升,整體軌跡誤差降低到約 2%,進一步加入車輪數據后,尺度穩定性和估計精度進一步增強,展示了其在多傳感器數據融合方面的優勢。

      三、實驗數據見證實力

      為了全面評估 Astra 的性能,研究團隊在多種不同的室內環境中展開了廣泛且深入的實驗,涵蓋了倉庫、辦公樓和家庭等場景。這些實驗不僅驗證了 Astra 在理論上的創新架構和算法的有效性,更展示了其在實際應用中的潛力和可靠性。

      1. 多模態定位能力

      Astra-Global 的多模態定位能力通過一系列實驗得到了驗證。在處理文本和圖像定位查詢時,Astra-Global 表現出色。對于目標定位任務,它能夠準確地根據文本指令在地圖中識別出匹配的圖像和位姿,例如當接收到 “找到休息的地方” 這樣的指令時,Astra-Global 能夠迅速定位到地圖中沙發等休息區域的位置信息。與傳統的視覺位置識別(VPR)方法相比,Astra-Global 具有較大優勢。在細節捕捉方面,傳統 VPR 方法常依賴全局特征,容易忽略像房間號這樣的精細細節,而 Astra-Global 能夠精準捕捉這些關鍵信息,避免在相似場景中出現定位錯誤。在視點變化的魯棒性上,Astra-Global 基于語義地標進行定位,即使相機角度發生較大變化,地標之間的相對位置關系保持不變,使其能夠更穩定地進行定位,而傳統 VPR 方法在面對大的視點變化時往往會出現定位偏差。在位姿精度上,當存在多個相似候選位置時,Astra-Global 能夠利用地標空間關系選擇最佳匹配位姿,在 1 米距離誤差和 5 度角誤差范圍內的位姿精度顯著高于傳統 VPR 方法,在倉庫環境中的位姿精度比傳統方法提升了近 30%+。



      圖4: 不同場景下Astra Global的定位精度都顯著高于傳統VPR方法

      2. 規劃與里程計性能

      Astra-Local 中規劃頭和里程計頭的性能同樣在實驗中得到了充分的評估。在規劃頭方面,研究團隊將其與 ACT 和擴散策略(DP)等方法進行了對比。在碰撞率、速度和得分等指標上,使用基于 Transformer 的流匹配和掩碼 ESDF 損失的 Astra-Local 規劃頭表現良好。在包含許多未見擁擠場景的 OOD 數據集上,Astra-Local 的碰撞率明顯低于其他方法,同時能夠保持較高的速度和綜合得分,充分證明了掩碼 ESDF 損失在減少碰撞風險方面的有效性。在里程計頭方面,通過在包含同步圖像序列、IMU 和車輪數據以及地面真實位姿的多模態數據集上進行實驗,結果顯示,與基于兩幀 BEV-ODOM 的基線方法相比,Astra-Local 的里程計頭在多傳感器融合和位姿估計方面具有較大優勢。加入 IMU 數據后,旋轉估計精度大幅提升,整體軌跡誤差降低到約 2%,進一步加入車輪數據后,尺度穩定性和估計精度進一步增強,有效提升了機器人在復雜環境中的運動控制和導航能力。



      圖5: 通過掩碼esdf loss可以顯著降低規劃頭的碰撞率



      圖6: 里程計任務頭通過transformer有效的融合多傳感器信息

      四、未來展望

      展望未來,Astra 有著廣闊的發展前景和應用潛力。在更廣泛的場景部署方面,Astra 有望拓展到更多復雜的室內環境,如大型商場、醫院、圖書館等。在大型商場中,Astra 可幫助機器人快速定位商品位置,為顧客提供精準的導購服務;在醫院里,能協助醫療機器人高效地運送藥品和物資,提高醫療服務效率;在圖書館中,可助力機器人整理書籍、引導讀者查找資料。

      然而,Astra 目前也存在一些需要改進的地方。對于 Astra-Global 模塊,當前的地圖表示雖在信息損失和 token 長度上取得了一定平衡,但在某些情況下仍可能缺乏關鍵的語義細節,影響定位的準確性。未來,研究團隊計劃深入研究替代地圖壓縮方法,在優化效率的同時,最大限度地保留重要語義信息,以提升定位精度。此外,現有的定位僅依賴單幀觀測,在特征缺失或高度重復的環境中可能會失效。為解決這一問題,后續將引入主動探索機制,讓機器人能夠主動感知周圍環境,并將時間推理融入模型,利用序列觀測實現更穩健的定位,使機器人在復雜環境中也能準確找到自身和目標的位置。

      在本地導航與控制方面,Astra-Local 模塊也有提升空間。在實際機器人部署中,受限于模型的泛化能力以及基于規則的回退系統在邊緣情況下容易誤觸發,導致回退率不可忽視。為了增強對分布外(OOD)場景的魯棒性,團隊將通過改進模型架構和訓練方法,使其能夠更好地應對各種未知情況。同時,重新設計回退系統,使其更緊密地集成到整個系統中,實現更無縫的切換,提高系統的穩定性和可靠性。此外,還計劃將指令跟隨能力集成到模型中,使機器人能夠理解和執行人類的自然語言指令,進一步拓展其在動態、以人為中心的環境中的可用性,實現更自然、高效的人機交互。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      這次痛哭流涕的張柏芝,撕碎謝霆鋒最后體面,看來向佐沒說謊

      這次痛哭流涕的張柏芝,撕碎謝霆鋒最后體面,看來向佐沒說謊

      白面書誏
      2025-12-10 16:27:13
      新賽季倒計時2天!媒體人:央視對于CBA的直播,暫定每天只播一場

      新賽季倒計時2天!媒體人:央視對于CBA的直播,暫定每天只播一場

      狼叔評論
      2025-12-10 15:42:04
      她是上海知名主持,穩坐東視20年首席,51歲退居幕后,女兒很像她

      她是上海知名主持,穩坐東視20年首席,51歲退居幕后,女兒很像她

      一娛三分地
      2025-12-09 19:57:01
      丈夫跳樓留下480萬債務,母子倆還了18年,去銀行查老公的卡傻了

      丈夫跳樓留下480萬債務,母子倆還了18年,去銀行查老公的卡傻了

      卡西莫多的故事
      2025-12-06 19:36:02
      真相大白!王曼昱再次擊敗張本美和原因曝光,誰注意任浩教練細節

      真相大白!王曼昱再次擊敗張本美和原因曝光,誰注意任浩教練細節

      曹說體育
      2025-12-10 20:13:51
      12月9日俄烏最新:第7軍團撤出包圍圈

      12月9日俄烏最新:第7軍團撤出包圍圈

      西樓飲月
      2025-12-09 20:29:38
      數覽中國脈動|穩扎穩打!我國實體經濟底盤更穩固

      數覽中國脈動|穩扎穩打!我國實體經濟底盤更穩固

      新華社
      2025-12-10 09:14:55
      中國外交官已全部離開立陶宛,立總理對華遞交建議書,想重建關系

      中國外交官已全部離開立陶宛,立總理對華遞交建議書,想重建關系

      律便利
      2025-07-03 15:20:03
      12月起,中國或將迎來6大“降價潮”,建議大家提前了解

      12月起,中國或將迎來6大“降價潮”,建議大家提前了解

      小談食刻美食
      2025-12-10 17:05:01
      全球 TOP10 手機排名:iPhone 17 Pro Max 太恐怖了

      全球 TOP10 手機排名:iPhone 17 Pro Max 太恐怖了

      劉奔跑
      2025-12-09 23:39:02
      麻薯盒內發現活老鼠,山姆:顧客取貨點在室外,判斷系周邊蟲害偶然侵入所致

      麻薯盒內發現活老鼠,山姆:顧客取貨點在室外,判斷系周邊蟲害偶然侵入所致

      界面新聞
      2025-12-09 20:40:03
      曾國藩只看侄子端茶的動作,便斷言此人日后必成禍患,當場送走!

      曾國藩只看侄子端茶的動作,便斷言此人日后必成禍患,當場送走!

      蕭竹輕語
      2025-12-05 17:48:53
      WTT香港總決賽|王曼昱4天內兩勝張本美和

      WTT香港總決賽|王曼昱4天內兩勝張本美和

      北青網-北京青年報
      2025-12-10 20:56:14
      釘恥辱柱上!殺妻案金昊死刑,曝孩子去向,弟弟道出姐姐未了心愿

      釘恥辱柱上!殺妻案金昊死刑,曝孩子去向,弟弟道出姐姐未了心愿

      阿纂看事
      2025-12-10 10:55:09
      同樣是丈夫落難,浦安修棄彭總而去,任桂蘭對梁為何不離不棄?

      同樣是丈夫落難,浦安修棄彭總而去,任桂蘭對梁為何不離不棄?

      安欲喜歡
      2025-12-05 11:15:12
      山姆超市致歉“自有MM烘焙麻薯吃出老鼠”:訂單地址存在鼠害

      山姆超市致歉“自有MM烘焙麻薯吃出老鼠”:訂單地址存在鼠害

      財中社
      2025-12-09 18:37:20
      馬云劉強東沒做到的事,被一個保安做到了,靠9塊錢的啤酒賺12億

      馬云劉強東沒做到的事,被一個保安做到了,靠9塊錢的啤酒賺12億

      毒sir財經
      2025-12-09 23:50:28
      房貸貼息政策有望全面落地

      房貸貼息政策有望全面落地

      地產微資訊
      2025-12-10 15:54:30
      王鷗才是真清醒!住200平復式豪宅獨自養娃,花10w請3位保姆照顧

      王鷗才是真清醒!住200平復式豪宅獨自養娃,花10w請3位保姆照顧

      瘋說時尚
      2025-12-10 14:48:33
      1年沒了421家!又一場大洗牌開始了

      1年沒了421家!又一場大洗牌開始了

      大貓財經Pro
      2025-12-10 17:14:36
      2025-12-10 21:44:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11891文章數 142509關注度
      往期回顧 全部

      科技要聞

      防"走私",英偉達被曝開發“芯片定位”技術

      頭條要聞

      女孩收養126只流浪貓狗 每年"蹭"近百場婚宴打包食物

      頭條要聞

      女孩收養126只流浪貓狗 每年"蹭"近百場婚宴打包食物

      體育要聞

      試訓20支球隊,落選,成為NBA新秀助攻王

      娛樂要聞

      為何網友不再相信張柏芝的“故事”?

      財經要聞

      對話陳志武:特朗普嚴重誤判中國!

      汽車要聞

      有動力操控 有智能座艙 6萬多的第五代帝豪掀桌子了

      態度原創

      教育
      健康
      親子
      本地
      公開課

      教育要聞

      國內中產家庭最愛去的英國大學!

      甲狀腺結節到這個程度,該穿刺了!

      親子要聞

      大腦為什么要刪除2歲前的記憶

      本地新聞

      打工人夢想中的生活,寵物已經提前過上了

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 男同av| 国产av夜夜欢一区二区三区| 色综合热无码热国产| 亚洲日韩国产成网在线观看| 色欲综合天天天综合网站亚洲图片| 18禁无遮挡免费视频网站| 久肏| 国产一区二区不卡在线| 国产成人a在线观看视频免费| 欧美成人精品三级网站| 中国凸偷窥xxxx自由视频| 国产94在线 | 亚洲| 蜜臀99| 久久久久久av| 婷婷伊人綜合中文字幕小说| 亚洲色最新高清AV网站| 国产免费AV片在线看| 中文人妻无码一区二区三区在线| 中文字幕久久久久人妻中出| 综合久久国产九一剧情麻豆| 欧美一区二区三区久久综合| 蜜桃91精品秘?入口| 精品黄色av一区二区三区 | 免费极品av一视觉盛宴| 欧美性猛交xxxx黑人| 天天做天天爱夜夜爽女人爽| 免费vA片| 极品熟女精品| 欧美日韩在线第一页免费观看| 国产精品久久无码一区二区三区网| 人妻成人网| 亚洲av无码专区在线亚| 国产黄大片在线观看画质优化| 精品一区二区三区无码视频 | 中文字幕AV一区| 夜夜欢视频| 少妇人妻邻居| 无码日韩精品一区二区免费96| 免费无码毛片一区二区app| 国产在线精品一区二区中文| 台湾佬中文娱乐网址|