在自動駕駛的感知世界中,激光雷達能在黑夜中"看清"物體幾何形狀,而相機則擅長捕捉豐富的色彩與紋理。然而,這兩種"眼睛"說著不同的"語言"—激光雷達提供點云,相機呈現圖像。如何讓它們無縫溝通,成為感知系統的關鍵難題。傳統方法嘗試強行將兩種數據轉換到同一空間,卻因深度估計錯誤和投影變形而受限。ObjectFusion技術另辟蹊徑,它放棄了繁瑣的空間轉換,轉而在對象層面上構建了一座無需翻譯的橋梁。這種巧妙的融合方式,讓自動駕駛汽車的"眼睛"更加清晰,也讓感知世界的奧秘變得觸手可及。
![]()
感知雙眼困境
自動駕駛汽車需要清晰地"看見"周圍環境才能安全行駛。在這個過程中,激光雷達和相機成為自動駕駛系統的兩只"眼睛",它們各自發揮不同作用,也各有局限。激光雷達通過發射光脈沖來觀察環境,產生保留準確幾何信息的點云數據,不受光照條件影響。相機則拍攝RGB圖像,從不同角度捕捉物體豐富的紋理和語義信息,但在光線不足時表現欠佳。
這兩種傳感器提供的數據性質截然不同。激光雷達生成的是三維空間中的稀疏點集,而相機產生的是二維平面上的像素矩陣。要讓計算機同時理解這兩種數據并不容易,就像讓一個人同時聽懂兩種完全不同的語言一樣困難。
目前業界主要采用兩種方法來融合這些多模態數據。第一種是基于點的融合策略,如PointPainting和PointAugmenting。這類方法首先通過校準矩陣建立3D點和圖像像素之間的對應關系。隨后,將圖像投影到原始點空間,用相應的圖像特征或語義分數增強點。增強后的點進一步轉換為鳥瞰圖特征,用于3D檢測。
但這種基于點的融合只將點與圖像的一小部分關聯起來,未能充分利用圖像中豐富的語義信息。在nuScenes驗證集上,PointPainting達到了65.8%的平均精度(mAP),雖然比單一模態方法有所提升,但仍有很大改進空間。
第二種是基于鳥瞰圖(BEV)的融合方法,如TransFusion和BEVFusion。這類方法通過相機到BEV和激光雷達到BEV的轉換,將圖像和點云都投影到共享的BEV空間,形成增強的BEV特征進行目標檢測。
盡管這些方法在性能上有所突破,BEVFusion在nuScenes驗證集上達到了68.5%的mAP,但它們嚴重依賴現成的深度估計器(如LSS)來估計每個圖像像素的深度,以實現相機到BEV的轉換。這個估計過程不但復雜,而且容易出錯。任何不準確的深度估計都會導致共享BEV空間中圖像像素和點之間的空間錯位,進而影響目標檢測效果。
![]()
另一個問題是投影變形。圖像和BEV特征反映了兩種不同的數據特性:圖像是從不同視角捕獲的,而BEV特征是沿高度維度進行的自上而下聚合。因此,將圖像特征直接投影到BEV空間不可避免地會導致投影變形,破壞圖像內原有的語義結構。
在實際應用中,這些問題會導致檢測結果的不穩定。例如,在夜間場景下,BEV融合的mAP為42.8%,比ObjectFusion低3.2%,因為在光線不足的情況下,深度估計更加困難。
同樣,對于遠距離(>;30米)的物體,傳統方法的檢測精度顯著下降。TransFusion-L的mAP從近距離物體的77.5%下降到遠距離物體的34.8%。BEVFusion通過整合激光雷達點云特征與相機圖像特征,將這一差距縮小到39.4%,但仍有明顯的性能下降。
這些挑戰促使研究人員思考:是否可以在不需要復雜的跨模態轉換的情況下,實現多模態融合?
對象中心融合
面對這些挑戰,ObjectFusion開創了一種新的融合范式,徹底改變了多模態3D目標檢測的思路。與其強行將不同模態的數據轉換到同一空間,ObjectFusion選擇在每種模態中引入以對象為中心的表示,并根據物體的2D/3D邊界框空間對齊這些表示。
ObjectFusion的核心理念是在物體層面上統一不同模態的表示,而不是在特征層面上強行融合。這樣一來,就避免了在融合過程中進行跨模態轉換,從而解決了空間錯位和投影變形的問題。
具體來說,ObjectFusion首先從點云和圖像中生成三種特定模態的特征圖:體素特征、鳥瞰圖特征和圖像特征。點云通過體素編碼器轉換為規則的體素表示,每個體素都伴隨一個特征向量。這些體素特征再沿Z軸壓縮,轉換為二維特征圖,通過2D卷積網絡提取鳥瞰圖特征。同時,圖像通過Swin Transformer和FPN處理,生成圖像特征圖。
與傳統方法不同,ObjectFusion不會嘗試將圖像特征轉換到鳥瞰圖空間。相反,它利用熱圖基礎的提議生成器,基于鳥瞰圖特征生成一組3D物體提議。這個生成器首先預測一個類別特定的物體存在概率圖,然后選擇具有最高物體存在概率分數的位置作為初始3D物體查詢。為了消除聚集在同一物體的冗余提議,在選擇位置時使用峰值查找算法找到每個物體存在概率圖位置的局部最大值。
這些3D提議隨后被投影回體素、鳥瞰圖和圖像空間,以在不同空間中對齊以對象為中心的特征。對于每個提議,通過體素池化或RoI Align在各自空間中提取對象特征。這樣,來自三種模態的特征可以在對象層面上輕松對齊,無需復雜的跨模態轉換。
在體素空間中,ObjectFusion利用體素池化從體素特征中提取以對象為中心的特征。具體來說,體素池化將3D邊界框分為GGG個等間距的子體素,每個子體素的中心點被視為網格點。然后,對于每個網格點,在預定義半徑內尋找附近的體素,并將相應的體素特征整合到網格點中。所有網格點的特征最終連接起來,形成以對象為中心的體素特征。
![]()
在鳥瞰圖空間中,由于鳥瞰圖特征是2D特征圖,ObjectFusion借鑒2D RoI池化思想,采用RoIAlign提取以對象為中心的特征。技術上,3D邊界框的八個角首先投影到鳥瞰圖空間,忽略高度維度。然后找到一個能覆蓋所有八個角的最小軸對齊邊界框,作為3D邊界框的投影。RoIAlign將這個投影分為rr個等間距子區域,利用雙線性插值從鳥瞰圖特征中聚合相關特征到每個子區域。
在圖像空間中,ObjectFusion將3D提議投影到相機圖像平面,獲取2D邊界框。考慮到多個相機視角,需要決定使用哪個相機提取以對象為中心的特征。如果投影的角落都在所有相機視野之外,就放棄該物體的圖像特征。否則,選擇覆蓋最多投影角的圖像提取特征。
考慮到3D和2D空間之間的投影并非完美,傳感器可能存在錯位,ObjectFusion采用一個簡單而有效的RoI放大操作來緩解這種校準誤差。這一操作將圖像平面上投影的2D邊界框的尺寸翻倍,確保即使3D和2D空間不完全對齊,從圖像中提取的物體特征仍能包含感興趣的物體。
通過這種以對象為中心的表示方法,ObjectFusion成功地將三種不同模態的特征在物體層面上對齊,而無需復雜的跨模態轉換。實驗表明,這種方法在nuScenes驗證集上實現了69.8%的mAP,比BEVFusion高出1.3%。尤其在夜間場景和遠距離物體檢測方面,ObjectFusion表現出更高的魯棒性,這證明了該方法的有效性。
系統精巧搭建
ObjectFusion系統的架構設計堪稱精巧,就像一個精密的機械鐘表,每個齒輪都有其獨特的位置和功能。整個系統主要由三大組件構成:模態特定編碼器、對象中心融合模塊和檢測頭。這種設計讓系統能夠從激光雷達點云和相機圖像中提取豐富信息,并在對象級別上進行有效融合。
模態特定編碼器是系統的第一道關卡,負責從不同來源的原始數據中提取初級特征。對于點云數據,系統采用了流行的VoxelNet技術將不規則的點轉換為網格體素,每個體素都配有一個特征向量。隨后,3D骨干網絡堆疊多個稀疏卷積層,提取體素特征。這些體素特征再沿Z軸壓縮,通過2D卷積網絡提取鳥瞰圖特征。而對于圖像數據,系統使用Swin Transformer作為2D骨干網絡提取多尺度圖像特征圖,并通過FPN將多尺度特征圖融合為單一尺度特征圖。
在實際實現中,體素大小設為[0.075m, 0.075m, 0.1m],點云范圍為[-54m, -54m, -3m, 54m, 54m, 5m]。圖像輸入分辨率調整并裁剪為256704。這些精確的參數設置保證了系統能夠處理足夠大的空間范圍,同時保持合理的計算復雜度。
對象中心融合模塊是系統的核心創新部分。它不同于傳統的融合方法,避開了復雜的跨模態轉換,直接在對象級別上實現特征對齊和融合。這個模塊首先生成3D對象提議,然后將這些提議投影回體素、鳥瞰圖和圖像空間,通過體素池化或RoI Align提取對象中心特征。
值得特別注意的是RoI放大操作。傳統方法在將3D對象投影到2D圖像平面時常常面臨傳感器校準誤差問題,導致投影不精確。ObjectFusion通過簡單地將圖像平面上投影的2D邊界框尺寸翻倍,確保即使存在校準誤差,從圖像中提取的對象特征仍能包含目標對象。這個看似簡單的技巧實際上帶來了顯著的性能提升,在存在高達1.0米校準誤差的情況下,mAP僅下降了0.5%,顯示出極強的魯棒性。
![]()
模態特定上下文編碼器是另一個關鍵設計,它使用單層Transformer編碼器結構,讓同一模態中的對象特征能夠相互"交流",從而獲取更豐富的上下文信息。這種設計基于一個重要觀察:同一場景中的不同對象往往存在某種關聯,例如行人通常出現在道路兩側,而不是馬路中央。通過上下文編碼,系統能夠捕捉這種關聯,提高檢測準確率。
系統的兩階段融合方案也值得一提。在第一階段,系統通過模態特定上下文編碼器增強每個模態中的對象特征;在第二階段,針對每個對象提議,系統將三個模態中對應的增強對象特征連接起來,通過前饋網絡嵌入,獲得統一的對象特征。這種兩階段設計使系統能夠同時利用跨對象和跨模態的信息。
檢測頭是系統的最后一個組件,它采用基于解碼器的檢測模塊,預測對象類別和3D邊界框。與BEVFusion不同的是,ObjectFusion的檢測頭只關注查詢特征,因為這些特征已經由多模態信息增強。這種設計簡化了計算過程,同時保持了檢測性能。
在訓練策略上,ObjectFusion采用了兩階段訓練方法。第一階段只訓練激光雷達分支20個周期,第二階段用預訓練的激光雷達分支權重初始化整個多模態融合模型,繼續訓練6個周期。這種策略不僅加速了收斂過程,還提高了最終模型的性能。
系統在PyTorch框架上實現,基于開源的MMdetection3D和BEVFusion代碼庫。訓練時使用隨機翻轉、隨機旋轉、隨機平移和隨機縮放等數據增強技術,并使用CBGS重采樣訓練數據,同時在前15個周期中添加復制粘貼數據增強以減少過擬合。在訓練第二階段時,還額外使用隨機旋轉和隨機調整大小來增強圖像。所有訓練都在四臺NVIDIA V100 16G GPU上進行,批量大小分別為第一階段16,第二階段8。
性能全面領先
ObjectFusion系統在多項嚴格測試中展現出令人印象深刻的性能,在各種條件下都表現出顯著的優勢。最直接的證據來自nuScenes數據集上的測試結果:ObjectFusion在驗證集上達到了69.8%的mAP和72.3%的NDS,在測試集上達到了71.0%的mAP和73.3%的NDS,全面超越了所有已發表的多模態融合技術。
與單模態方法相比,ObjectFusion展現出明顯優勢。例如,與僅使用激光雷達的TransFusion-L(65.1% mAP)相比,ObjectFusion提高了4.7%的性能。這一巨大提升充分說明了多模態融合的價值,即利用不同傳感器之間的互補信息。
與其他多模態融合方法相比,ObjectFusion也具有顯著優勢。它比基于點的融合方法PointPainting(65.8% mAP)高出4.0%,比基于鳥瞰圖的融合方法TransFusion(67.3% mAP)和BEVFusion(68.5% mAP)分別高出2.5%和1.3%。這些差距在某些特定類別上更為明顯,例如在摩托車類別上,ObjectFusion達到79.4%的AP,比TransFusion高出4.0%。
![]()
在不同光照和天氣條件下的表現尤為突出。傳統上,這些變化是自動駕駛系統的一大挑戰。例如,僅使用激光雷達的CenterPoint在陽光和雨天場景下分別達到62.9%和59.2%的mAP,而在夜間場景下則銳減至35.4%。僅使用相機的BEVDet在夜間場景下更是只有13.5%的mAP。相比之下,ObjectFusion在陽光、雨天和夜間場景下分別達到了69.8%、70.1%和46.0%的mAP,表現出極高的魯棒性。特別是在夜間場景中,ObjectFusion比BEVFusion高出3.2%,這是因為在光線不足的情況下,深度估計更加困難,而ObjectFusion避開了對深度估計的依賴。
在不同距離和物體大小的測試中,ObjectFusion同樣表現出色。隨著物體距離增加,檢測難度也隨之增加。例如,TransFusion-L在近距離(0-20米)物體上達到77.5%的mAP,而在遠距離(>;30米)物體上則降至34.8%。BEVFusion通過整合激光雷達點云特征與相機圖像特征,將遠距離物體的mAP提高到40.0%。ObjectFusion進一步將這一數值提高到41.6%,展示了其在遠距離物體檢測上的優勢。類似地,對于小型物體,ObjectFusion達到53.0%的mAP,比TransFusion-L高出8.3%,比BEVFusion高出2.7%。
除了目標檢測外,ObjectFusion在3D多目標跟蹤任務上也表現出色。在nuScenes跟蹤基準測試中,采用與TransFusion相同的跟蹤算法(通過貪婪方式連接連續幀之間的物體),ObjectFusion在單一模型無測試時增強和模型集成的情況下,在AMOTA指標上達到74.2%,比TransFusion高2.4%,比BEVFusion高1.4%。這證明了ObjectFusion的通用性,不僅適用于目標檢測,也適用于多目標跟蹤。
對系統組件的消融研究進一步揭示了ObjectFusion設計的有效性。例如,當僅使用來自BEV、體素或圖像空間的對象中心特征時,系統分別達到68.8%、69.1%和69.3%的mAP。集成所有三種特征則將性能提高到69.8%,證明了這三種模態的互補性。類似地,模態特定上下文編碼器的使用將系統性能從69.3%提高到69.8%,驗證了利用對象間交互來增強對象中心特征的價值。
在計算效率方面,ObjectFusion在NVIDIA V100 GPU上的推理時間為每個樣本274毫秒,僅比BEVFusion(257毫秒)慢一點點。考慮到ObjectFusion帶來的性能提升,這種微小的計算開銷是完全可以接受的。而且,目前的實現中對象中心特征是順序提取的,未來可以通過并行化這一過程來加速推理。
ObjectFusion還展示了在其他數據集上的泛化能力。在Waymo開放數據集上,ObjectFusion達到66.3%的L2 mAPH,比TransFusion高0.8%。考慮到Waymo數據集中的點云明顯比nuScenes密集,僅通過激光雷達解決方案就能獲得更準確的檢測,多模態融合帶來的改進相對較小,ObjectFusion仍然取得了不錯的性能提升。
![]()
結合所有這些測試結果,ObjectFusion不僅在總體性能上領先,還在各種挑戰條件下都保持了穩定的優勢,充分證明了其作為多模態3D目標檢測新范式的價值。
參考資料
Qi Cai, Yingwei Pan, Ting Yao, Chong-Wah Ngo and Tao Mei. "ObjectFusion: Multi-modal 3D Object Detection with Object-Centric Fusion." ICCV 2023.
Liu, H., Tang, Y., and Lin, Q. "BEVFusion: Multi-Modal 3D Object Detection via Bird's-Eye View Fusion."
Vora, S., Lang, A.H., Helou, B. et al. "PointPainting: Sequential Fusion for 3D Object Detection."
Caesar, H., Bankiti, V., Lang, A.H. et al. "nuScenes: A multimodal dataset for autonomous driving."
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.