[首發(fā)于智駕最前沿微信公眾號(hào)]自動(dòng)駕駛的實(shí)現(xiàn)離不開各類傳感器的支持,其中純視覺方案成為很多技術(shù)方案的選擇,但由于攝像頭無(wú)法感知到環(huán)境深度信息,因此有部分技術(shù)方案提到了“深度相機(jī)”的技術(shù)。深度相機(jī),指的是那些除了拍顏色(RGB)以外,還能直接或間接給出“每個(gè)像素到攝像頭距離”信息的傳感器。簡(jiǎn)單理解就是,普通相機(jī)告訴你“這像素看起來(lái)是什么顏色、有什么紋理”,而深度相機(jī)還會(huì)告訴你“這點(diǎn)離車有多遠(yuǎn)”。正因?yàn)樵谧詣?dòng)駕駛里,知道距離比知道顏色更重要,車輛要判斷碰不碰得上、要多早剎車、怎樣規(guī)規(guī)劃路徑等都要依賴深度信息或與其它傳感器融合后的三維感知結(jié)果。
深度相機(jī)常見的三種工作原理
深度相機(jī)的形式很多,常見的有基于兩個(gè)鏡頭的立體相機(jī)(stereo camera)、投影結(jié)構(gòu)光或編碼光的相機(jī)、以及飛行時(shí)間(Time-of-Flight,ToF)相機(jī)。它們產(chǎn)生的深度表示通常是一張“深度圖”(depth map)或者稀疏的點(diǎn)云,與激光雷達(dá)(LiDAR)產(chǎn)生的點(diǎn)云在用途上有交集,但在原理、精度、成本和適用場(chǎng)景上都有明顯差別。
1)立體視覺(Stereo)
立體視覺的思路就是模仿人眼。把兩臺(tái)同類的彩色或黑白相機(jī)同框安裝,它們之間有一個(gè)固定的“基線”(baseline,兩個(gè)鏡頭中心之間的距離)。當(dāng)看到同一場(chǎng)景時(shí),圖像中的同一個(gè)物體點(diǎn)在兩幅圖像上的橫向位置會(huì)有差異,這個(gè)差異叫做視差(disparity)。通過(guò)已知的基線長(zhǎng)度和攝像頭的內(nèi)外參,視差可以反算成深度(距離)。
![]()
車載攝像頭 圖片源自網(wǎng)絡(luò)
立體法的關(guān)鍵在于“匹配”,算法要在左右圖像里準(zhǔn)確找到同一像素對(duì)應(yīng)的點(diǎn);匹配困難的地方包括無(wú)紋理表面、重復(fù)紋理、強(qiáng)反光或遮擋區(qū)域等場(chǎng)景。立體視覺的優(yōu)勢(shì)是可以用普通相機(jī)硬件實(shí)現(xiàn),成本低、像素高,理論上分辨率和范圍可以通過(guò)更大基線、更高分辨率相機(jī)提升;但其劣勢(shì)就是對(duì)光照、紋理和計(jì)算資源敏感,長(zhǎng)距離深度精度退化較快。
2)結(jié)構(gòu)光與編碼光
這類方法在場(chǎng)景中投射已知的光學(xué)圖案(例如條紋、點(diǎn)陣或其他編碼圖形),然后用相機(jī)觀察圖案在物體表面的變形,從變形情況反推出深度。結(jié)構(gòu)光在如人體建模、人臉識(shí)別設(shè)備(早期的結(jié)構(gòu)光人臉識(shí)別器)等近距離應(yīng)用里非常常見。其優(yōu)點(diǎn)是近距離精度高,且因?yàn)橄到y(tǒng)自己提供“紋理”,因此對(duì)紋理依賴小。其缺點(diǎn)是對(duì)環(huán)境光敏感,在強(qiáng)陽(yáng)光下投影圖案容易被淹沒,導(dǎo)致深度失敗。結(jié)構(gòu)光僅適合短到中距離(幾厘米到幾米)的應(yīng)用場(chǎng)景,若擴(kuò)展到行車所需的幾十米就會(huì)遇到功率、可見性和安全性的問(wèn)題。
3)飛行時(shí)間(ToF)
ToF相機(jī)通過(guò)測(cè)量光從傳感器發(fā)出、到物體反射、再返回傳感器所需的時(shí)間來(lái)算距離。常見實(shí)現(xiàn)有脈沖ToF和相位ToF兩類。脈沖ToF直接測(cè)量脈沖往返時(shí)間,原理簡(jiǎn)單但要求高速電子。相位ToF發(fā)出連續(xù)調(diào)制的光信號(hào),測(cè)量發(fā)射與接收信號(hào)之間的相位差來(lái)估算距離,這在短至中距離里更常見。
ToF的優(yōu)點(diǎn)是能直接得到每個(gè)像素的深度,實(shí)時(shí)性好、算法復(fù)雜度低于立體匹配;缺點(diǎn)包括多徑干擾(光在場(chǎng)景中多次反射導(dǎo)致的誤讀)、對(duì)強(qiáng)光敏感(陽(yáng)光含大量紅外會(huì)提升噪聲)、以及范圍和分辨率受限。工業(yè)級(jí)ToF可以做到幾十米的量級(jí),但在車用場(chǎng)景里,要兼顧分辨率、幀率和抗日照能力仍然需要工程折中。
除了這三種之外,還有一些混合方案和更靠近LiDAR的固態(tài)“閃光式”測(cè)距設(shè)備。但單純依靠單目RGB相機(jī)做“深度估計(jì)”的方法(基于學(xué)習(xí)的單目深度估計(jì))嚴(yán)格來(lái)說(shuō)不是深度相機(jī),而是用算法從單張圖像推斷深度的技術(shù);這樣的深度通常是相對(duì)的、帶有尺度不確定性或需要額外約束校準(zhǔn),只能將它當(dāng)作補(bǔ)充而不是可信賴的主深度源。
深度相機(jī)與普通相機(jī)的關(guān)鍵區(qū)別
普通相機(jī)輸出的是亮度和顏色信息,也就是每個(gè)像素的RGB值;深度相機(jī)除了這些(有時(shí)深度相機(jī)本身也能輸出RGB)之外,還輸出與攝像頭之間的距離信息。深度數(shù)據(jù)直接給出三維幾何信息,使得后續(xù)的檢測(cè)、跟蹤、避障和定位變得更直接;普通相機(jī)則需要依賴視覺算法(比如通過(guò)特征匹配、結(jié)構(gòu)從運(yùn)動(dòng)或單目深度估計(jì))來(lái)間接獲得距離。
![]()
圖片源自網(wǎng)絡(luò)
普通相機(jī)的設(shè)計(jì)追求高分辨率、寬動(dòng)態(tài)范圍和低噪聲的圖像采集,傳感器以記錄光子數(shù)為主。深度相機(jī)的硬件則要額外設(shè)計(jì)光源(結(jié)構(gòu)光、ToF)或雙攝同步與高精度時(shí)鐘(ToF)以及在某些系統(tǒng)中更嚴(yán)格的機(jī)械安裝精度(立體需要精確的基線和標(biāo)定)。這意味著深度相機(jī)往往在功耗、復(fù)雜度和成本上高于單純的普通相機(jī),雖然基于兩個(gè)普通相機(jī)的立體系統(tǒng)可以在成本上有優(yōu)勢(shì),但對(duì)計(jì)算和標(biāo)定提出了更高要求。
深度圖通常也是單通道的浮點(diǎn)或整數(shù)距離數(shù)據(jù),需要與相機(jī)內(nèi)參轉(zhuǎn)換成三維點(diǎn)云或用于后續(xù)的感知模塊。普通相機(jī)的數(shù)據(jù)更適合直接送入目標(biāo)檢測(cè)、語(yǔ)義分割等視覺網(wǎng)絡(luò)。深度數(shù)據(jù)和RGB數(shù)據(jù)各有長(zhǎng)處,RGB擅長(zhǎng)識(shí)別類別和外觀,深度擅長(zhǎng)提供幾何信息,因此在自動(dòng)駕駛系統(tǒng)里,常見做法是把兩者融合,用RGB做識(shí)別,用深度做定位與幾何推理。
此外,立體視覺在暗光或無(wú)紋理時(shí)會(huì)失效;結(jié)構(gòu)光在強(qiáng)光下會(huì)被淹沒;ToF在直射陽(yáng)光或存在強(qiáng)紅外光源時(shí)噪聲會(huì)上升。普通相機(jī)在寬動(dòng)態(tài)場(chǎng)景下也有挑戰(zhàn),但可以通過(guò)曝光控制、HDR等手段改善。總之,不同傳感器在不同環(huán)境下各有盲區(qū),這正是為什么自動(dòng)駕駛系統(tǒng)要用相機(jī)、雷達(dá)、激光雷達(dá)等多傳感器融合的原因。
深度相機(jī)的缺點(diǎn)有哪些
由于深度相機(jī)能讓機(jī)器直接看到三維世界,很多人感覺其可以直接替代激光雷達(dá),但事實(shí)并非如此。深度相機(jī)的確能帶來(lái)如立體感知、精準(zhǔn)測(cè)距、三維建模等很多好處,但它也有不少短板,尤其是在車載這種復(fù)雜場(chǎng)景下,更是要各種“妥協(xié)”和“取舍”。
![]()
圖片源自網(wǎng)絡(luò)
先說(shuō)最典型的一個(gè)問(wèn)題,那就是距離和精度的矛盾。立體視覺靠的是“視差”原理,簡(jiǎn)單來(lái)說(shuō)就是兩個(gè)攝像頭看到同一個(gè)物體的角度差來(lái)計(jì)算深度。問(wèn)題是,距離越遠(yuǎn),角度差就越小,計(jì)算的誤差就越明顯。你想要讓遠(yuǎn)處也測(cè)得準(zhǔn),就得拉大兩個(gè)攝像頭之間的距離,或者提高圖像分辨率。但拉太開安裝位置受限,還容易被遮擋;分辨率太高又增加算力負(fù)擔(dān)和成本。ToF(飛行時(shí)間)相機(jī)在近距離表現(xiàn)不錯(cuò),但想讓它測(cè)得遠(yuǎn)、看得清,就得用更復(fù)雜的光源和接收器,功耗、熱量、成本全都往上飆。至于結(jié)構(gòu)光,在汽車這種強(qiáng)光、遠(yuǎn)距離的環(huán)境里幾乎“吃不開”,更多是短距應(yīng)用。
還有就是環(huán)境光和物體表面的問(wèn)題。不管是哪種原理的深度相機(jī),本質(zhì)上都要依賴光線的反射。現(xiàn)實(shí)世界里的光照條件可比實(shí)驗(yàn)室復(fù)雜多了。陽(yáng)光太強(qiáng)會(huì)把信號(hào)淹沒,雪地的反光能“晃瞎”傳感器,金屬表面、玻璃、濕滑路面這些都能讓測(cè)量結(jié)果亂成一團(tuán)。ToF可能會(huì)被多次反射的光干擾,導(dǎo)致算出錯(cuò)誤的距離;結(jié)構(gòu)光在透明或鏡面物體上會(huì)出現(xiàn)形變;立體相機(jī)在一大片沒有紋理的區(qū)域,如在光滑車門或者天窗上,根本找不到對(duì)應(yīng)點(diǎn)。更別提下雨、下雪、起霧、夜間燈光這些情況了,都是深度相機(jī)的“敵人”。
深度圖的分辨率也是一個(gè)老大難問(wèn)題。很多車用深度相機(jī)輸出的深度圖其實(shí)挺“糙”的,點(diǎn)比較稀疏,還容易帶噪聲。相比清晰的RGB圖像,深度圖往往細(xì)節(jié)不足,這在識(shí)別細(xì)小物體或復(fù)雜邊緣時(shí)會(huì)出麻煩。雖然可以用算法補(bǔ)全或者把深度和RGB結(jié)合來(lái)提升效果,但那也意味著要消耗更多算力。
立體視覺需要大量計(jì)算來(lái)匹配圖像,尤其是高分辨率、高幀率的時(shí)候,對(duì)處理器的壓力特別大。ToF雖然直接輸出深度信息,但為了讓結(jié)果更干凈,還要做多頻信號(hào)解碼、噪聲過(guò)濾、多路徑校正,這些都比較耗費(fèi)資源。車載系統(tǒng)的算力和功耗都有限,所以必須在精度、幀率和實(shí)時(shí)性之間找平衡。
還有一個(gè)很現(xiàn)實(shí)的問(wèn)題,那就是標(biāo)定和穩(wěn)定性。深度相機(jī)其實(shí)特別“嬌氣”,尤其是立體視覺那種。兩個(gè)攝像頭的角度、位置稍微有點(diǎn)偏差,測(cè)出來(lái)的深度就會(huì)跑偏。汽車在行駛過(guò)程中會(huì)有震動(dòng)、溫度變化、甚至輕微碰撞,這些都會(huì)影響標(biāo)定結(jié)果。ToF相機(jī)也怕溫漂,需要做溫度補(bǔ)償,否則數(shù)據(jù)會(huì)飄。為了保持準(zhǔn)確,就得設(shè)計(jì)堅(jiān)固的支架、加上定期標(biāo)定,甚至用算法實(shí)時(shí)校準(zhǔn)。
此外,深度相機(jī)還有個(gè)天然的限制,它只能“看見”眼前的東西。被擋住的物體,它完全無(wú)能為力。比如車旁邊的低矮障礙物、角落里的行人,只要被遮擋了,深度相機(jī)就測(cè)不到,這也是為什么自動(dòng)駕駛技術(shù)上從來(lái)不會(huì)只靠深度相機(jī)。它更像是輔助感知的一環(huán),用來(lái)填補(bǔ)其他傳感器的空白。
理論上,立體相機(jī)用兩顆普通鏡頭就能實(shí)現(xiàn)深度感知,看起來(lái)挺劃算。但要真正上車,事情就變復(fù)雜了。你得考慮它的防塵、防水、抗震,還得通過(guò)車規(guī)認(rèn)證、EMC測(cè)試、熱設(shè)計(jì)驗(yàn)證……這些都要花錢。而且深度相機(jī)出來(lái)的數(shù)據(jù)量大,對(duì)后端處理單元要求也高,算力芯片、數(shù)據(jù)傳輸、冗余設(shè)計(jì)全都得配齊。ToF和結(jié)構(gòu)光更貴,還涉及主動(dòng)光源、安全認(rèn)證等問(wèn)題。要在整車上集成好,不僅費(fèi)錢,還費(fèi)腦。
所以說(shuō),深度相機(jī)確實(shí)有它的厲害之處,但也沒那么“完美”。它能提供直觀的空間信息,是視覺體系的重要補(bǔ)充,但想讓它單獨(dú)承擔(dān)自動(dòng)駕駛的感知任務(wù),還遠(yuǎn)遠(yuǎn)不夠。真正成熟的方案,都是多傳感器融合,讓深度相機(jī)、雷達(dá)、激光雷達(dá)、普通相機(jī)各司其職,互相補(bǔ)短。只有這樣,車輛才能在復(fù)雜環(huán)境里既“看得清”,又“看得穩(wěn)”。
什么時(shí)候用深度相機(jī),怎樣組合其它傳感器
在自動(dòng)駕駛系統(tǒng)設(shè)計(jì)中,選擇深度相機(jī)還是其他傳感器,取決于任務(wù)、場(chǎng)景和成本。近距離低速場(chǎng)景(比如自動(dòng)泊車、駕駛員監(jiān)控、車內(nèi)交互)非常適合ToF或結(jié)構(gòu)光,因?yàn)檫@些場(chǎng)景對(duì)短距精度要求高,環(huán)境相對(duì)可控。需要高分辨率幾何信息以做精細(xì)定位或障礙物邊界判斷時(shí),立體視覺搭配高分辨率相機(jī)是個(gè)劃算的選擇,但必須配合強(qiáng)大的視差計(jì)算和可靠的在線校準(zhǔn)。
![]()
圖片源自網(wǎng)絡(luò)
對(duì)于高速公路或遠(yuǎn)距感知,激光雷達(dá)和毫米波雷達(dá)仍然是主力。激光雷達(dá)的遠(yuǎn)距分辨率和精度,以及毫米波雷達(dá)對(duì)惡劣天氣的魯棒性,都是光學(xué)深度相機(jī)難以完全替代的。此時(shí)深度相機(jī)作為幾何感知的補(bǔ)充,把RGB相機(jī)、深度相機(jī)、雷達(dá)與激光雷達(dá)的數(shù)據(jù)融合在一起,取各自的強(qiáng)項(xiàng)來(lái)覆蓋彼此的弱點(diǎn)。比如用深度圖快速篩選近距障礙物,用RGB做語(yǔ)義識(shí)別,用雷達(dá)做速度估計(jì)和惡劣天氣下的穩(wěn)定探測(cè),用激光雷達(dá)做遠(yuǎn)距精確定位。深度相機(jī)還能降低某些計(jì)算負(fù)擔(dān):在已知深度的區(qū)域,很多視覺算法可以避開昂貴的三維重建步驟,直接在深度空間做決策。
當(dāng)然,還有很多實(shí)際細(xì)節(jié)要考慮,傳感器放置位置與視場(chǎng)覆蓋、傳感器同步與時(shí)間戳精度、數(shù)據(jù)帶寬與壓縮策略、在線去噪與異常檢測(cè)、在不同光照/天氣下的退化檢測(cè)與降級(jí)策略、以及冗余與故障切換機(jī)制。這些都是把深度相機(jī)從實(shí)驗(yàn)室?guī)У杰囈?guī)產(chǎn)品化時(shí)必須解決的問(wèn)題。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.