[首發于智駕最前沿微信公眾號]最近在一篇討論高精度地圖的文章中,有位小伙伴提到一個非常有趣的觀點“如果人在陌生的目的地,只依托純視覺(眼睛)去辨別道路,若沒有導航,就只能摸瞎”。對于純視覺自動駕駛來說,是否也是如此?
![]()
圖片源自:網絡
人和機器用“視覺”導航的差異
在討論這個話題前,先簡單聊聊什么是“純視覺”。所謂“純視覺”,就是只用攝像頭(單目或多目)來完成感知的方案。不管是把圖像直接送入一個端到端的神經網絡輸出控制指令,還是把圖像先做目標檢測/語義分割/深度估計再走傳統規劃,這類方案都強調將攝像頭作為主傳感器,甚至唯一的傳感器。
攝像頭的優勢其實很明顯,其信息豐富(顏色、紋理、文字、標志),成本低,分辨率高,便于人工標注和語義理解。但攝像頭對光線敏感、受能見度影響大、難以直接測量精確距離與速度(尤其是遠距物體)。
![]()
圖片源自:網絡
如果一個人在陌生城市,只有雙眼和一輛車,確實會覺得“瞎摸”,但人并非只靠眼睛去辨別路況。人有長期記憶(熟悉的街區)、語言社交能力(問路)、抽象推理(理解路牌、交通規則)、以及對場景的常識推斷(哪條路更可能通向城中心)。人還能容忍不確定性并主動采取探測行為(減速、靠邊觀察、試探轉彎)。
機器要復制這些能力,光靠一幀圖像是不夠的,但連續的視頻、多時序推理、學習到的場景模型以及外部信息(如高清地圖、定位)可以代替人類的記憶與推理能力。簡而言之,人類在陌生城市走路,若沒有導航,并不僅是純視覺,而是會有多種信息融合和主動探索,這也正是自動駕駛中會采用多傳感器、多信息源來補償攝像頭不足的原因。
純視覺能做到什么?
純視覺的作用不容小覷,很多車企都圍繞成視覺方案,開發出自動駕駛系統。借助深度學習,攝像頭其實可以做很強的語義理解,完成識別車輛、行人、交通標志和信號燈,判斷車道線,分割出可通行區域等任務。
通過時序信息(連續幀)和已學得的運動模型,可以估計自車的運動(視覺里程計/VO)和相對深度(單目深度估計或雙目/立體匹配)。把這些能力組合起來,純視覺系統可以在相對良好的光照、天氣條件下完成感知-預測-規劃閉環,尤其是在結構化環境(如高速公路、城市主干道)和限定的操作設計域(ODD)內表現會非常不錯。
但是純視覺能做到并不意味著純視覺可以完全替代其他傳感器,攝像頭在夜間或極低照度環境、強逆光、雨雪霧等能見度差的天氣、反光或平坦無紋理表面(比如大面積光滑地面或光禿的雪面)、遮擋嚴重的復雜交叉口和遠距離小物體的預警(比如遠處突然出現的行人或小型車輛)等場景下表現不盡如人意。
![]()
圖片源自:網絡
單目相機還存在尺度不確定性的問題(即僅靠圖像難以知道物體絕對距離),雖然借助運動恢復結構或學習可以部分解決,但精度、魯棒性與雷達/激光雷達相比仍有差距。此外,攝像頭對光學欺騙(比如反射、投影、極端對比)比較敏感,容易被異常光照或極端場景“迷惑”。這些局限會直接關系到安全冗余的設計,當感知變得不可靠時,系統必須要么降級(限制速度、主動停車),要么需依賴其他傳感器。
其實現在很多技術方案中都是采用“冗余與互補”的策略。攝像頭擅長語義與長距離視覺細節,毫米波雷達擅長在雨雪霧中測量相對速度并具備穿透性能,激光雷達在構建精確三維幾何上更可靠。
多數成熟的自動駕駛系統會選擇多傳感器融合以覆蓋更廣的ODD。當然,也有技術方案一致在推動“攝像頭主導”或“攝像頭優先”的路線,靠大量場景數據訓練、嚴格限制運行域并設計詳盡的降級策略來保證安全。
純視覺能否替代地圖和定位?
回到今天的主題,其實這位小伙伴強調是導航(地圖)對于純視覺的重要性。地圖和定位解決的是“我在哪兒”和“目標在那里”的問題。純視覺可以進行相對定位(通過視覺里程計或視覺SLAM),甚至可以做基于圖像匹配的全局定位(視覺定位/視覺數據庫檢索)。
但想真正將自動駕駛應用到車輛上,絕對定位是必不可少的,絕對定位(高精GNSS、車輛坐標在地圖上的精確投影)在諸如狹窄車道、復雜交叉口和需要精確軌跡跟蹤的場景中會起到關鍵性作用。
![]()
圖片源自:網絡
地圖(尤其是輕量級矢量地圖或路網信息)給規劃提供的其實是語義與先驗信息,它能顯著減少在線推理的負擔并提高安全邊界。純視覺可以替代一部分地圖功能,但要做到在任何場景下不用地圖、只靠攝像頭安全行駛,是非常困難的。
既然純視覺可以替代一部分的地圖功能,那如何將其能力推到極限?現在其實有多個方案,在推動這一想法。自監督深度與視覺里程計算法能在沒有密集標注的情況下學到深度和運動;多視角與時序融合能改善遠距深度估計;利用神經場景表示(如NeRF類思想)或大模型的視覺理解可以讓系統在見過類似場景時更好地推斷未觀測的部分;此外,把攝像頭輸出轉換為BEV表示、與軌跡預測結合、并在規劃層引入不確定性建模,能讓純視覺系統的決策更可靠。
最后的話
純視覺并不是萬能的,但能力不容小覷,其在語義理解和成本效益上有明顯優勢,在受控場景中可以承擔很大一部分工作;但在面對極端光照、惡劣天氣、遠距預警和絕對定位需求時,攝像頭的物理和算法局限依然明顯。智駕最前沿以為,智駕安全不是僅靠單一感覺,而是需要靠多源信息與嚴謹的工程來保證。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.