輔助駕駛里面到底用純視覺,還是激光雷達,是個既陳舊又新鮮的話題。2022年特斯拉成為堅定的視覺派,大多數(shù)國內(nèi)車企站在他的對面。到了2024年,有些已經(jīng)推出多款搭載激光雷達產(chǎn)品的品牌,開始轉(zhuǎn)而推純視覺產(chǎn)品。今年3月之后,好像這個“燒餅”又翻過來了,激光雷達派又開始占優(yōu)。
看似折騰,實則和掌握的技術(shù)階段(算力和算法、傳感器的技術(shù)水平)有關(guān)系。因此可以預(yù)見,這個話題還將持續(xù)下去,直到?jīng)]有明顯的技術(shù)瓶頸。
機器學(xué)習(xí)的四階段
先要澄清一下,不存在“純視覺 PK激光雷達”這個對決關(guān)系。沒有哪一輛車只裝了激光雷達不裝攝像頭。激光雷達定位就是打輔助的角色。所以合適的對壘雙方,應(yīng)該是純視覺VS視覺+激光雷達。
乍一看,后者的傳感器組合多了一個“幫手”,就像二郎神有三只眼一樣,多少會對眼神有幫助吧。不過問題比“乍一看”要麻煩得多。
![]()
最初像Waymo嘗試做L4、L5一步到位的企業(yè),測試車上都頂著“花盆”——昂貴的機械旋掃雷達,價格當時高達10萬美元,比街上跑的絕大多數(shù)車都貴。當時不僅是攝像頭能力不行的問題,而在于當時的算法認知,還停留在“專家學(xué)習(xí)系統(tǒng)”層面,就是將知識和規(guī)則,用算法的方式定好,交給機器去執(zhí)行。
后來往前走了一步,簡稱為“特征工程”。就是將特征提取出來,交給機器去學(xué)習(xí)。這和人開車的思路,開始有點像了,因為人類天生對變化特別敏感。比如顏色、形狀、大小、位置變了,對注意力影響大。注意力機制也是構(gòu)建AI架構(gòu)的靈感來源。人傾向于將車窗外的場景變化,簡化為“可駕駛”、“不可駕駛”兩種狀態(tài),再疊加常識(運動推斷)和交通規(guī)則,決定駕駛行為。
到了第三階段,即“機器學(xué)習(xí)”,可以直接將原始數(shù)據(jù)和少數(shù)標簽交給機器,讓機器自己學(xué)習(xí)特征。這一階段,AI取得了驚人的發(fā)展。機器在圖像(語音)識別、分類能力上開始超過人類。
這個時候,特斯拉發(fā)明了一個算法,叫“Occupancy NetWork”(占用網(wǎng)絡(luò))。簡單說,就是將運動路徑上三維空間虛擬切割無數(shù)立體小方塊,如果檢測到某個小方塊被占用,還分為移動和非移動,那么就可以規(guī)避。不會出現(xiàn)以前那種、只有識別出是啥東西才能響應(yīng)的弊端。以前特斯拉有過無視翻倒的貨車、突然出現(xiàn)的牛等“非結(jié)構(gòu)性”障礙等負面案例。
這一技術(shù)是特斯拉走純視覺路線的最大底氣。不過馬斯克說,既然人能用兩只眼開車,純視覺就沒什么問題。
這屬于偷換概念。原因在于,機器尚未達到第四階段,即機器可以像人一樣感知和理解世界;像人一樣在幾乎所有環(huán)境當中進行學(xué)習(xí)和適應(yīng),即實現(xiàn)“通用人工智能”。因此,純視覺至少現(xiàn)在還比人的能力低。
純視覺不如人眼,問題在于大腦
這種前提下,討論AEB(主動剎車)的速度上限,其實沒有太大價值。可以理解為商業(yè)話術(shù)。
純視覺劣于人的能力,已經(jīng)不再是“眼神”(也就是傳感器能力)問題。人的大腦,出生時自帶一個模型,準確說只有一個模型框架,數(shù)據(jù)量非常少。比如出生3個月的嬰兒,視覺已經(jīng)沒大問題(能感知5米外的物體,但缺乏細節(jié)),從未見過蛇。當其見到蛇的視頻之后,表現(xiàn)出明顯不安——瞳孔收縮、肢體語言僵硬、哭鬧等。這就是模型殘留的少量參數(shù)。大量參數(shù)都是后天習(xí)得,而且在此過程中(0-3歲),人類裁剪了大量不活躍的腦神經(jīng)連接——代價是人喪失了這段時間的長期記憶。
相對人的能力,智能機器很難預(yù)測行為的所有潛在后果。其行為經(jīng)常出現(xiàn)“不可解釋”的現(xiàn)象,因為它缺乏人類的經(jīng)驗。任何形式化的方法,不可能為所有對象和行為建立模型。比如,如何與其他智能體互動、合作,并預(yù)料到會導(dǎo)致什么。機器智能仍有重大缺陷。這不是訓(xùn)練量可以解決的。
![]()
端到端的中間結(jié)果,往往不可解釋。對這類不可控的可能性,我們都是直接上硬規(guī)則來做兜底約束。比如,告訴機器,不管如何動作,絕對不能闖紅燈。但是救護車、消防車就可以在確認安全前提下闖紅燈。為了避免規(guī)則的復(fù)雜化,應(yīng)用場景必然受限。
所以,盡管攝像頭對于強光、照度快速變化、低照度、視線受阻(雨雪霧風(fēng))的應(yīng)對能力提高了很多,但大問題在腦子里(算力和算法),因此也別指望當前階段純視覺能夠替代人。
激光雷達是個好輔助嗎?
這個時候,外掛(激光雷達)再度有了用武之地。預(yù)測能力不行沒關(guān)系,真實世界是三維的,純視覺的本質(zhì)是三維世界的投影(二維圖像)。缺少的信息維度(深度),激光雷達直接測得。而且,視覺是被動接受光信號,光線的影響不可控。其實人眼也有這個問題,同樣一輛車,夜晚和白天看起來可能完全不同。激光雷達是主動照射,不受可見光影響。
視覺感知的是顏色和亮度,激光雷達感知的是輪廓。對同一輛車,外形輪廓往往更穩(wěn)定,而顏色和亮度,在不同光線下是不穩(wěn)定的。理論上,激光雷達測得的數(shù)據(jù)更可信。
但是,激光雷達的成本雖然壓下來了(仍然比攝像頭貴15倍),但激光雷達的缺陷也與其主動工作方式有關(guān)。距離遠了,激光的發(fā)散角擴大,能量密度降低很快(和距離的平方成反比衰減)。
![]()
目前的技術(shù)水平,光照好的時候,對200米以外的物體,192線激光雷達可以獲得的信息,其實不如800萬像素的攝像頭。這樣的條件下,純視覺算法可以輕易識別出類型,但視覺+激光雷達,花費大量算力處理點云-圖像融合數(shù)據(jù),結(jié)果辨識能力反而不如純視覺。
一線的技術(shù)高管告訴我們,和刻板印象相反,激光雷達對天氣非常敏感。如果不是特別大的雪,不會過于遮擋視線(人類大腦和視覺算法都會自動濾除),但這些半透明的小玩意,會在激光雷達幾米處形成一團噪點,很難穿透雪花這種本該無視的障礙物。
真正能無視各種極端天氣的,其實是毫米波雷達(波長:毫米波>攝像頭>激光雷達),因為波長越長,繞射性越好。但也因為這一點,毫米波雷達的精度相當感人,無法精確測距。
實際應(yīng)用中,激光雷達會掃射到很多物體,產(chǎn)生很多回波(多徑效應(yīng)),信號混疊在一起,給辨識帶來困難。激光雷達處理的幀率,遠不及攝像頭。低幀率看遠距離的高速物體,誤差比攝像頭大。這其實是算力的鍋。激光雷達的信息密度大,無用信息多,吃算力也多。
也因為這些缺陷,激光雷達不能單獨挑大梁,只用來補盲。這樣一來,問題就變成激光雷達只作為特殊條件下輔助,值不值得。所謂特殊條件,低照度、簡單路況、高速行駛,即攝像頭看不了太遠,但又需要系統(tǒng)提供較長“接管窗口”的時候,激光雷達是不錯的補盲手段。
碰到這樣的場景, 純視覺輔助的駕駛者,想確保安全,有兩種選擇:一種是使用輔助駕駛,速度放慢(低照度時必須降至100公里時速以下),給可能的接管留出5~10秒的時間;另一種選擇是人工開,不進入輔助駕駛。
激光雷達能解決類似的困境。綜合成本貴上1~2萬。何去何從,可以自己選擇了。無論如何,理智的駕駛者會避免自身處于危險邊緣。激光雷達的確能在某些場景帶來更大的自由度。
當然,如果天氣過于極端,如果多數(shù)人不敢出行的天氣(比如超級大風(fēng)、大雪大雨等),建議靠邊等待,而非仰仗輔助駕駛,行人所不能之事。
如此看來,將兩種不同適應(yīng)寬度、不同成本的方案放在一起互掐,即便形成了結(jié)論,也要加繁瑣的限定條件。而且,隨著技術(shù)的發(fā)展,結(jié)論可能改變。
比如算力變得廉價,根本不在乎激光雷達吃掉一部分,或者濾波算法可以解決各種融合問題,能處理的極端場景也會增加。未來也可能出現(xiàn)其他傳感器,低成本下實現(xiàn)更寬泛的視覺+3D測量,但至少目前我們還看不到。
注:圖片部分來源網(wǎng)絡(luò),如有侵權(quán),聯(lián)系刪除。
風(fēng)阻爭端,關(guān)于工程問題更為復(fù)雜
L3,今年真能商業(yè)化嗎關(guān)稅大戰(zhàn),裂解了全球汽車價值鏈
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.