與去年信心滿滿相比,7月23日,在封閉高速路段上,懂車帝對36款“智駕”車型進行了多個特殊場景測試,包括“高速施工”、“匝道遭遇野蠻加塞”、“橫穿的豬”等,毫無意外,這都屬于長尾場景。雖然關于豬的測試通過率最低(竄入高速的豬是典型的“非結構化”對象,通常沒可能訓練到),但“消失的前車”引發共鳴最多。大概因為這種場景很多人經歷過,因為驚險,所以印象深刻。
AEB與高速NCA的沖突
按照懂車帝的設定,測試車(以下稱“本車”)以時速120 km/h跟隨前車行駛,前車突然向左變道躲避本車道事故車,猝不及防的本車,需要在極短時間內完成感知-決策-執行閉環。36輛車,只有5輛車成功做出了規避動作。
這一測試,當然是不嚴謹的——因為每輛車面臨的場景條件變量不一致。有的車測試時左車道是空的(后車稍遠),有規避空間;有的車面臨左道被占,很難繞行。這就造成了結果可信性不高。盡管如此,結果仍然有一定參考價值。就像懂車帝自己說的,重要的不是第幾,而是人是否安全。
“消失的前車”,場景設置非常有技巧,它恰好擊中了智駕系統薄弱的結合部——AEB(自動緊急制動)和高速NCA(導航輔助駕駛)的沖突問題,不管品牌方是否將兩個功能融合在一起。
在感知層,本車需要識別左側車流與突然出現的前方靜止障礙的雙重威脅;決策層需要做出決定,變入左道車流空檔內,還是強力制動;執行層則需要AEB和NCA協同。
實際測試中,多車出現嚴重失誤。懂車帝也出來解釋說,很多車型在AEB被觸發后,NCA功能被抑制,導致車輛硬剎,結果是制動距離不夠,仍然撞上障礙物。這還算好的,更多的車型根本沒有識別最大的威脅——本車道前方靜止障礙,導致一頭撞上去。減速很少或者壓根沒有減速。
無論AEB還是NCA,感知層不管有多少個傳感器源,都是同一組。而決策層則有兩個模塊,而且不能同時主導。不過,這只是表面上的模塊沖突導致決策非最優。
靜態決策導致孤立響應
當前主流智駕普遍采用端到端架構。端到端的設計思想,就是將傳感器輸入通過神經網絡,直接映射為駕駛控制信號,減少中間模塊誤差傳遞的影響,也避免規控模式覆蓋空白導致系統失能。
人類熟練駕駛,即便面對極端場景,基本都是下意識反應,這和端到端思路有共同之處。但差別在于,即便電光火石間,人類駕駛員做出決策,也是依據“連續時幀”畫面做出決斷,而非單純依靠一個畫面做出。前者意味著即便做出決斷,隨著時間流逝發現新的、更嚴重威脅,也能及時矯正,采取新對策(是否成功另說)。
而很多端到端模型采取靜態數據輸入(單幀畫面或者短時間窗口),忽視駕駛行為本質上是一個強時序相關的連續決策過程。缺乏時序建模,導致一些需要隨機應變的場景中,智駕系統表現出呆板、控制漂移、變線失穩等。
在“消失的前車”場景中,前車緊急剎車-躲避障礙-左道車(如果有理智的話)剎車讓行等行為,站在本車觀察角度,形成了復雜的“信號鏈”。本車根據這些時序信號,也應該形成一個策略序列,而不是孤立的一個策略。智駕有時顯得很傻,道理就在這,即靜態決策必然導致孤立響應。
![]()
智駕判斷缺乏隨機應變性,有時候就顯得很傻
更復雜的是,其他交通參與者給出的信號,往往具有多義性。同一個駕駛員即便面對非常類似的場景,也可能采取不同策略,均為合理行為。但如果這些行為都作為數據輸入,容易模型學習方向不確定,訓練震蕩。如果多個駕駛員處理類似場景風格不同,模型學習到的控制行為,可能飄忽不定。最終在高壓場景(比如本文需要極短時間內決斷的場景)下,“既不充分制動也不果斷變道”的折衷決策,貌似溫和,其實是最壞的選擇。
端到端架構中,前幀感知偏差(如誤判左側車流速度)會通過Transformer等序列網絡不斷放大。測試中車輛向左變道時軌跡線突然消失,正是時序誤差累積的典型表現。
為什么不用“長時幀”
如果簡單認為,采用連續幀訓練就能解決此類困境,可能有點天真了。要考慮為什么不傾向于用長時間連續幀訓練。
第一個理由,容易跳幀。如果連續幀間的目標ID、軌跡或意圖標注不一致,會導致模型誤認為是兩個完全不同的事件,進一步削弱其對跨幀語義的建模能力。簡單說,就是系統認為這是兩個完全風馬牛的事,導致同一目標在兩幀中出現“跳幀”、“漂移”甚至“消失”,這可真成了“消失的前車”了。
連續幀不僅記錄時空變化,更為關鍵的是提供了其他交通參與者的真實意圖。人類司機不也是靠著連續觀察,判斷旁道車輛到底想直接加塞,還是想讓行后再加入進來——對行人意圖的判斷更是如此(因為其沒有轉向指示燈)。
![]()
優化后的標識呈現
個別端到端系統,和人類判斷的方式差不多,也將行為意圖作為顯式標識,通過多目標軌跡回歸進行建模。前提是需要在一定時序內創建客體(其他車或行人)ID一致性標簽。防止跳幀、丟失客體觀察。
這就引出了第二個理由,成本問題。長時幀的標注和ID標簽訓練成本太高了,大家都鼓吹無/輕標注和無監督學習,這讓靜止幀訓練成了現實選擇。
長序列不僅要求高質量時空數據樣本,還依賴強化標注,大大擴張了數據量。對大模型和轉移之后的車端小模型構成更多算力壓力。很多品牌已經注意到連續行為數據的采集、標注與利用。但從這次懂車帝測試情況來看,成果尚未反映到模型訓練和轉移。
不過,目前業內多品牌的端到端系統,比以前更重視“連續語義行為”的訓練,盡量模擬人類隨著時序所做的連續決策與執行。目標是讓系統變得更穩健可信,構建有清晰合理責任邊界的系統,而不是到關鍵時刻自己掉鏈子要求接管的甩鍋系統。
我們應該相信,隨著技術發展,智駕將越來越理智,并最終接管人類駕駛。在此之前,還是要謹慎宣傳,避免誤導公眾。
注:圖片部分來源網絡,如有侵權,聯系刪除。
克服AI幻覺?也許在開智駕倒車
2025過半,整車市場終局的端倪
小鵬與華為合作,產業新動向
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.