網易首頁 > 網易號 > 正文申請入駐

自動駕駛汽車是如何進行“場景理解”的？

2025-12-11 09:18:09　來源: 智駕最前沿

江蘇舉報

分享至

[首發于智駕最前沿微信公眾號]場景理解這個詞聽起來可能有點深奧，但在自動駕駛里，它其實就是指車輛“看到周圍環境之后，能不能真正搞明白正在發生什么”。要把這個概念講清楚，不能只停留在感知系統能識別出多少物體，關鍵在于怎么把“看到的東西”轉化為“有用的信息”，讓決策和控制模塊能基于這些信息做出安全、可靠的行動。

圖片源自：網絡

場景理解到底是什么？為什么它這么重要？

所謂場景理解，就是把路面上所有能觀察到的信息整合起來，形成對當前情境的“理解”。它不只是檢測出行人、車輛、車道線、交通標志等個體信息，還要弄清楚這些對象之間的關系、它們接下來的可能動向，以及哪些信息對下一步決策最關鍵。比如說，前方有個騎車人靠邊行駛，場景理解系統要能判斷他是準備停車、要轉彎，還是有可能會突然逆行；遇到復雜路口，它得識別信號燈狀態、理解各方行駛意圖，并判斷哪些軌跡是安全可行的。

想達成更好的場景理解效果，決策層所做的每一個動作，都要依賴于上層提供的抽象信息。感知系統只負責把像素或點云變成“事實”，但如果這些事實沒有被組織成“世界模型”并附帶“不確定性評估”，規劃模塊就可能基于錯誤或不穩定的信息做決定，從而帶來危險。一個好的場景理解系統，能夠把嘈雜、部分缺失甚至暫時矛盾的感知輸出，轉化成穩定、連貫、并帶有置信度的語義信息，供規劃和控制模塊使用。

如何描述這個世界——表示學習與多層次語義

場景理解首先要解決的是“怎么把這個世界描述出來”的問題。傳感器輸出的圖像、點云、雷達回波、IMU數據都太原始、太低層，直接用來決策既低效又危險。我們需要把它們抽象成適合自動駕駛的表示形式，這需要考慮多個維度。

空間幾何信息是基礎。物體的三維位置、速度、朝向和邊界框，是任何動作規劃都必需的信息。基于這些數據可以做碰撞檢測、車道保持和速度控制。點云和立體視覺/深度信息是構建幾何表示的主要來源，而視覺系統也可以通過多視角和神經網絡來估計深度。

圖片源自：網絡

語義信息是更高一層的表達。把“這是一輛車/行人/自行車”升級為“這是一輛正在并線的貨車/一位推嬰兒車的行人/一輛停在路邊的網約車”，會直接影響系統對它的處理方式。語義需要更細致，要能把行為模式（比如勻速、加速、減速、轉頭觀察）也考慮進來。

對象之間的關系與意圖也需要被表示出來。它們之間的相對位置、可能的遮擋關系、誰是相對被動的、誰具有較高危險性，都是場景理解的重點。例如，一輛停在路邊的車打開了車門，這時“車門”和“相鄰行人”之間的關系，就比單獨的“門”這個對象重要得多。意圖則是對對象未來行為的概率化預測，通常不是給出一個確定的軌跡，而是提供幾種可能性及各自的置信度。

時間維度的表示也非常關鍵。交通場景不是靜態的，而是連續演變的過程。利用歷史軌跡來估計物體的慣性和行為模式，能提高對未來動向的預測準確性。很多系統會把表示設計成時序圖、軌跡簇或隱狀態向量，這樣規劃模塊就能看到“這個行人過去幾秒是怎么移動的，從而推測他接下來可能做什么”。

還有就是多模態融合的表示。不同傳感器在不同條件下的可靠性不一樣，場景表示需要融合這些信息并體現不確定性。一個理想的表示，既包含精確的幾何信息，也包含高層的語義標簽和概率化的不確定性描述，并且能在實時性限制下快速更新。

從數據到推理——學習、預測與邏輯推理的結合

有了合適的表示方式，下一步就是如何從數據中訓練出能生成這些表示的系統，以及在推理時如何把學到的模式和邏輯規則結合起來。

圖片源自：網絡

在這個過程中，數據是基礎，但數據本身不等于理解。標注好的數據可以訓練出物體檢測、分割和軌跡預測模型，但真實世界的場景千變萬化，數據不足或存在偏差會導致模型在邊緣場景中失效。因此需要真實道路數據、仿真生成數據、合成數據，以及針對邊緣場景專門采集的數據等多源數據。自監督學習和無監督表示學習是降低對標注依賴的方向，通過讓模型從未標注的視頻中學習運動一致性、物體恒常性等規律，可以提升泛化能力。

模型選擇與架構設計將直接影響理解能力。端到端的大模型可以學習從像素到控制的映射，但缺點是可解釋性和可驗證性差。模塊化架構把感知、追蹤、預測、場景理解和決策分開，有利于工程化、故障排查和逐步驗證。因此在很多系統中會采用混合方案，用深度學習完成感知與短期預測，再用符號規則、行為樹或基于模型的推理來處理安全相關約束和長期規劃。

不確定性建模是必不可少的。場景理解不能只給出一個確定的答案，還必須提供置信度和可能的替代解釋。貝葉斯方法、概率圖模型、蒙特卡洛采樣、基于高斯過程的預測，或者利用神經網絡輸出分布（比如預測多個可能模式并給出權重），都是常用的手段。規劃層會根據這些不確定性來調整保守程度，如在不確定程度高的路口減速、擴大安全距離。

因果推理和規則約束能提高系統的魯棒性。學習模型擅長捕捉統計相關性，但有時需要基于物理規律和交通規則來做判斷，比如在濕滑路面上剎車距離應該更長，或者紅燈時在沒有特殊標識的情況下不能右轉。把物理模型、交通法規和常識規則嵌入系統，可以在學習模型失靈時充當“最后一道防線”。

在線學習與閉環更新也非常重要。車輛會遇到新的場景，系統需要能夠回收失敗樣本、進行標注并重新訓練，或者采用更輕量的在線適應方法快速調整模型。從工程角度看，這涉及到數據采集、標注流程、仿真驗證與部署策略，是場景理解體系能否持續改進的關鍵。

工程實踐——實時性、魯棒性與可驗證性

就算場景理解在理論上有完美的表示方式和優秀的模型，要真正落地到車輛上，還必須面對嚴苛的工程約束。場景理解的核心之一，就是如何在有限的計算資源和嚴格的實時性要求下，做到既準確又可驗證。

實時性意味著系統必須在幾百毫秒甚至更短的時間內完成感知、理解與預測，然后把結果交給規劃模塊。為此，表示方式和模型常常需要在工程上做折中，用稀疏表示來減少計算量，用候選采樣替代全空間搜索，用輕量級網絡做前置篩選，再把重點區域送到重模型做精細推理。硬件協同設計也很關鍵，把關鍵運算放在專用加速器或車規級SoC上，能顯著提升吞吐量和能效。

圖片源自：網絡

想提升場景理解的魯棒性，就要讓自動駕駛系統能輕松應對傳感器故障、惡劣天氣、遮擋和對抗情況等多種挑戰。傳感器降級策略、傳感器之間的冗余備份，以及基于模型的不確定性檢測，都能提升整體魯棒性。如果視覺系統在濃霧中失效，毫米波雷達和激光雷達可以提供幾何信息；如果某個傳感器丟包，系統要能快速切換到備用策略，并通知規劃層收緊安全邊界。

可驗證性和可解釋性對安全至關重要。監管和產品化都要求能夠證明系統在特定條件下是安全的。模塊化設計有利于形式化驗證，可以把一些安全關鍵判斷轉化成可檢驗的斷言（比如保持最小跟車距離），并用大量仿真和場景庫做覆蓋測試。同時，還需要建立故障日志和可追溯的診斷機制，當場景理解出現錯誤判斷時，能快速定位是感知失誤、表示錯誤還是模型泛化問題。

仿真在工程實踐中發揮著巨大作用。現實世界中難以收集所有罕見的邊緣場景，通過高保真仿真可以構造復雜交互、極端天氣和危險情況，驗證系統的反應。把仿真和真實數據結合起來，并將仿真生成的數據用于訓練或測試，能加速場景理解能力的提升。

最后還要關注驗證覆蓋率和數據分布偏差的問題。沒有任何系統能通過“所有場景”的驗證，但可以采取風險優先的方式，可以把驗證資源投入到最危險或最常見的失效模式上，建立一個動態更新的風險目錄，持續把新出現的問題納入訓練和測試流程。

最后的話

場景理解的核心不是某一個單點技術，而是一組緊密耦合的能力，合適的世界表示、基于豐富數據與合理架構的學習與推理、以及面向實際應用的實時性、魯棒性與可驗證性。它既需要深度學習的表達能力，也需要物理模型與規則的約束，還需要完善的數據閉環來持續改進。

對工程團隊來說，場景理解是一項長期的、需要分階段推進的工作。每一次對表示的優化、每一類邊緣場景的數據補采、每一次驗證覆蓋率的提升，都會直接改善車輛在真實道路上的表現。把“看見”變成“理解”，再把“理解”轉化為“可靠行動”，這是自動駕駛安全落地的核心路徑。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.