[首發于智駕最前沿微信公眾號]數據標注對于自動駕駛來說,就像是老師教小朋友知識,數據標注可以讓車輛學習辨別道路交通信息的能力。攝像頭、雷達、激光雷達(LiDAR)拍下來的只是一堆原始信號,這些信號本身只是像素和點云。標注的工作就是人為地給這些信號貼上語義標簽,告訴模型這是一輛車、這是行人、這是車道線、這個區域不能通行之類的明確信息。沒有這些標簽,監督學習、驗證和評估都無法進行,模型不知道哪些輸入與哪些輸出應該對應,訓練出的模型也會很脆弱、不可解釋。
![]()
圖片源自:網絡
之所以說數據標注非常重要,是因為標注直接決定了感知、預測和規劃模塊能學到什么。高質量、針對性的標注可以讓模型在關鍵場景表現更穩;相反,標簽錯、漏、定義不一致,就會導致模型在真實路況中出問題,安全風險直接上升。標注還會影響迭代速度和成本,如果標注成本高且慢,就會拖慢模型從數據到上線的閉環,影響產品進步速度。
是否所有信息都要標注?
既然數據標注這么重要,那是不是在標注過程中,能標則標,且要盡可能多的標?實際上,過度標注不僅浪費錢也浪費時間。有效的標注策略需要基于最終的系統需求和用例來取舍。

圖片源自:網絡
如果某類標簽不會被模型使用,或者不會影響決策,就沒必要細致標注。舉個例子,如果目標是實現城市道路中的基礎車道級別定位,就不需要把遠處路旁的廣告牌、樹木的每一根枝條細分都進行標注;但是行人、騎行者、其他機動車、交通燈、車道線這些直接關系到行駛安全的對象就必須高質量標注。
標注過程中還要看標注對象的稀有性與重要性。有些對象雖然罕見,但只要出現就會帶來極高風險,像是推車的嬰兒車、倒地的電動車、突然橫穿馬路的兒童、施工區域的臨時路障等就屬于這類對象。這類“長尾”對象雖然樣本少,但優先級更高,需要專門花工夫去搜集并標注。
像語義分割那類逐像素的標注,不僅耗時且成本更高。如果我們當前的模型只需要粗略的可通行空間邊界或車道線位置,完全精細的逐像素標注可以用更廉價的多邊形或線狀標注替代,后續再在必要時補充高精度數據。
對于數據標注來說,訓練集與驗證/測試集的標注標準可以不同。訓練數據可以允許一定比例的噪聲、快捷標注方法和自動化預標注,但驗證和測試集的標注必須是高度一致且嚴格的,只有這樣,評估才可靠。
哪些內容更值得標注?
既然并不是所有信息都需要標注,那對于自動駕駛來說,哪些標簽是“必標”的?哪些只需要根據條件進行標注?

圖片源自:網絡
對于自動駕駛汽車來說,核心感知對象的標注必須是高質量的,機動車、非機動車、行人、交通燈、交通標志、車道線、靜態障礙物(護欄、石墩)這些直接影響即時決策的信息,要做到明確的類別定義、精確的空間框(2D或3D)和清晰的遮擋/可見性標注。尤其是對于行人,除了要標注類別外,還要標注姿態(站立、行走、蹲下)和是否攜帶物品(推車、手提物)等,因為這些信息會影響模型的行為預測。
單幀識別固然重要,但車輛想知道物體的運動軌跡、速度和加速度趨勢,動態追蹤與時序標簽更是關鍵。標注軌跡ID、時序邊界、目標出現與消失的時刻,對訓練多目標跟蹤(MOT)和預測模塊至關重要。特別是在交叉口、并線、減速跟隨這類需要預測他人行為的場景,時序數據能顯著提升系統表現。
高精度的三維信息對定位和避障非常有用,LiDAR點云的點級別分類、3D包圍盒、物體朝向和尺寸標注,是構建可靠三維感知的基礎。尤其是在夜間或弱光環境下,激光雷達可為系統提供穩定的距離信息,配合圖像標注可以提高檢測魯棒性。
車道與可行駛區域的語義標注也必須重視,明確車道邊界、車道類型、虛線/實線、交叉口區域、匝道、慢車道等標注,能夠幫助高精地圖生成與局部行為決策。像是路緣石、盲道磚、停車位等靜態地圖元素,在某些應用場景下是非常必要的標簽。
長尾與異常場景需要制定單獨的標注策略,像是施工場景、事故現場、異常天氣(大雪、暴雨、霧霾)、道路受損、臨時交通管制、違停車輛、緊急救援車輛出現等場景,雖然出現頻率低,但對安全影響大。建議用專門的樣本池和標注流程,把這些數據優先納入訓練或用于強化模型在稀有場景下的表現。
![]()
圖片源自:網絡
對于自動駕駛來說,行為與意圖層面的標注價值也在上升。自動駕駛汽車除了要學習“這是什么”,還要學習“它要做什么”。像是標注車輛的并線意圖、行人的過街意圖、騎車人的加速/減速意圖,這些標簽對預測模塊非常有用。行為標簽往往需要結合上下文和時序,標注更費時也更主觀,但回報很高。
環境與天氣標簽也不可忽視,每一幀的光照條件、能見度、路面狀況(濕滑、結冰)、是否有積雪、是否處于黃昏/夜間等信息,都應作為元標簽保存,這樣能幫助模型做域自適應、并讓工程師更快找到模型弱點。
地圖和高精定位相關的標注要與HD地圖結合,標注路口拓撲、車道連接關系、交通燈控制邏輯等信息,可用于規則基的行為決策與混合策略系統。高精地圖的制作本身就是一種標注活動,只不過尺度更大、需求更精細。
除了感知之外,數據質量與元信息的標注也值得投入。設備故障、同步問題、畸變或遮擋等元數據標注能幫助后續數據清洗與模型魯棒性提升。很多看似能力很差的模型可能只是沒有這些元標簽的原因導致的。
最后的話
對于自動駕駛來說,標注并不是一次性的“下游工作”,而是產品能力的核心組成部分。標注并不是簡單的勞動密集型支出,而是自動駕駛環節中非常重要的一環,將決定自動駕駛汽車的駕駛行為。
對于數據標注,一定要明確兩點,一是標注要與需求對齊,先做關鍵的、影響安全和決策的標簽;二是在資源有限時,要把錢和人工花在能迅速改善模型弱點的地方。只有這樣,標注才能成為推動自動駕駛技術成熟的穩健引擎。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.