過去十年,智能駕駛的發展始終圍繞“感知”展開。車內攝像頭分辨率不斷提高,激光雷達數量持續增加,算法對目標的識別精度被反復推高到接近極限。但現實已經反復驗證:看得更清楚,并不能等同于駕駛更安全。
真正制約高階輔助駕駛能力上限的,并非單點感知精度,而是系統是否具備對真實世界進行整體理解與推演的能力。
進入 2025 年,一個清晰的變化正在行業內部顯現:視覺系統不再只是感知鏈路中的前端模塊,而是開始承載更高層級的認知任務,逐步成為世界模型、端到端決策與推理能力連接現實世界的關鍵入口。這一變化,正在重塑智能駕駛的技術底座。
![]()
圖片來源: notateslaap
拐點初現:視覺系統從“感知輸入”走向“認知基礎”
在傳統自動駕駛架構中,視覺系統承擔的角色相對清晰:采集圖像、完成目標檢測與語義分割,然后將結構化結果交給后續模塊。整個系統強調模塊解耦,感知、預測、規劃各自獨立優化。這種模式在 L2 階段行之有效,卻在更復雜的城市場景中逐漸顯露出瓶頸。
問題并不在于“是否看得清”,而在于系統是否始終看得見。在雨霧、強逆光、夜間或復雜氣候條件下,傳統視覺、雷達和激光雷達各自存在失效區間,感知的不連續性,直接限制了系統對現實世界狀態的穩定理解。
也正是在這一背景下,新的視覺感知形態開始進入智能駕駛體系。
Teradar在CES 2026上發布的太赫茲視覺傳感器Summit,正是這一趨勢的縮影。太赫茲波段位于雷達與激光雷達之間,兼具較高分辨率與全天候穿透能力,使車輛在霧、雨、雪和強眩光條件下仍能獲取穩定的環境信息。
![]()
圖片來源: Terada
從工程基礎看,這種升級并非偶然。2024–2025年,多攝像頭方案成為主流,8顆甚至更多攝像頭進入量產車型;高帶寬傳輸方案(如基于GMSL2的多攝像頭系統)與更精確的時序同步能力,使跨視角、跨時間的特征融合成為現實。視覺數據不再是孤立幀圖像,而是構成一個高頻、全域、時間一致的連續信息流。
真正的變化發生在模型層面。
隨著端到端架構成為行業共識,感知、預測、規劃不再通過規則化接口串聯,而是在統一網絡中協同優化。在這種結構下,視覺不再只是“提供目標框”,而是直接參與環境狀態的隱空間建模。模型從圖像中學習到的不只是物體類別,而是空間幾何關系、動態演化趨勢以及行為先驗。
換句話說,視覺正在承擔三項新的“認知職責”:
第一,是構建連續空間表達。通過多視角融合與BEV建模,視覺輸出的不再是離散檢測結果,而是統一的三維場景表示,為后續預測提供穩定基礎。
第二,是提供時間一致的狀態演化信息。時序建模讓系統能夠理解“變化趨勢”,而不僅是當前畫面。視覺開始成為時間建模的核心信號源。
第三,是參與隱式行為理解。在大模型與世界模型框架下,視覺特征被映射到高維語義空間,成為推理與反事實預測的輸入。這意味著視覺不僅回答“這里有什么”,還參與回答“接下來可能發生什么”。
至此,視覺系統完成了角色轉變。
它不再是傳感器層的輸入模塊,而成為認知體系的現實錨點——世界模型與端到端決策之所以能夠成立,是因為視覺提供了穩定、連續、可泛化的環境表達。模型的“理解能力”并非憑空產生,而是建立在視覺連續性和信息密度之上。
這一拐點的真正含義在于:當視覺具備跨場景穩定性、跨時間連續性以及高維語義表達能力時,它不再只是看見世界,而是成為系統理解世界的起點。
從感知連續性到行為推演:世界模型如何補上“下一步”的空缺
當視覺系統完成從“感知輸入”到“認知基礎”的轉變后,一個更核心的問題隨之浮現:如果系統已經能夠穩定、連續地理解環境狀態,那么它是否具備推演環境演化的能力?
這正是世界模型登場的邏輯起點。
如果說端到端解決的是系統結構問題,那么世界模型要解決的,則是智能駕駛長期存在的“預測盲區”。
在真實道路中,許多風險并非來自目標識別錯誤,而是源于系統無法合理判斷環境的演化趨勢。例如,系統可以識別行人,卻難以判斷其是否即將橫穿馬路;可以識別前車,卻難以預測其是否會突然變道。這類問題,本質上源于對世界狀態缺乏連續、可推演的內部表達。
傳統規則驅動或模塊化的系統,本質上依賴人工設計的邏輯與先驗假設。一旦場景超出預設邊界,系統便難以應對。而世界模型的核心是通過對真實世界的高維建模,使系統具備理解、預測與內部模擬能力,從而在決策前“先在腦中跑一遍未來”。
從技術角度看,世界模型至少具備三層價值。
首先是時間連續性建模。真實世界并非離散幀的拼接,而是連續演化的系統。世界模型強調在時間維度上保持狀態一致性,使車輛能夠理解行為趨勢,而不僅理解當前狀態。
更進一步的是因果推理能力。世界模型不再簡單回答“這是什么”,而是嘗試回答“如果我這樣做,會發生什么”。這種反事實推演能力,是復雜城市場景中實現類人決策的關鍵。
最終是可訓練性與數據閉環。世界模型可以在云端仿真環境中訓練,通過大規模合成數據彌補真實世界長尾場景不足,再將能力蒸餾至車端執行。這一點,直接影響高階輔助駕駛的工程可行性。
正因如此,世界模型不再停留在學術概念層面,而是開始成為主機廠和頭部智駕供應商的重點投入方向。
Nextbase在CES 2026上發布的InSight全球街景視覺平臺,提供了一種不同于傳統“單車采集”的路徑。通過覆蓋數十億英里道路的行車記錄儀網絡,平臺能夠持續生成低延遲、匿名化、帶有精確時空標注的真實世界影像。這些數據并非用于即時駕駛決策,而是用于構建更接近真實道路運行狀態的世界模型,為系統理解“世界如何變化”提供長期、規模化的樣本。
![]()
圖片來源: Nextbase
這種從群體視角獲取世界數據的方式,使世界模型不再局限于單一車輛的感知閉環,而開始具備更宏觀的環境理解能力。對世界模型而言,這類高保真、強時間關聯的數據,正是進行行為推演和因果學習的關鍵資源。
端到端、VLA與世界模型的融合演進
如果說世界模型解決的是“系統如何理解未來”,那么一個更現實的問題是——今天的量產體系,是建立在什么基礎之上?
答案已經很清晰:端到端。
端到端自動駕駛(End-to-End Autonomous Driving, E2E)并不只是“單一神經網絡”的技術概念,而是一整套圍繞數據驅動構建的工程體系。它將多傳感器輸入(攝像頭、毫米波雷達、激光雷達、定位信息與車輛狀態)到駕駛輸出(軌跡規劃、轉向/加速/制動控制)的全流程,納入統一訓練框架,并通過“數據閉環 + 持續訓練迭代 + 回歸驗證 + OTA升級交付”的機制替代傳統模塊化規則開發。
從產業實踐來看,端到端已經成為當前智能駕駛的“地基”。根據某行業調研數據顯示,全球端到端自動駕駛市場未來幾年將保持19.0%的年復合增長率(CAGR)。
這一數據背后有一個更關鍵的信號:端到端正在從“技術探索”轉向“規模化商業體系”。
在應用層面,乘用車量產搭載頁已成為核心場景。根據蓋世汽車研究院的數據,截至2025年11月,國內乘用車L2及以上輔助駕駛滲透率已達64%,高速NOA滲透率29%,城市NOA也達到 8.5%。端到端架構的加速上車,是這一進展的重要推動力。
也就是說,今天絕大多數高階輔助駕駛系統,已經運行在端到端體系之上。
但問題隨之出現。
端到端解決的是結構問題——減少模塊邊界損耗、壓縮延遲、提升泛化能力。但它并未天然解決“理解世界”的深層挑戰。尤其在低頻極端場景、復雜博弈行為和長尾分布下,純端到端模型仍面臨數據稀缺與推理能力受限的問題。
這正是VLA與世界模型開始進入體系內部的原因。
VLA通過引入語言模態,將視覺信息轉化為可推理的語言token,使系統具備一定的解釋和推演能力;而世界模型則更強調對物理與行為規律的整體建模,側重“理解世界如何運轉”。從當前趨勢看,這兩種路線并非對立,而是互補。
主機廠的選擇已體現出這一融合趨勢。蓋世汽車觀察得出,新勢力中,理想、小鵬更偏向VLA路線,蔚來則押注世界模型;傳統車企則多通過供應商實現端到端量產,并同步預研世界模型能力,例如華為的WEWA世界行為模型、Momenta 的強化學習大模型、卓馭的世界模型端到端方案等。
![]()
這些路徑差異,并不代表技術路線分歧,而更多反映了各家在數據形態、算力布局和工程節奏上的不同選擇。
可以預見,未來高階智駕系統并不會在“端到端、VLA或世界模型”中三選一,而是以端到端為基底,融合語言推理與世界建模能力,形成統一的認知系統。
現實約束與落地路徑:視覺世界模型如何“先上車”
需要明確的是,世界模型并不會以“完整形態”一步到位登上量產車。算力成本、數據分布偏差、功能安全與法規驗證,仍然是必須跨越的現實門檻。
從算力趨勢看,隨著大模型能力上車,車端計算平臺正向500 TOPS乃至千TOPS演進,云端算力規模也同步擴張。這意味著,世界模型在短期內更可能以增強模塊的形式存在,而非完全替代現有系統。
在落地路徑上,更可行的方式是先在云端完成世界模型訓練與驗證,通過仿真補齊長尾場景能力,再將核心能力蒸餾至車端,用于提升預測、規劃或異常處理能力。這種“云端理解 + 車端執行”的模式,正在成為行業共識。
從功能層級看,世界模型最先服務的并非L4,而是L2+/L3階段的安全冗余與體驗提升。它解決的不是“自動駕駛是否可用”,而是“在復雜、不確定環境中,自動駕駛系統是否更穩健”。
總的來看,世界模型并非一項孤立技術,而是視覺系統、端到端架構與大模型能力共同演進的結果。它的成熟,將決定智能駕駛能否真正跨過“規則邊界”,邁向更接近人類的決策方式。
如果說過去十年自動駕駛比拼側重于“看見世界”,那么接下來,競賽的核心將是——如何讓自動駕駛系統更懂這個世界。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.