<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      并行還是融合?世界模型與 VLA 技術路線,正在重構智能駕駛的未來格局

      0
      分享至


      在智能駕駛技術加速迭代的當下,“智駕平權” 與 “端到端” 技術浪潮正推動行業從單點突破向全域進化。從智能駕駛行駛業務的發展回溯,到 “端到端” 智駕在多階段的演進與技術路徑分化,行業已進入多元技術路線并行的關鍵期。其中,VLA 技術路線與世界模型技術路線作為兩大核心技術方向,各自經歷了獨特的演進歷程,既呈現出差異化的核心特征,也面臨著共性與個性交織的發展痛點。為深入剖析這兩條技術路線的發展脈絡、核心邏輯與未來趨勢,明晰其對智能駕駛產業格局的深遠影響,本報告聚焦 “世界模型與 VLA 技術路線并行發展” 這一命題,通過梳理二者的演進歷程、解構核心特征與痛點、研判發展趨勢,為智能駕駛領域的技術研發、產業決策提供深度洞察與價值參考。


      一、“平權+端到端”,智能駕駛加速進化

      1.1 智能駕駛行業發展回顧(智能駕駛滲透加速篇)

      智能駕駛滲透持續加快,新能源車銷量與智駕功能構建協同增長閉環

      • 新能源車的高增長帶動智能駕駛快速滲透。中國在全球汽車電動化、智能化變革中,是積極的倡導者與關鍵引領者。近年來,中國新能源汽車市場的銷量與滲透率均呈穩步上升趨勢,整體增速超出預期?;仡?2019 至 2025 年上半年,雖受全球宏觀環境及周期性因素影響有小幅波動,但新能源汽車銷量總體保持增長,尤其在 2023 至 2024 年實現顯著放量,市場份額明顯提升;同時,新能源汽車滲透率從 2019 年的較低水平逐步攀升,先后突破 10%、30%、50% 等關鍵節點,體現出新能源車型在整體汽車市場中的占比不斷提高。消費者對新能源產品的接受度和認知度持續提升,產業發展進入加速普及階段。

      • 智能駕駛配套水平隨之同步發展,與此同時,中國新能源汽車 L2 級別智能駕駛功能的滲透率也快速提升。從 2019 年約 7% 的水平起步,到 2025 年上半年已升至約 65%,其普及率和性能較技術革新前的配套應用均呈現穩步加速的趨勢。從邏輯層面分析,國內新能源汽車銷量與滲透率的提升,以及新能源汽車自身的發展擴張,帶動了智駕配套滲透率的上升,這揭示了市場智能化技術配套的同步發展進程。隨著新能源車保有量持續增長,車企為增強產品競爭力、實現差異化定位并改善用戶體驗,越來越多的車型開始標配或選配智能駕駛功能。另一方面,消費者在購買新能源車后,接觸智能駕駛的機會大幅增加,對智能化功能的認知和使用意愿也同步增強,形成了自下而上的市場反饋機制。


      1.1 智能駕駛行業發展回顧(產業規模擴張篇)

      智能駕駛產業規模持續擴大,價值鏈環節協同增速,創新活力加速釋放智能駕駛市場擴張勢頭迅猛,增長動能持續釋放。

      • 智能駕駛所驅動的市場發展空間正不斷拓展。在汽車產業智能化與電動化深度融合的背景下,2024 年我國智能網聯汽車產業規模已增至 11082 億元,同比增長 34%,且展現出顯著的增長彈性與外溢效益。隨著車輛智能化滲透率持續提高、產業鏈各環節技術協同不斷深化,智能化市場正處于由需求牽引和供給共同驅動的雙輪增長階段。從中長期趨勢判斷,產業發展并非線性,隨著汽車平臺升級以及多元化場景的持續拓展,預計到 2030 年,產業規模有望突破 5 萬億元,產業鏈上下游將進一步深化分工與協作,行業競爭格局也將加速重塑。

      • 形成有價值的循環閉環,功能模塊遞進清晰。從產業化生態來看,智能駕駛的價值鏈已逐漸清晰,核心能力圍繞 “聯網 — 感知 — 執行 — 決策” 四大功能模塊有序構建:聯網模塊為數據交互提供基礎支撐;感知模塊借助多模態傳感器實現高精度的環境識別;執行模塊負責車輛控制和反饋響應;決策模塊則基于算法與算力平臺完成復雜場景下的路徑規劃和智能調度。隨著整車智能化程度的不斷提升,這一生態結構呈現出從協同性向耦合性發展的趨勢,為后續技術落地和商業模式創新奠定了基礎。

      • 產業主體持續擴容,技術創新活力不斷提升。截至 2025 年 6 月,受益于技術成熟度逐步提高、政策環境持續優化、商業應用路徑日益清晰,我國智能駕駛產業主體數量快速增長,注冊相關企業已超過 7000 家,這些企業分布在芯片研發、傳感器制造、軟件算法設計、整車集成及出行服務等多個關鍵領域,形成了較為完整的產業鏈條。在行業競爭日益激烈的同時,研發投入強度同步加大,各類企業紛紛加快智能駕駛核心技術布局,力求在技術架構、產品能力和商業模式上實現差異化突破。產業創新活力持續迸發,推動行業整體向更高技術水平、更豐富應用場景演進。


      1.2 智駕沿 “端到端”、“智駕平權” 加速邁進(2024 關鍵詞篇)

      回顧 2024 年以來智能駕駛的兩大關鍵詞:端到端、智駕平權

      • 端到端:2024 年 3 月特斯拉率先推出 “端到端” 智駕方案后,國內造車新勢力迅速跟進,掀起技術架構革新熱潮。小鵬汽車在 “520 AIDAY” 發布會上宣布,其國內首個 “端到端” 大模型已實現量產裝車;同年 7 月,理想汽車進一步發布基于 “端到端” 模型、VLM 視覺語言模型與世界模型的全新自動駕駛技術架構,加速高階智駕技術的落地。端到端技術在感知、決策與控制全鏈路中,顯著減少了傳統分區分治模式下高價高功耗的運算環節,實現了更高效的場景泛化與模型學習能力。這一架構的快速推廣,有效降低了車企在算法開發及部署與控制閉環構建的門檻,使得城區 NOA 等高階智駕功能得以低成本加速落地。受此推動,高階智駕(L2 及以上)功能普及率從 2025 年 1 - 4 月的 11.8% 躍升至同期的 18.6%。

      • 智駕平權:比亞迪、吉利、奇瑞、長安等四大自主車企陸續推出重磅智能駕駛方案,在實現技術突破的同時,進一步拉低了智能駕駛的價值門檻,加速 “智駕平權” 進程。例如,比亞迪秦 PLUS 智駕版(11.98 萬元)已配備高速 NOA 功能;吉利銀河 E8 插混版(18 萬元)實現了 “車端到車位” 全場景自主功能的加速落地。與造車新勢力主要聚焦中高端車型不同,自主車企通過規模化生產、供應鏈整合及自研芯片等路徑,推動智能駕駛技術的價格下探與普惠普及。其中長期目標明確:在 10 萬元級別車型上實現高速 NOA 的全面標配。隨著這一戰略的推進,中高階智駕(高速 NOA)搭載率從 2024 年 1 - 4 月的 11.8% 提升至 2025 年同期的 18.6%,市場覆蓋范圍持續擴大。


      1.2 智駕沿 “端到端”、“智駕平權” 加速邁進(城市 NOA 滲透篇)

      城市 NOA(L2+)已成為 20 萬元以上產品 “必配配置”,并滲透至 15 - 20 萬元區間

      • 中價位段智駕滲透速度加快,競爭加速向低端市場下沉。根據 NE 時代新能源數據,2024 年第一季度,20 - 30 萬元價位段汽車的 L2 + 智能駕駛功能搭載率僅為 25.15%;到 2025 年 4 - 5 月,該數值已升至 47.1%,實現了近乎翻倍的增長。搭載率的快速提升,表明城區 NOA 正進入大規模普及階段,20 - 25 萬元價位段逐漸成為車企在智駕功能配備上競爭的關鍵區間。相較于此前對高端市場的過高預期,中端市場的動態滲透不僅釋放了更大的消費潛力,也推動了技術落地成本的進一步降低。

      • 智駕功能價格下探趨勢仍將持續,中低端市場加速滲透。智駕功能成本的持續下降,為市場擴張提供了重要支撐。搭載高階智駕功能(城區 NOA)的車輛在保持售價下探的同時,車企將智駕滲透率拓展至 15 萬元左右的車型,降低了消費者的進入門檻,推動智能駕駛的 “科技平權” 進程。進入 2025 年后,隨著小鵬、比亞迪等車企加大在中低價位車型的智能駕駛投入,10 - 20 萬元價位段汽車的城市 NOA 搭載率快速上升,技術普及節奏明顯加快,市場覆蓋范圍持續擴大。


      二、端到端智能駕駛復盤


      2.1 端到端智能駕駛演進歷程

      當前,端到端自動駕駛架構的演進可劃分為四個主要階段:

      • 第一階段:感知 “端到端”/“BEV+ transformer”(2021 年由特斯拉提出):自動駕駛架構被拆解為感知與預測決策規劃兩大模塊。感知模塊借助多傳感器融合的 BEV 技術實現模塊級 “端到端”,引入 transformer 與 crossattention 方案,顯著提升檢測精度與穩定性,而規劃決策模塊仍以傳統的 Rule-based 方法為主導。

      • 第二階段:決策規劃模型化 /“占用網絡”(2022 年由特斯拉提出):架構模塊組成保持不變,感知端延續上一代的解決方案。預測決策規劃模塊迎來重大革新,將預測、決策、規劃功能整合到同一神經網絡。盡管感知與決策規劃均采用深度學習,但模塊間的接口仍依據人類理解定義,各模塊依舊獨立訓練。

      • 第三階段:功能模塊化全網絡一統式回路:(感知、決策、規劃深度運用學習)整體結構與上一階段相似,但網絡結構細節和訓練方案卻有很大不同。感知模塊不再輸出人類可理解的結果,轉而輸出特征向量,預測決策規劃模塊依據該向量生成運動規劃。由于兩模塊輸出形式發生變化,訓練時必須通過梯度傳導,實現跨模塊聯合訓練。

      • 第四階段:OneModel / 一體式端到端:可基于強化學習、Mononit(當前應用方向)實現。此階段打破了感知、決策規劃等功能的界限,從原始信號輸入到最終規劃軌跡輸出,全程由單一深度學習模型完成。OneModel 可基于新型技術、理想方案或模仿學習實現,也可從專家發力方向入手。


      2.2 端到端智能駕駛第一階段(技術定義篇)

      第一階段:感知 “端到端”/“BEV+ transformer”

      • 定義:BEV(Bird’s Eye View,鳥瞰圖視角)是在自動駕駛多攝像頭與多模態融合的背景下形成的一種關鍵視角表達方式。其核心思路是將傳統基于 2D 圖像與測距的信息整合到采集的 3D 場景框架中。在此過程中,如何高效融合來自不同傳感器(如攝像頭、毫米波雷達、激光雷達等)的特征信息,實現最優化的表達與空間映射,是技術實現的重點與難點。

      • Transformer 是另一項推動智能駕駛感知能力快速發展的核心技術。它是一種基于注意力機制的神經網絡結構,由谷歌于 2017 年提出。與傳統的 RNN、CNN 不同,Transformer 不依賴串行數據處理,而是通過注意力機制挖掘序列中不同元素的關聯關系,具備出色的特征提取與長依賴建模能力。這一特性使得 Transformer 能夠在智能駕駛的不同架構與不同結構的輸入信號中,在多傳感器融合和環境建模方面展現出顯著優勢。

      • 在感知端技術模塊中,感知端的端到端是最早應用端到端方法的,也是實現自動駕駛能力提升的關鍵部分。在早期的智能駕駛系統中,端到端技術主要集中在感知層,用于高效、實時地提取并融合環境信息。隨著算法和算力的持續發展,決策規劃等后端模塊也開始逐步引入端到端方法,推動整體架構從分層式向一體化方向發展。


      2.2 端到端智能駕駛第一階段(技術影響篇)

      第一階段:感知 “端到端”/“BEV+ transformer” 帶來的影響

      • 實現全面視野覆蓋,顯著增強環境感知能力。BEV 感知通過融合車輛各方向的多類型傳感器數據(包括毫米波雷達、攝像頭、激光雷達等),形成 360° 全方位、無死角的感知視野。這種全局視角突破了單一傳感器的局限性,使車輛在復雜路況下能獲取更完整的環境信息,不僅對周邊目標的識別更清晰,還能提前感知潛在風險,提高駕駛系統的環境適應精度與響應速度。

      • 簡化決策路徑,提升系統運行效率。通過將 3D 場景表征統一映射到 2D 平面,BEV 技術有效降低了數據處理的復雜度,顯著減少了傳統感知到決策規劃的中間轉換環節。這種信息表達方式讓路徑規劃、障礙物識別與避讓、車輛行為預測等決策過程更直接、高效。結合 Transformer 的注意力機制,系統可對關鍵區域進行聚焦處理,實現更靈活、更精準的動態決策能力,為端到端架構在實際駕駛場景中的落地奠定了基礎。

      • 提升定位精度,強化復雜交通場景適應能力。BEV 感知能幫助自動駕駛系統更準確地估計自身與周圍車輛、行人及障礙物的相對位置,尤其在城市道路、十字路口、交通高峰等復雜場景中優勢明顯。這種高精度空間感知能力提升了系統在動態環境下的穩定性與魯棒性,也為高階智能駕駛功能(如城區 NOA)提供了必要的技術支撐。

      • 技術進步與標準化加速產業成熟進程。同時,隨著深度學習算法持續迭代、芯片算力大幅提升,BEV 感知算法在精度、效率和泛化能力上進一步提升,可處理更復雜的交通環境和更大規模的數據流。未來,數據融合技術將成為研究重點,如何在多模態傳感器的異構數據間實現高效融合,是提高系統魯棒性和精確性的關鍵。


      2.3 端到端智能駕駛第二階段(技術定義篇)

      第二階段:決策規劃模型化 /“占用網絡”

      • 占用網絡重塑環境感知,夯實智能駕駛基礎能力。占用網絡(Occupancy Network)是自動駕駛 “環境感知” 環節的重要底層技術,其核心思路是通過對三維空間進行體素級劃分與占用預測,構建更高精度的全場景環境表征。與傳統感知方法相比,占用網絡能有效彌補在 “遮擋處理”“形狀描述建?!薄叭汁h境認知” 等方面的不足,為后續的路徑規劃和行為決策提供更完整、更穩定的環境輸入。隨著算力持續提升與網絡結構優化(如動態體素、稀疏卷積等),占用網絡正逐漸成為高階智能駕駛系統中的關鍵模塊,尤其適用于結構復雜、目標密集的城市道路場景。

      • 體素級空間建模提升環境感知能力。從本質上看,Occupancy Network 算法是一種 3D 空間分割任務。它通過將待感知的三維空間劃分為固定大小的體素網格,利用目標預測每個體素被目標類別占用的概率,實現對全場景的空間建模。這種方法不僅可以精確刻畫已知的車輛、行人等目標,還能識別數據中未被標注的 “泛目標”(如土墩、石塊等),從而實現開放場景的目標檢測,提升系統的環境理解力。同時,與直接輸出 3D 目標的算法相比,占用網絡能對空間中的每個體素單元進行建模,因此對于不規則形狀或邊緣模糊的目標,可通過更豐富的幾何細節和結構信息增強整體環境表達能力。

      • 占用網絡強化三維建模,優于傳統 BEV 方法。與 BEV 方法相比,占用網絡的顯著優勢體現在目標表示方式上。BEV 采用二維平面投影,易丟失高度信息與空間結構特征;而占用網絡基于三維體素化網格,將物體分解為大量小立方體單元,能更準確地刻畫形狀特征,環境還原更接近真實。占用預測本身可與 BEV 結合 —— 通過將體素化特征映射到鳥瞰圖,在實現完整空間信息的同時增強可用性。體素感知使環境更直觀可查,場景還原也更接近真實。


      2.3 端到端智能駕駛第二階段(技術影響篇)

      第二階段:決策規劃模型化 /“占用網絡” 帶來的影響

      • 占用網絡強化識別能力,夯實自動駕駛安全根基。研究占用網絡對強化自動駕駛系統的環境感知能力具有深遠的戰略意義。一方面,通過對場景三維占用率的深入分析,系統能更精確地識別前景目標的位置、形狀與姿態,有效降低因目標識別偏差帶來的潛在安全風險。例如,在城市道路或拱橋等交通環境中,占用網絡可顯著提升對復雜三維特征(如異形車輛、不規則路障、非標準結構涵洞等)的識別精度,為車輛提供更具置信度的區分與理解能力,減少背景誤識帶來的冗余干擾。當前,特斯拉、Waymo、百度 Apollo 等頭部研發團隊正探索更高效的 BEV-Occupancy Network 感知與融合方案,以在真實道路環境中實現更高的識別精度與動態場景適應能力,這一方向被視為推動高級別智能駕駛發展的重要突破口之一。

      • 另一方面,三維占用率的預測不僅有助于提升目標檢測的準確性,還能增強系統對背景環境的區分與理解能力,減少背景誤識別帶來的冗余干擾。當前,特斯拉、Waymo、百度 Apollo 等頭部研發團隊正探索更高效的 BEV-Occupancy Network 感知與融合方案,以在真實道路環境中實現更高的識別精度與動態場景適應能力,這一方向被視為高級別智能駕駛發展的重要標桿之一。

      • 此外,占用網絡對場景檢測的賦能也十分顯著。借助對全三維場景的精確刻畫,車輛可實現更細致、更靈活的路徑規劃策略,尤其在多車交匯、動態障礙物復雜變道等困難場景下,展現出更強的環境適應能力。為全面提升性能,面對多樣化且不確定性較高的交通環境,占用網絡的引入顯著增強了自動駕駛系統的魯棒性與穩定性,使其在積水、雨雪、施工區域等復雜工況下仍能保持可靠的感知與決策性能。這類能力對于真正實現 L4/L5 級自動駕駛至關重要,也被視為高階智駕量產落地的關鍵技術基礎。


      2.4 端到端智能駕駛第三及第四階段

      第三及第四階段:OneModel / 模塊化端到端

      • 模塊化端到端(OneModel)通過深度學習將傳統 “感知 — 規劃 — 控制” 流程統一映射到單一模型中,減少因任務分解產生的累積誤差,實現整體優化。目前,特斯拉、Wayve、百度 Apollo、小鵬等企業均在加速布局相關技術路徑,這一方向正成為高階智能駕駛的重要演進路線。

      • 技術原理上,一般端到端模型通常包含四大核心模塊:(1)感知編碼器:基于 CNN 或 VIT 提取攝像頭、激光雷達、毫米波雷達等傳感器的多尺度特征;(2)環境理解模塊:通過時序建模(RNN、時間卷積、Temporal Attention)融合多模態信息,識別動態目標、道路結構與交通信號;(3)決策預測層:輸出減速趨勢、變道意圖、轉向方向等駕駛決策;(4)控制生成器:將決策結果轉化為執行信號,實現車輛實時響應。

      • 架構類型主要分為兩類:可解釋端到端(模塊化控制):在端到端框架下保留中間感知或預測模塊輸出,兼顧可調試性與安全性,Wayve、小鵬等多采用此類架構;黑盒端到端(One Model):直接輸出軌跡或控制信號,以特斯拉 FSD 為代表,技術上極度簡化但可解釋性和調用可預見性較弱。


      2.4 端到端智能駕駛第三及第四階段

      第三及第四階段:OneModel / 模塊化端到端技術的影響,主要體現在三方面

      • 數據驅動是端到端自動駕駛的核心支撐:端到端自動駕駛系統可分為強化學習與模仿學習兩類。強化學習依賴數百萬級樣本訓練,讓算法自主學習駕駛策略,對數據規模和算力要求極高;模仿學習則通過大規模標注數據與離線仿真,使算法快速復刻人類駕駛經驗,更適配量產場景的快速迭代。

      • 大規模數據與云端依賴構筑技術壁壘:端到端技術以數據為核心,需通過海量標注或無標注數據構建完整環境表征。尤其在高階智能駕駛場景中,云端訓練因能處理超大規模數據成為關鍵環節。數據體量、算力資源與云端訓練架構共同構成企業技術護城河,盡管端到端技術上限高、優化潛力大,但中心式系統也使其面臨算力與數據的持續投入壓力。

      • 數據成為智能駕駛行業的核心競爭資產:智能網聯汽車時代,數據是融合感知、決策、用戶體驗的關鍵紐帶。車企通過傳感器矩陣與云端構建數據閉環,數據的規模與質量直接決定智能駕駛能力的上限。智能駕駛的技術進步,本質是 “數據 — 算法 — 算力” 的循環迭代,優質數據閉環已成為車企競爭的核心壁壘。


      2.5 端到端智能駕駛已分化出兩種核心路徑

      當前智能駕駛技術格局已明確分化為VLA與世界模型兩條核心演進路徑:

      • 2024 年夏季以來,端到端(End-to-End)智能駕駛技術從 2023 年的 “單一路線主導”,發展為雙路徑并行的新格局。第一條路徑以 “視覺 — 語言 — 行為”(Vision-Language-Action,VLA)技術為核心,強調多模態信息的深度融合;第二條路徑聚焦物理級環境建模能力,即世界模型(World Model) 路線,其核心并非 “單一感知鏈路”,而是通過多組件并行實現對環境的全局理解與動態決策。

      • VLA 路徑:短期落地速度快,技術架構呈現 “感知 — 決策 — 控制” 的強邏輯鏈條,可拆解為四步:先通過圖像傳感器完成環境感知并生成符合人類視覺邏輯的特征;再將特征轉化為語言類 Token(如 “前方 50 米有靜止車輛,需變道至相鄰車道”);接著由大模型基于語言 Token 進行推理;最終將推理結果轉化為車輛執行信號,全程依賴數據驅動與大模型的泛化能力。

      • 世界模型路徑:與 VLA 的 “語言中介” 邏輯不同,它通過對物理環境的直接建模輸出決策。例如將攝像頭、激光雷達等多源感知數據輸入大模型,在云端完成物理規律建模(如車輛、行人運動軌跡預測),再結合車端實時感知數據,形成 “云端世界引擎 + 車端世界行為模型” 的架構,更側重對物理場景的深層理解與動態預測。


      三、VLA技術路線

      3.1 VLA 技術路線演進歷程

      驅動自動駕駛范式變革的核心力量

      • VLA 模型的快速發展正成為智能駕駛與通用機器人領域范式革新的核心動力。Vision-Language-Action(VLA)模型融合視覺(Vision)、語言(Language)與動作(Action)三大模態,構建統一的多模態表征與訓練框架,可將 “感知 — 理解 — 決策 — 控制” 的三階邏輯直接整合,實現感知、決策、控制的一體化。相較于傳統 “模塊化 / 兩段式端到端” 技術路線,VLA 的核心優勢在于多模態信息的深度融合,減少了中間信息丟失與人工規則依賴,成為感知、語義、決策與控制的統一載體;同時具備長時序記憶與跨場景泛化能力,是通用機器人與自動駕駛技術融合的關鍵基礎。

      • 從發展階段看,2023 年 7 月,關鍵論文《Mind the GAP》將 VLA 框架引入自動駕駛領域,通過融合大語言模型與多模態數據訓練,實現了任務理解與執行能力的顯著躍升,驗證了語言與動作深度融合的技術有效性,為智能駕駛技術路線的演進指明了方向。近期,學術界將 VLA 發展劃分為 Pre-VLA、Modular VLA、End-to-End VLA 與 Augmented VLA 四個階段,清晰梳理了其技術特征與演進脈絡,為產業落地提供了明確指引。


      3.1 VLA 技術路線演進歷程

      在 VLA 技術的量產落地進程中,小鵬與理想成為行業標桿

      • 技術路徑差異:2024 年 6 月,小鵬汽車在 G7 車型發布會上宣布 VLA 技術量產上車,7 月 29 日發布完整技術方案,其創始人將傳統端到端與 VLA 的區別類比為 “小腦” 與 “大腦”—— 傳統方案依賴 “運動小腦” 實現單一動作決策,VLA 則通過 “語言與世界模型” 實現 “大腦級” 的全局理解與決策。同期,理想汽車采取 “云端強化學習 + 端側模型蒸餾” 路徑:先在云端完成大模型強化學習,再將輕量化模型部署至車端,體現出企業在模型規模、數據閉環與推理效率上的技術取舍差異。

      • 工程化訓練進展:小鵬汽車于 2025 年 5 月完成工廠化訓練體系搭建,VLA 技術加速驅動智能駕駛能力迭代。在數據與模型優化上,小鵬實現了 “物理化 VLA 小模型” 與 “邏輯上分解的大模型” 協同訓練;理想汽車則同步推進三大訓練場景:車云同訓聚焦復雜場景,車端單卡訓練實現多場景覆蓋,小模型系統適配更多車型。隨著 VLA 部署的標準化與工程化,端到端自動駕駛在實際場景中的環境理解力、動作生成能力與泛化性將顯著提升,行業智能化曲線加速邁進。


      3.1 VLA 技術路線:頭部玩家與代表方案

      • 小米 ORION:屬于典型的三段式 VLA 架構,由 QT-Former、大語言模型(LLM)及生成式規劃器組成。流程為:先通過視覺編碼器對圖像進行編碼;再由 QT-Former 實現前后文關聯,連接視覺空間與 LLM 的多模態語義空間;最后由 LLM 整合場景特征、歷史視覺信息、用戶指令等多源信息,預測并輸出合理的駕駛規劃與控制信號。

      • 理想 MindVLA:是理想汽車自研的自動駕駛大模型,融合視覺、語言與行為智能,采用 3D 高維表征模塊與云端統一世界模型架構,具備對復雜交通標志的強識別能力。技術上基于 “視覺 - 語言 - 行為” 融合模型(VLM),包含三維空間編碼器、自聽 MSE 建模模塊及擴散模型軌跡優化模塊,可通過多模態自然語言交互實現高效人機溝通。

      • Waymo EMA:屬于模型驅動型方案,由編碼器與大語言模型構成。感知部分通過 EMA Gemini 大語言模型處理圖像、圖像描述等多源信息,再將多模態內容整合為統一語言框架,同時完成駕駛決策、場景理解等多任務,兼顧駕駛安全性與場景泛化能力。

      • 小鵬 XNGP VLA:聚焦 “去強依賴化 + 端側適配”,強調通過閉環體系實現大模型工程化落地。感知端采用多模態傳感器融合技術,構建環境三維語義;決策端通過多模態大模型實現環境理解;控制端將端側 VLA 模型與車輛控制系統深度耦合,形成 “感知 — 認知 — 行動” 一體化閉環,兼顧端側推理速度與實時性。


      3.2 VLA 技術路線核心特征與當下痛點:

      VLA 技術落地依賴3D 中間表征、長時序記憶、多模態融合三大關鍵抓手:

      • 3D 中間表征:實現 “感知 — 決策 — 控制” 的一體化。VLA 在車端與云端的高效運行依賴精準的 3D 中間表征,它是連接感知層與決策層的抽象載體,不僅能呈現場景的語義、結構、空間關系,還能融合感知與控制的動態交互信息。通過 “環境感知與決策” 的統一載體,支持復雜場景的時空推理與閉環控制,增強模型泛化性與魯棒性,也為路徑規劃、避障等多任務協同提供基礎。

      • 長時序記憶:應對動態場景的核心機制。自動駕駛決策需依賴長時序信息,大語言模型的天然長時記憶能力可彌補傳統算法的不足,使系統在多交互場景中理解交通流變化、預測突發狀況,提升決策準確性與可解釋性。

      • 多模態融合:是 VLA 環境理解的核心。它整合視覺、語義、運動等多源信息,通過 “感知層多模態融合→決策層車端運動狀態融合→控制層交通語義融合” 的多階段信息傳遞,實現對復雜場景的全面理解,提升模型對環境的動態適應與魯棒性,為環島、多車交互等多任務協同提供統一信息載體。


      3.2 VLA 技術路線工程化難點與當下痛點

      VLA 在工程化落地中面臨三大核心痛點:

      • 極端工況下的模型穩健性:在暴雨、強光、隧道明暗突變等場景中,感知模塊性能會明顯下降,語言指令也可能因識別誤差產生語義歧義。需解決環境動態變化下的模型自適應問題,例如在復雜工況中平衡感知精度與響應速度,避免因感知延遲或語義歧義導致決策失誤,這是 VLA 從 “可用” 到 “可靠” 的關鍵挑戰。

      • 長尾場景的泛化能力:對夜間施工、動物橫穿等小眾 “長尾場景” 的泛化是技術難點。大模型雖具備強語義表達能力,但在少樣本或零樣本場景下對特殊場景的理解仍有不足。需通過無標注數據學習、語義分解等方法增強模型對長尾場景的適配性,這是實現 “人 - 車 - 路” 動態融合的核心痛點。

      • 多源數據時序對齊與時空一致性:VLA 高效運行依賴攝像頭、雷達、語音指令等多傳感器的時序與空間同步,但實際工程中傳感器采集頻率、時序存在天然差異,導致數據不同步。需引入動態緩存、模態對齊中間表征等策略,這對系統架構設計、算力調度與實時性提出了更高要求。


      3.3 VLA 技術路線發展趨勢研判:

      VLA 技術在與傳統 E2E(端到端)、VLM(視覺語言模型)的對比中,呈現出獨特的技術優勢與演進方向

      • 與 E2E/VLM 的本質差異:傳統 E2E、VLM 存在感知精度受限、信息傳輸損耗、模塊協同不足等問題,而 VLA 通過多模態信息的深度融合,實現 “感知 — 決策 — 控制” 的一體化,在復雜場景中能更好地處理動態交互,既提升信息傳遞效率,又增強決策的可解釋性與魯棒性,是從 “感知決策” 到 “感知 - 理解 - 推理 - 行動” 的范式升級。

      • 與 “E2E+VLM” 融合方案的對比:在 “E2E+VLM(松耦合)” 方案中,E2E 負責感知層數據處理,VLM 作為系統級推理器,二者在架構上相對獨立;而 VLA 是 “感知 - 語義 - 動作” 的深度一體化,當接收到駕駛指令時,感知、決策、動作信號同步進入模型,在內部完成多模態信息融合,實現精準、實時的決策執行,是更高效的端到端技術路徑。

      • 技術演進方向:VLA 并非 “E2E+VLM” 的簡單疊加,而是向 “感知 - 理解 - 推理” 一體化的技術進階。它將高維感知與物理規律融入模型預測,從 “信號傳遞” 轉向 “認知驅動”,成為頭部車企長期技術布局的核心方向。從產業視角看,VLA 的出現標志著自動駕駛從 “功能實現” 向 “類人決策” 的架構轉型,是技術突破的關鍵路徑。


      3.3 VLA 技術路線發展趨勢研判:圍繞 “空間 - 時間 - 成本” 的系統化演進

      VLA 技術演進將圍繞空間精度、時間維度、成本優化三條核心路徑展開系統化升級:

      • 空間維度:從二維感知向三維語義世界進階。通過引入 3D 中間表征與 3D Gaussian Splatting 等技術,實現從傳統二維感知到高精度三維語義的跨越,為場景理解、動態預測提供更豐富的空間信息,推動 “感知 - 理解 - 推理” 一體化空間語義鏈路的形成。未來主機廠與 Tier1 將在該領域加速技術整合,構建自主的空間語義技術壁壘。

      • 時間維度:從短時記憶向長時歷史溯源升級。傳統端到端模型受限于短時記憶,而 VLA 通過大模型的長時序記憶能力,實現對歷史場景的 “檢索 - 關聯 - 預測”(例如車輛進入復雜路口時,模型可調用歷史場景經驗輔助決策),從 “當前感知” 延伸到 “未來預演”,大幅提升系統對動態場景的適應與預判能力。

      • 成本維度:從算力依賴向輕量化與高效化轉型。當前端側大模型部署受限于算力與功耗,需通過 Moe(Mixture of Experts)、端云協同推理等技術,在保證性能的前提下降低端側部署成本,同時為 OTA 快速迭代預留算力空間。Moe 與端云協同將成為高階智駕普及的關鍵技術支撐。


      四、世界模型技術路線

      4.1 世界模型技術路線演進歷程:從 “看見當下” 到 “內化世界”

      • 世界模型的本質是通過對真實世界的高維認知建模,賦予智能體環境理解、預測與規劃的能力。World Model 是一類能模擬、推演真實環境狀態的 AI 框架,它不只是對輸入信息的被動融合,而是通過還原物理規律構建 “虛擬世界”,實現對現實世界的 “內在理解” 與主動推理。與 “E2E/VLA” 不同,世界模型的核心在于對環境的 “內在建?!薄?允許系統在不依賴外部信號的前提下,在 “內部虛擬世界” 中完成對未來的演繹與規劃,類似人類駕駛時的 “預判” 能力,使智能體在復雜場景中具備更強的魯棒性與泛化性。

      • 當前,特斯拉、蔚來、鴻蒙智行等車企正加速布局世界模型技術路線,通過多傳感器融合、物理規律建模(如車輛 / 行人運動軌跡預測)、場景動態推演等方向推進。其與 VLA 的核心差異在于:VLA 依賴 “語言中介” 實現跨模態融合,而世界模型更聚焦 “真實環境的內在結構建?!?,通過構建與真實世界高度擬合的 “心算模型”,使車輛在復雜工況下的決策更接近人類駕駛員的認知邏輯。


      4.1 世界模型技術路線演進歷程 - 演進脈絡:重建→生成→可交互仿真

      • 階段一:Dyna 算法奠定理論基礎(1990 年代)世界模型的思想起源于強化學習領域。1990 年 Richard S. Sutton 提出的 Dyna 算法,通過 “學習 — 規劃 — 反應” 一體化框架,讓智能體不僅依賴真實環境交互,還能借助內部模型生成虛擬經驗,強化 “學習與模型雙向反饋” 的邏輯,為后續世界模型在復雜場景(如自動駕駛)的應用埋下理論伏筆,核心是 “虛擬環境推演” 的初步探索。

      • 階段二:理論向落地技術深度進階(2018 年)2018 年 David Ha 與 Jürgen Schmidhuber 發布《World Models》論文,標志世界模型從理論走向落地。該階段將其引入深度強化學習領域,構建 “感知 — 建模 — 規劃” 閉環,使智能體在自動駕駛等動態場景中可通過 “內部模擬” 做規劃決策。相比 Dyna,此階段世界模型的表征能力、預測精度顯著提升,初步展現落地可行性。

      • 階段三:以 Dreamer 系列為代表的技術加速落地(2019 年至今)2019 年 Dreamer、Muzero 算法,2022 年 LoRn 提出的 JEPA 模型,以及 2023-2024 年的 DreamerV3、Daydream、Vita 的 Ultralight 等視頻生成與語言融合型世界模型持續迭代。核心是讓自動駕駛系統實現 “感知 — 決策 — 控制” 閉環,“虛擬世界推演” 成為主流,使智能體突破 “感知 — 決策” 的端到端局限,具備更強大的場景泛化與決策能力。


      4.1 世界模型技術路線演進歷程 - 頭部玩家與代表方案

      • Waymo(Waymo Foundation Model)采用 “云端大模型 + 車端小模型” 的 “教師 — 學生” 架構實現高效部署:云端模型負責大規模場景模擬與推理,車端模型在實際行駛中實時完成感知、預測與決策,并按需進化能力與響應速度。該方案具備強環境泛化能力,可應對雨天、極端光照、道路施工等 “長尾場景”;同時依托自研 Depots 運營體系,深度融合世界模型與車輛運營,實現自動進出停車場、充電與快速調度,大幅降低 L4 級自動駕駛落地成本,驗證了技術商用價值。

      • 華為(MagicDriveVIT)MagicDriveVIT是華為聯合高校推出的新一代 DIT 架構,核心是通過時空條件式大氣語言模型,將環境語義與動態要素統一建模,實現場景高維理解與聯合推理。相比傳統端到端方案,其在多車協同、變道及惡劣天氣下的泛化能力更突出,可在 100 毫秒內推演 216 種軌跡并生成 120 秒預測視野,兼具高效性與可解釋性,是無地圖自動駕駛的關鍵技術路徑之一。

      • 蔚來(NOMM)由蔚來自動駕駛團隊研發,具備全量語義理解與多無軌運動預測能力,可在閉環系統內支撐 16 類戰術避障并生成 120 秒預測視野。算力層面依托 4×Orin-X 芯片、高通 SA8195P、英偉達 Nadrade 2.0 架構實現群體智能協同,為智能駕駛提供強大算力支撐。新 NOMM 系統支持自動泊車、高速變道避障、車位級導航等 30 + 場景,系統能力持續迭代,是蔚來高階智駕的核心技術壁壘。


      ? 如欲獲取完整版PDF文件,可以關注鈦祺汽車官網—>智庫,也可以添加鈦祺小助理微信,回復“報告名稱:智能駕駛深度報告:世界模型與VLA技術路線并行發展 ”。

      點擊下方,查看近期熱門行業研究報告

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      46畝!4.61億!民企展宇競得溫州市區一高低配宅地!

      46畝!4.61億!民企展宇競得溫州市區一高低配宅地!

      樓市IN溫州
      2025-12-26 11:29:04
      劉芳菲登門向龐叔令道歉!龐叔令家首曝光,除了藏品外,太簡樸

      劉芳菲登門向龐叔令道歉!龐叔令家首曝光,除了藏品外,太簡樸

      張例喜歡軟軟糯糯
      2025-12-26 22:04:51
      女子與男網友喝酒被勸酒駕,撞車剮蹭遭索賠10萬私了;警方披露:男子發現女方有些財力開豪車,自導自演碰瓷,5人被刑拘

      女子與男網友喝酒被勸酒駕,撞車剮蹭遭索賠10萬私了;警方披露:男子發現女方有些財力開豪車,自導自演碰瓷,5人被刑拘

      極目新聞
      2025-12-26 22:04:36
      鹿泉區人大常委會組織石家莊市人大代表開展會前視察活動

      鹿泉區人大常委會組織石家莊市人大代表開展會前視察活動

      公民與法治雜志社
      2025-12-26 14:23:15
      撕破臉了?罵張柏芝三胎全是賠錢貨,向太出手曝光寧靜嫁老外內幕

      撕破臉了?罵張柏芝三胎全是賠錢貨,向太出手曝光寧靜嫁老外內幕

      喜歡歷史的阿繁
      2025-12-26 01:24:55
      毒霧繼續鎖城,新德里萬人出逃,喜馬拉雅化身生態門神

      毒霧繼續鎖城,新德里萬人出逃,喜馬拉雅化身生態門神

      華山穹劍
      2025-12-26 21:13:11
      歐拉弄真頭鐵,甩臉不滿蘇提達王后當她仆人,轉頭泰王又公開站她

      歐拉弄真頭鐵,甩臉不滿蘇提達王后當她仆人,轉頭泰王又公開站她

      另子維愛讀史
      2025-12-26 16:21:17
      宇航員登月回歸后精神失常,死前坦言:人類不應踏足遠方

      宇航員登月回歸后精神失常,死前坦言:人類不應踏足遠方

      清茶淺談
      2024-12-20 22:30:46
      海南封關成照妖鏡,東南亞國家挨個現行,新加坡直言不準自給自足

      海南封關成照妖鏡,東南亞國家挨個現行,新加坡直言不準自給自足

      離離言幾許
      2025-12-26 14:16:02
      解放軍突然圍島,臺媒急了!要求大陸對臺再讓利 “軟的要更軟”

      解放軍突然圍島,臺媒急了!要求大陸對臺再讓利 “軟的要更軟”

      小蘭聊歷史
      2025-12-26 19:54:04
      太夸張了!iPhone 17 單月銷量超 600 萬臺,創歷史新紀錄

      太夸張了!iPhone 17 單月銷量超 600 萬臺,創歷史新紀錄

      XCiOS俱樂部
      2025-12-26 19:34:41
      終究是瞞不住的!低價買走這幅古畫的“顧客”,其實不神秘

      終究是瞞不住的!低價買走這幅古畫的“顧客”,其實不神秘

      忠于法紀
      2025-12-24 21:39:36
      47歲吳建豪暴瘦,1米8才100斤,尖嘴猴腮像老頭,健康狀況引擔憂

      47歲吳建豪暴瘦,1米8才100斤,尖嘴猴腮像老頭,健康狀況引擔憂

      法老不說教
      2025-12-02 23:15:23
      支持中國分裂,拒飛內地航線,歧視大陸游客的國泰航空,如今怎樣

      支持中國分裂,拒飛內地航線,歧視大陸游客的國泰航空,如今怎樣

      小莜讀史
      2025-12-15 21:00:06
      我入院要10萬手術費,父母電話不接,2年后我媽:你弟結婚缺錢

      我入院要10萬手術費,父母電話不接,2年后我媽:你弟結婚缺錢

      堇色夜行
      2025-12-22 11:54:52
      《治安管理處罰法》第80條引發公眾「私域監控、親密關系」焦慮

      《治安管理處罰法》第80條引發公眾「私域監控、親密關系」焦慮

      普通人ThePeople
      2025-12-26 10:38:33
      全面停止進口,一票否決!日本徹底傻眼,三十五年布局白費!

      全面停止進口,一票否決!日本徹底傻眼,三十五年布局白費!

      小曙說娛
      2025-11-30 01:23:05
      郭晶晶給大女兒慶8歲生日,79歲霍震霆慈眉善目,家庭氛圍好融洽

      郭晶晶給大女兒慶8歲生日,79歲霍震霆慈眉善目,家庭氛圍好融洽

      章眽八卦
      2025-11-27 13:31:50
      和睦家醫院回應女明星生產信息疑被泄露

      和睦家醫院回應女明星生產信息疑被泄露

      老頭的傳奇色彩
      2025-12-26 20:56:57
      勇士126-116獨行俠!巴特勒看清現實,庫里賽后表態也成重中之重

      勇士126-116獨行俠!巴特勒看清現實,庫里賽后表態也成重中之重

      魚崖大話籃球
      2025-12-26 11:50:19
      2025-12-27 04:51:00
      數字巨變家
      數字巨變家
      專注數字化轉型,將復雜數據化為創新力量。與我共探數字未來!
      2349文章數 2786關注度
      往期回顧 全部

      科技要聞

      收割3000億!拼多多"土辦法"熬死所有巨頭

      頭條要聞

      老人婚宴上被提醒孫女非親生 做鑒定后忍3年忍不了了

      頭條要聞

      老人婚宴上被提醒孫女非親生 做鑒定后忍3年忍不了了

      體育要聞

      開翻航母之后,他決定親手造一艘航母

      娛樂要聞

      王傳君生病后近照變化大,面部浮腫

      財經要聞

      投資巨鱷羅杰斯最新持倉:只留四種資產

      汽車要聞

      兩大CEO試駕 華為乾崑*啟境開啟首款獵裝轎跑路測

      態度原創

      旅游
      藝術
      家居
      房產
      軍事航空

      旅游要聞

      椰林映火箭!文昌東郊藏著海南最動人的山海答卷

      藝術要聞

      你絕對想不到,佛陀微笑隱藏的秘密竟然是!

      家居要聞

      格調時尚 智慧品質居所

      房產要聞

      炸裂,三亞360億超級清單發布,又一批重大配套要來了!

      軍事要聞

      烏最新20點俄烏和平草案遞交莫斯科 俄方拒絕

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲日韩?国产丝袜?在线精品| 日本成本人片免费网站| 伊人网视频| 日韩人妻无码精品| 日产国产精品亚洲系列| 久久久久欧美精品| 看免费真人视频网站| 国内成人综合| 曾医生17分钟??下载| jlzz大jlzz大全免费| 精品人体无码一区二区三区| 人妻无码av中文系列久| 人妻综合第一页| 另类一区| 欧美精品福利| 无码国模在线观看| 日韩一区二区三区三四区视频在线观看| 国产自偷自偷免费一区| 丰满妇女毛茸茸刮毛| 日韩人妻无码精品系列| 亚洲人人妻| 国产精品久久..4399| 成人午夜视频一区二区无码| 久久天天躁狠狠躁夜夜av| 成人在线一本之道| 成人福利国产午夜AV免费不卡在线| 日本边添边摸边做边爱的网站| 欧美影院成年免费版| 91热| 99精品国产高清一区二区麻豆 | 亚洲精品系列| 国产亚洲视频在线播放香蕉| 日韩熟女AV| www.youjizz.com国产| 灯塔市| 大香蕉欧美| 新视频SSS欧美整片| 久青草久青草视频在线观看| 婷婷开心深爱五月天播播| 中文字幕无码精品亚洲35| 欧美在线视频99|