網易首頁 > 網易號 > 正文申請入駐

VLA 與世界模型決戰：智駕落地的關鍵，是融合效率

2026-03-23 22:02:38　來源: 雷科技

廣東舉報

分享至

智駕行業最近非常熱鬧，各種高階智駕方案扎堆亮相，一個比一個能打：

華為乾崑發布896線雙光路激光雷達，ADS 4.0 智駕能力再上一個臺階；
小鵬發布 VLA 2.0 新一代高階智駕系統，直接對標 L4 級能力；
Momenta 將在 ID.ERA 9X 首搭 R7 世界模型智駕，實現從 L2+ 到 L4 級智駕的跨越；
理想發布 MindVLA-o1 的 VLA 方案，同樣瞄準 L4 級高階智駕；
地平線HSD 走普惠路線，“上車” iCAR V27 獵鷹 700。

梳理下來，企業在智駕模型架構的選擇上大致分為兩條路線：理想、小鵬偏好VLA模型架構，華為乾崑、Momenta則押注世界模型架構。

兩條路線本可以并行發展，但兩邊陣營的擁躉卻爭論開了。

有人認為，世界模型對芯片算力要求高、交互能力偏弱，對下沉車型不太友好；也有人覺得，VLA 的物理精度表現一般，可能會影響車輛的實時判斷能力。

（圖源：微博直播截圖）

事實真如大家爭論的那樣，VLA 和世界模型必須二選一？各家企業又如何解決高階智駕模型的技術痛點？

VLA 擬人行車邏輯，世界模型精于物理推演

在討論兩種智駕路線是否需要二選一之前，我們應先看清二者的技術底層差異，才能做出客觀判斷。

先來說說 VLA，這是視覺、語言、動作集合的簡稱。這條技術路線，走的是從圖像感知到語義定義，再到邏輯決策，最終實現動作輸出的路徑，整個駕駛決策流程和真人開車的思路幾乎一致。

比如在遇到一個無紅綠燈路口，VLA 會先識別路口有無突然出現的行人、非機動車等不確定因素，如果沒有這些情況則將按照禮讓行人、直行優先的交規準則，作出減速避讓通行的決策。

這個過程和我們平時遵循的“一看二望三通行”的駕駛邏輯相似，是經過思考和推理作出的決策，即便是沒有遇過的場景，車輛也會根據邏輯泛化做出合理判斷。

（圖源：電車通攝制）

再看世界模型，它的底層邏輯是基于物理引擎的動態模擬，運作流程完全不同。

從過程來看，世界模型是先通過激光雷達和攝像頭同步掃描周邊環境，為智駕芯片構建出車輛周圍的實時路況模型，再由智駕芯片完成物理推演，最終下達行動決策，整個過程更像是一臺高精度運轉的“交通模擬器”。

世界模型是根據海量數據訓練物理規則做出的推演，優勢是標準化場景下精度極高，可一旦碰到訓練庫之外的非標場景，就容易出現決策僵硬的問題。

比方說遇到行人過馬路的場景，它不會像人類一樣優先主動禮讓，而是會精準計算行人運動速度、車輛制動距離、兩車交匯時間差等數據，規劃出一條最優行駛軌跡，也正因如此，往往會出現不主動禮讓行人的情況。

VLA 善于適配城市場景，世界模型更為精準

在實際使用場景上，VLA 的核心優勢是能更好地應對未知、多變的規劃路線，而世界模型對于端到端的理想路況有更好的適應力。

國內城市道路擁有最豐富、最復雜的道路駕駛環境，經常能遇到突然出現的施工路段、非標路口、臨時交通管制、突然闖出的行人及電動車，這些都給智駕技術提出了不小的挑戰，而 VLA 能更好地適應這種情況。

靠著擬人化的邏輯推理，VLA 能快速處理這些突發狀況，遇到阻礙時會主動規劃繞行路線，而非固守預設軌跡停滯不前。從場景適配性來看，VLA無疑更適合復雜的城市道路駕駛。

正因如此，小鵬在展示 VLA 2.0 技術時，沒有選在空曠的開發新區、衛星城等理想的測試環境，而是把搭載 VLA 2.0 技術的測試車直接開進廣州路況最為復雜、駕駛難度最高的城中村，直接將挑戰系數拉滿。而實際測試的結果是，其 VLA 2.0 智駕技術能很好地完成在非標場景的駕駛。

不過，VLA 技術存在物理精度表現一般的痛點，在一些精度要求較高的駕駛要求上，它的表現會不如世界模型。之所以會有這種情況，恰恰源于其自身的架構基因。

VLA 是基于“語義思考”再做判斷決策的，攝像頭識別到的物體會轉換成語言 token，再由大模型推理作出決策。

這種運作模式帶來的直觀差異是，VLA輸出的是“前方有車”“距離有點遠”“行人要過馬路”這類描述性信息，而智駕芯片實際需要的，卻是“距離3.72米”“速度42.5km/h”“1.2秒后會相交”這類精準量化反饋，二者的信息維度差異，直接導致了VLA物理精度的不足。

反觀物理精確度，正是世界模型的核心優勢所在。正因如此，在端到端的高階智駕場景里，搭載世界模型技術的車輛，能夠輕松實現車位到車位的精準預判駕駛，同時在能耗控制與行車安全性把控上，表現也更為出色。

不過與之對應的是，世界模型的適用場景范圍相對局限，遠沒有VLA寬泛，它更適合高速路、封閉園區、城市快速路這類路況規整、變數較少的標準化道路。

（圖源：鴻蒙智行官網）

除了場景適配局限，世界模型還有兩大明顯劣勢：一是高度依賴高算力芯片，二是自然語言交互能力較弱。

由于需要完成大規模的數據實時推演，世界模型對算力消耗極大，對智駕芯片的性能要求極高，這也直接導致，常規基于世界模型打造的智駕車型，整體售價居高不下，難以實現普惠。

當然，這一劣勢由于技術的升級而逐步得到改善。

目前最直接的例子就是，華為乾崑近期發布的896線激光雷達，已經應用在20萬級別的尚界Z7/Z7T、問界M6上。通過硬件成本下探、算力架構持續優化，原本對芯片要求極高的世界模型，也能在主流價位車型上穩定落地。

即便同樣主打端到端智駕，基于世界模型打造的地平線HSD方案，已經成功實現高階智駕技術下放，將其普惠至15萬元級別的主流家用車型，徹底打破了世界模型智駕成本居高不下、難以普及的固有認知。憑借這套高性價比的智駕方案，地平線征程芯片累計出貨量更是突破1000萬，成功賦能超500款車型落地，讓世界模型技術的普惠化成為可能。

另一方面，世界模型對于自然語言交互能力不及 VLA，比如在使用智駕時，駕駛員發出“前面車太慢，找機會超了它”“別跟大車太近”“前面靠邊停一下”等指令，可能得不到世界模型的及時響應，它依舊會根據設定的路線“自顧自地開”，稍微不夠靈活。

雙引擎協同互補，是實現L4智駕的趨勢

既然VLA與世界模型兩條技術路線各有優劣、場景適配互補，那能否將二者優勢結合，取長補短打造出更完善的高階智駕方案？

答案顯然是肯定的，行業內也早已開始布局這種融合式技術路徑。

小鵬 VLA 2.0、理想 MindVLA-o1、Momenta R7強化學習世界模型正是將兩者融合的代表方案，業內也將其稱作智駕“雙引擎”模式。

以Momenta R7為例，這套大模型就是在強化學習的基礎上引入了世界模型，讓AI能夠逐步理解世界的物理本質，包括物體的物理屬性、運動的因果關系以及交互過程中的潛在可能，不再只是簡單地模仿駕駛動作。

在這套協同架構里，世界模型承擔“底層基建”的核心角色，依托激光雷達與算力支撐，在云端構建高精度物理仿真環境，生成海量長尾極端場景，完成物理軌跡規劃與底層數據訓練，筑牢智駕的精準執行基礎。

VLA則主攻“上層決策”，依托世界模型的精準物理預判，結合自身擬人化語義邏輯推理能力，專門處理復雜道路社交場景、非標突發路況，做出更貼合人類駕駛習慣的柔性決策。

兩者“合體”落到實際使用場景中可能是這樣的：駕駛者啟動了端到端的智駕，車輛駛出車位，在馬路上遇到行人，實現禮讓行人后通行。在智駕過程中，駕駛者想到路邊買瓶水，用語音指令讓車輛靠邊停車等待，待駕駛者上車后，車輛自動駛往目的地停車位，從而實現整個智駕流程，駕駛者無需接管。

（圖源：理想官網）

這種融合架構，既解決了世界模型“不懂變通”的問題，又彌補了VLA“效率不足” 的缺陷，讓智駕系統既能精準算物理軌跡，又能靈活懂社交規則，真正接近人類司機的駕駛水平。

這既是 VLA 和世界模型合體的魅力，也是 L4 級高階智駕的設想，當然它也許可以做到更多。

（圖源：理想官網）

這也印證了，下一代智駕技術的發展方向，從來不是非此即彼的路線之爭，而是通過分層協同、精細化打磨，讓一套系統適配全場景復雜路況，再依托持續完善的數據閉環迭代，讓智駕系統隨著使用不斷優化，變得越來越聰明。

可以預見的是，未來 1-2 年，雙引擎智駕方案必然會成為大多數頭部車企的選擇，整個行業的競爭焦點也不再是單一技術路線的比拼。

更何況，現在已經車企，以及地平線等智駕企業在這一點上發力。想必不用等太久，高階智駕就能真正落地到日常開車里，不再是高價車的專屬，既能算得準、走得穩，又能靈活應對各種突發狀況，實實在在貼合普通人的用車需求。

（封面圖源：電車通攝制）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.