![]()
一個模型,改變行業(yè)。
作者|張麟
如今,討論自動駕駛系統(tǒng)的終極模型架構究竟是VLA還是世界模型,對實現(xiàn)L4自動駕駛能力已經(jīng)變得毫無意義。
3月2日,小鵬汽車舉辦了馬年春節(jié)后的第一場發(fā)布會,宣布第二代VLA正式推送。就內(nèi)容而言,這場發(fā)布會上展示的第二代VLA大模型以及純電版小鵬X9早已亮相,并沒有傳統(tǒng)意義上的全新重磅產(chǎn)品發(fā)布。
但從發(fā)布時間來看,小鵬汽車對第二代VLA的重視程度可見一斑。
![]()
小鵬汽車第二代VLA即將開始推送,圖片來源:小鵬汽車
在何小鵬看來,能力邊界有限的端到端小模型以及打補丁式的智駕場景拓展,終究無法完成自動駕駛行業(yè)從L2向L4級別的跨越,過于追求將智駕大模型的架構進行分類,也對整個行業(yè)的發(fā)展毫無益處。
何小鵬想追求的,是一個全新的大模型架構,這個架構能夠擁有全場景的智駕能力,具備極強的泛化性,能夠輕松部署在家用車、Robotaxi或機器人等不同硬件本體上,同時還能快速迭代,不斷進化。
這個全新的大模型,就是小鵬第二代VLA。
雖然名字里仍帶有“VLA”,但本質(zhì)上,這個全新的智駕大模型已經(jīng)開創(chuàng)了全新物理模型范式,是首個在物理世界實現(xiàn)直接由「Vision」生成「Action」,去掉語言轉換環(huán)節(jié),模型架構更簡潔,更徹底的「端到端」,直接學習真實的物理世界。
1.目標:絕對領先
2026年開年,廣州小鵬科技園,一場針對小鵬第二代VLA的特殊試駕正在進行。參與試駕的不是媒體,也并非明星,而是小鵬汽車“媽媽食堂”里員工的爸爸媽媽們,他們一開始緊張、忐忑,但很快就“放開手腳”,放下了心。
在試駕過程中,何小鵬提及自己的媽媽對于新事物的接受過程要稍微慢一點,讓媽媽們都放心是一個非常重要的目標,智能駕駛也要從“極客”嘗鮮到“大眾”常用,讓爸爸媽媽們也愛開。
小鵬通用智能中心負責人劉先明的表態(tài)則更加直白:"小鵬第二代VLA可能是目前中國最領先的智駕系統(tǒng),是與行業(yè)拉開代際差距的時刻。"
那么,小鵬第二代VLA能做到什么程度?
根據(jù)公開資料,小鵬第二代VLA指令輸出延遲壓縮到了80毫秒以內(nèi);車輛重剎減少99%、急加速減少98%、頓挫減少89%;復雜小路的平均接管里程提升至約260公里。
此外,近日多家媒體專門挑荒地、土路、坑路來挑戰(zhàn)第二代VLA的能力極限,即使是雨雪天氣NGP功能依舊可以自如使用。
單純的數(shù)據(jù)并不能全面說明小鵬第二代VLA的性能表現(xiàn),在公開的無剪輯路測視頻中,能夠明顯看到小鵬汽車在會車、跟車、進出主路及識別障礙物、行人甚至路面深坑方面的優(yōu)秀表現(xiàn)。
雖然目前小鵬第二代VLA尚未正式推送,但其一直在保持著高速迭代,以實現(xiàn)性能和路試表現(xiàn)的不斷提升。
據(jù)了解,自2025年11月至2026年2月底,小鵬第二代VLA已開發(fā)了468版模型,在容錯率、穩(wěn)定性、效率、數(shù)據(jù)讀取等多個方面都有顯著提升。
何小鵬對「甲子光年」等媒體表示:“今天媒體朋友能試駕的版本,很可能是我們上個月的版本,而我們現(xiàn)在迭代出來的最新版本,性能又會比一個月前有極大提升。”
除了所謂的體感差異,高頻次地版本迭代也小鵬第二代VLA擁有了一些直觀的功能升級。比如無目的地漫游、可以原地激活NGP等。
“我們希望做到千公里級的人工接管,而非行業(yè)中普遍的百公里級。”這是何小鵬對第二代VLA性能體最直接的考核指標。但他也指出,接管里只是其中一個維度,全場景都能開、完全放心、超高效率,才是小鵬做自動駕駛的目標。
2.做不到感知物理世界,就沒有真正的自動駕駛
嚴格來說,自動駕駛行業(yè)至今都沒有實現(xiàn)完全地“自動化”,甚至不同場景下究竟通過怎樣的技術手段和大模型范式來實現(xiàn)自動駕駛,業(yè)內(nèi)都沒有形成統(tǒng)一的結論。
所以何小鵬在發(fā)布會上說:“過去的L2級別的輔助駕駛,就是‘縫合怪’。”
比如,曾經(jīng)的高速場景嚴重依賴高精地圖和規(guī)則驅(qū)動;城區(qū)場景則通過占用網(wǎng)絡、強化學習和大量的Corner Case數(shù)據(jù)訓練;園區(qū)場景則通過多模態(tài)融合和低速控制算法來實現(xiàn)。
但實際上,用戶或許根本不需要了解自己的車采用了什么模型架構或技術路徑,只要好開就行。所以劉先明在回答「甲子光年」提問時說:“大家一直在糾結VLA和世界模型的概念,但我們真的需要這么多概念嗎?可能不需要。”
在這種頗具第一性原理的思考下,小鵬汽車以基座模型為基礎,輔以世界模型創(chuàng)造的閉環(huán)仿真空間和強化學習框架,最終成為既是VLA、也是世界模型的全新架構。
時間回到2024年初,那時小鵬汽車便開始布局AI基礎設施,并很快建設成了國內(nèi)汽車行業(yè)首個萬卡智算集群;當年下半年,小鵬汽車開始了參數(shù)規(guī)模高達720億的“小鵬世界基座模型”的研發(fā)。
這個基座模型,可以簡單認為是如今的第二代VLA大模型的“母體”。
從模型本身來看,世界基座模型的參數(shù)量是當時的車端主流VLA的35倍,具有鏈式推理能力,并能將推理結果轉化為行動。
這種鏈式推理能力,放在小鵬第二代VLA上,就是所謂的視覺推理思維鏈(Visual Chain of Thought,Visual CoT)技術,這種技術將思維鏈推理效率提升了32倍,相比傳統(tǒng)CoT預測誤差降低33%。
![]()
小鵬第二代VLA可應對物理世界復雜問題,圖片來源:小鵬汽車
在實際運行過程中,比如在“看”到前方慢車時,第二代VLA的Visual CoT將會自動生成多個方案:激進變道、穩(wěn)健變道以及保持跟隨,并會根據(jù)其他道路信息推理出最優(yōu)解執(zhí)行。
這就是小鵬第二代VLA“聰明”體感的來源,該變道的時候不猶豫,不該變道的時候不莽撞。單純地在端到端小模型上進行功能修補,很難達到這種決策邏輯和執(zhí)行水平。
第二代VLA還展現(xiàn)出了對開放世界場景的理解能力,比如避讓救護車,這一行為并非大模型識別到“救護車”這一預設物體后執(zhí)行避讓指令,而是在理解“后方有特種車輛需緊急通行”這一完整場景后,自主生成了讓行決策。
這種被業(yè)界稱作“涌現(xiàn)”的功能,同樣源于世界基座模型的物理世界感知。
當然,從世界基座模型到第二代VLA,小鵬還需要面對工程化的問題。據(jù)了解,小鵬汽車從模型到軟件、從到編譯器再到芯片都做了聯(lián)合優(yōu)化,并在輸入端實現(xiàn)了token/video壓縮(TOKEN compression)來減少帶寬與計算負擔。
綜合來看,小鵬第二代VLA的能力來源于世界基座模型,但世界基座模型所創(chuàng)造出的全新模型范式,遠遠不止一個第二代VLA。
3.泛化能力和行業(yè)突破
無論第二代VLA的性能得到了怎樣的提升,宏觀來看,其都不僅僅是為了讓小鵬汽車的自動駕駛能力短期內(nèi)更為出眾,在小鵬汽車的計劃中,或許利用世界基座模型發(fā)展出泛化能力強大的、能夠在多類智慧本體上應用的物理世界交互系統(tǒng),才是最終目的。
何小鵬對「甲子光年」等媒體表示:“在今天全球科技發(fā)展的情況下,L2的下一個臺階就是L4,中間專門加一個L3實際對于硬件、軟件、法律法規(guī)都是挑戰(zhàn)。”
過去,行業(yè)普遍認為L2和L4是兩個賽道:用的是兩種方法,兩套硬件體系,甚至是兩種商業(yè)邏輯。比如L2或L3級別自動駕駛系統(tǒng)更多用于家用車,而L4級別的僅在Robotaxi和無人物流行業(yè)落地。
但現(xiàn)在自動駕駛行業(yè)已經(jīng)發(fā)生了很大的技術范式變化。傳統(tǒng)的研發(fā)L4級自動駕駛系統(tǒng)的公司,產(chǎn)品能力的提升仍停留在通過大量的運營車輛、數(shù)據(jù)采集以及高精地圖建設的技術手段,但這種邏輯帶來的問題是自動駕駛系統(tǒng)能力的上限極低。
而L3級別的自動駕駛只能在特定路況下,允許駕駛員“脫手”駕駛,但仍要求視線保持在道路上,且存在駕駛責任主體在車輛和駕駛員之間頻繁轉移的情況。
所以,通過底層技術范式和模型架構的改變,徹底解決自動駕駛泛化性問題已經(jīng)被全行業(yè)提上日程。
劉先明將這種底層技術的改變,總結成了一個簡單的公式,他認為自動駕駛的本質(zhì)問題是物理AI問題,即L4自動駕駛能力=模型 x 算力 x 數(shù)據(jù) x 本體。
![]()
小鵬汽車“自動駕駛公式”,來源:小鵬汽車
公式簡單不意味著很容易實現(xiàn),比如數(shù)據(jù)環(huán)節(jié),物理世界的數(shù)據(jù)的復雜度很高,輸入信號是連續(xù)的非結構化數(shù)據(jù), 并且涉及復雜的真實世界交互。在小鵬第二代VLA發(fā)布會上,何小鵬說:“新的車端模型推理Token消耗量,約等于全國數(shù)字AI Token日調(diào)用量的80倍。”
而小鵬汽車正在通過底層技術架構的革新,讓模型、算力、數(shù)據(jù)都能發(fā)揮出最大效能,并最終實現(xiàn)真正意義上的自動駕駛。
奉行這種通過底層技術改變來提高自動駕駛泛化能力邏輯企業(yè)不止小鵬汽車一家。2025年10月,特斯拉AI部門副總裁Ashok Elluswamy在分享FSD的最新進展時,表示FSD正在通過以視頻為主的多模態(tài)輸入進入端到端模型,直接輸出控制指令,感知-預測-決策-控制可在同一神經(jīng)網(wǎng)絡中耦合回傳。
這一整體框架幾乎就是端到端大模型與世界模型的融合,為此,特斯拉還開發(fā)了一個“神經(jīng)世界模擬器”,用于根據(jù)當前狀態(tài)與下一步動作生成未來狀態(tài),從而進行端到端大模型的性能評估。
![]()
特斯拉“神經(jīng)世界模擬器,圖片來源:特斯拉
這種模型架構幾乎與小鵬汽車的世界基座模型無異。
何小鵬在發(fā)布會上說:“我覺得我們是換道超車了,我們做到全新的架構了,但一去(美國)發(fā)現(xiàn)他們也已經(jīng)切換了。”兩家企業(yè)的判斷,再次“不謀而合”。
這種全新的模型架構不僅可能讓整個自動駕駛行業(yè)完成從L2到L4的躍遷,還有希望實現(xiàn)汽車本體、具身智能甚至低空飛行器的智能化提升。
比如小鵬汽車的世界基座模型能夠?qū)崿F(xiàn)多模態(tài)指令輸出,能夠輸出語音信息、視覺顯示信息、動作、行為等等,這意味著其蒸餾出的車端模型不僅在智駕系統(tǒng)上能用,智能座艙系統(tǒng)也能用。
劉先明表示:“在自動駕駛上驗證過的AI能力和底層架構,可以大規(guī)模遷移到座艙上,讓整車真正成為一個有機的智能體,而不是一個功能割裂的東西。”
同時,根據(jù)小鵬汽車的計劃,2026年底將量產(chǎn)應用人形機器人,如果第二代VLA保持每天4版的迭代速度,或許在移植到人形機器人上時,后者也能擁有不錯的運動控制表現(xiàn)。
模型的泛化能力,不僅是提高自動駕駛性能的工具,其更深遠的意義,在于它正在回答一個關乎智能本質(zhì)的終極命題:機器能否真正理解并進入物理世界?
小鵬汽車建立智算集群、研發(fā)物理AI大模型,實際上是在搭建一個能夠被不同形態(tài)產(chǎn)品共用的底層“物理AI操作系統(tǒng)”,一旦這種操作系統(tǒng)被驗證,其衍生出的智能控制系統(tǒng),不會僅僅停留在方向盤上。
所以,第二代VLA打破因技術瓶頸而產(chǎn)生的“自動駕駛空氣墻”只是開始,打破所有機器與現(xiàn)實世界交互的“墻”,才是小鵬汽車正在做的事。
(封面圖來源:小鵬汽車)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.