小鵬汽車：沒有基座模型，何談物理AI

2026-03-12 12:52:48　來源: 甲子光年

北京舉報

分享至

一個模型，改變行業(yè)。

作者｜張麟

如今，討論自動駕駛系統(tǒng)的終極模型架構究竟是VLA還是世界模型，對實現(xiàn)L4自動駕駛能力已經(jīng)變得毫無意義。

3月2日，小鵬汽車舉辦了馬年春節(jié)后的第一場發(fā)布會，宣布第二代VLA正式推送。就內(nèi)容而言，這場發(fā)布會上展示的第二代VLA大模型以及純電版小鵬X9早已亮相，并沒有傳統(tǒng)意義上的全新重磅產(chǎn)品發(fā)布。

但從發(fā)布時間來看，小鵬汽車對第二代VLA的重視程度可見一斑。

小鵬汽車第二代VLA即將開始推送，圖片來源：小鵬汽車

在何小鵬看來，能力邊界有限的端到端小模型以及打補丁式的智駕場景拓展，終究無法完成自動駕駛行業(yè)從L2向L4級別的跨越，過于追求將智駕大模型的架構進行分類，也對整個行業(yè)的發(fā)展毫無益處。

何小鵬想追求的，是一個全新的大模型架構，這個架構能夠擁有全場景的智駕能力，具備極強的泛化性，能夠輕松部署在家用車、Robotaxi或機器人等不同硬件本體上，同時還能快速迭代，不斷進化。

這個全新的大模型，就是小鵬第二代VLA。

雖然名字里仍帶有“VLA”，但本質(zhì)上，這個全新的智駕大模型已經(jīng)開創(chuàng)了全新物理模型范式，是首個在物理世界實現(xiàn)直接由「Vision」生成「Action」，去掉語言轉換環(huán)節(jié)，模型架構更簡潔，更徹底的「端到端」，直接學習真實的物理世界。

1.目標：絕對領先

2026年開年，廣州小鵬科技園，一場針對小鵬第二代VLA的特殊試駕正在進行。參與試駕的不是媒體，也并非明星，而是小鵬汽車“媽媽食堂”里員工的爸爸媽媽們，他們一開始緊張、忐忑，但很快就“放開手腳”，放下了心。

在試駕過程中，何小鵬提及自己的媽媽對于新事物的接受過程要稍微慢一點，讓媽媽們都放心是一個非常重要的目標，智能駕駛也要從“極客”嘗鮮到“大眾”常用，讓爸爸媽媽們也愛開。

小鵬通用智能中心負責人劉先明的表態(tài)則更加直白："小鵬第二代VLA可能是目前中國最領先的智駕系統(tǒng)，是與行業(yè)拉開代際差距的時刻。"

那么，小鵬第二代VLA能做到什么程度？

根據(jù)公開資料，小鵬第二代VLA指令輸出延遲壓縮到了80毫秒以內(nèi)；車輛重剎減少99%、急加速減少98%、頓挫減少89%；復雜小路的平均接管里程提升至約260公里。

此外，近日多家媒體專門挑荒地、土路、坑路來挑戰(zhàn)第二代VLA的能力極限，即使是雨雪天氣NGP功能依舊可以自如使用。

單純的數(shù)據(jù)并不能全面說明小鵬第二代VLA的性能表現(xiàn)，在公開的無剪輯路測視頻中，能夠明顯看到小鵬汽車在會車、跟車、進出主路及識別障礙物、行人甚至路面深坑方面的優(yōu)秀表現(xiàn)。

雖然目前小鵬第二代VLA尚未正式推送，但其一直在保持著高速迭代，以實現(xiàn)性能和路試表現(xiàn)的不斷提升。

據(jù)了解，自2025年11月至2026年2月底，小鵬第二代VLA已開發(fā)了468版模型，在容錯率、穩(wěn)定性、效率、數(shù)據(jù)讀取等多個方面都有顯著提升。

何小鵬對「甲子光年」等媒體表示：“今天媒體朋友能試駕的版本，很可能是我們上個月的版本，而我們現(xiàn)在迭代出來的最新版本，性能又會比一個月前有極大提升。”

除了所謂的體感差異，高頻次地版本迭代也小鵬第二代VLA擁有了一些直觀的功能升級。比如無目的地漫游、可以原地激活NGP等。

“我們希望做到千公里級的人工接管，而非行業(yè)中普遍的百公里級。”這是何小鵬對第二代VLA性能體最直接的考核指標。但他也指出，接管里只是其中一個維度，全場景都能開、完全放心、超高效率，才是小鵬做自動駕駛的目標。

2.做不到感知物理世界，就沒有真正的自動駕駛

嚴格來說，自動駕駛行業(yè)至今都沒有實現(xiàn)完全地“自動化”，甚至不同場景下究竟通過怎樣的技術手段和大模型范式來實現(xiàn)自動駕駛，業(yè)內(nèi)都沒有形成統(tǒng)一的結論。

所以何小鵬在發(fā)布會上說：“過去的L2級別的輔助駕駛，就是‘縫合怪’。”

比如，曾經(jīng)的高速場景嚴重依賴高精地圖和規(guī)則驅(qū)動；城區(qū)場景則通過占用網(wǎng)絡、強化學習和大量的Corner Case數(shù)據(jù)訓練；園區(qū)場景則通過多模態(tài)融合和低速控制算法來實現(xiàn)。

但實際上，用戶或許根本不需要了解自己的車采用了什么模型架構或技術路徑，只要好開就行。所以劉先明在回答「甲子光年」提問時說：“大家一直在糾結VLA和世界模型的概念，但我們真的需要這么多概念嗎？可能不需要。”

在這種頗具第一性原理的思考下，小鵬汽車以基座模型為基礎，輔以世界模型創(chuàng)造的閉環(huán)仿真空間和強化學習框架，最終成為既是VLA、也是世界模型的全新架構。

時間回到2024年初，那時小鵬汽車便開始布局AI基礎設施，并很快建設成了國內(nèi)汽車行業(yè)首個萬卡智算集群；當年下半年，小鵬汽車開始了參數(shù)規(guī)模高達720億的“小鵬世界基座模型”的研發(fā)。

這個基座模型，可以簡單認為是如今的第二代VLA大模型的“母體”。

從模型本身來看，世界基座模型的參數(shù)量是當時的車端主流VLA的35倍，具有鏈式推理能力，并能將推理結果轉化為行動。

這種鏈式推理能力，放在小鵬第二代VLA上，就是所謂的視覺推理思維鏈(Visual Chain of Thought，Visual CoT)技術，這種技術將思維鏈推理效率提升了32倍，相比傳統(tǒng)CoT預測誤差降低33%。

小鵬第二代VLA可應對物理世界復雜問題，圖片來源：小鵬汽車

在實際運行過程中，比如在“看”到前方慢車時，第二代VLA的Visual CoT將會自動生成多個方案：激進變道、穩(wěn)健變道以及保持跟隨，并會根據(jù)其他道路信息推理出最優(yōu)解執(zhí)行。

這就是小鵬第二代VLA“聰明”體感的來源，該變道的時候不猶豫，不該變道的時候不莽撞。單純地在端到端小模型上進行功能修補，很難達到這種決策邏輯和執(zhí)行水平。

第二代VLA還展現(xiàn)出了對開放世界場景的理解能力，比如避讓救護車，這一行為并非大模型識別到“救護車”這一預設物體后執(zhí)行避讓指令，而是在理解“后方有特種車輛需緊急通行”這一完整場景后，自主生成了讓行決策。

這種被業(yè)界稱作“涌現(xiàn)”的功能，同樣源于世界基座模型的物理世界感知。

當然，從世界基座模型到第二代VLA，小鵬還需要面對工程化的問題。據(jù)了解，小鵬汽車從模型到軟件、從到編譯器再到芯片都做了聯(lián)合優(yōu)化，并在輸入端實現(xiàn)了token/video壓縮（TOKEN compression）來減少帶寬與計算負擔。

綜合來看，小鵬第二代VLA的能力來源于世界基座模型，但世界基座模型所創(chuàng)造出的全新模型范式，遠遠不止一個第二代VLA。

3.泛化能力和行業(yè)突破

無論第二代VLA的性能得到了怎樣的提升，宏觀來看，其都不僅僅是為了讓小鵬汽車的自動駕駛能力短期內(nèi)更為出眾，在小鵬汽車的計劃中，或許利用世界基座模型發(fā)展出泛化能力強大的、能夠在多類智慧本體上應用的物理世界交互系統(tǒng)，才是最終目的。

何小鵬對「甲子光年」等媒體表示：“在今天全球科技發(fā)展的情況下，L2的下一個臺階就是L4，中間專門加一個L3實際對于硬件、軟件、法律法規(guī)都是挑戰(zhàn)。”

過去，行業(yè)普遍認為L2和L4是兩個賽道：用的是兩種方法，兩套硬件體系，甚至是兩種商業(yè)邏輯。比如L2或L3級別自動駕駛系統(tǒng)更多用于家用車，而L4級別的僅在Robotaxi和無人物流行業(yè)落地。

但現(xiàn)在自動駕駛行業(yè)已經(jīng)發(fā)生了很大的技術范式變化。傳統(tǒng)的研發(fā)L4級自動駕駛系統(tǒng)的公司，產(chǎn)品能力的提升仍停留在通過大量的運營車輛、數(shù)據(jù)采集以及高精地圖建設的技術手段，但這種邏輯帶來的問題是自動駕駛系統(tǒng)能力的上限極低。

而L3級別的自動駕駛只能在特定路況下，允許駕駛員“脫手”駕駛，但仍要求視線保持在道路上，且存在駕駛責任主體在車輛和駕駛員之間頻繁轉移的情況。

所以，通過底層技術范式和模型架構的改變，徹底解決自動駕駛泛化性問題已經(jīng)被全行業(yè)提上日程。

劉先明將這種底層技術的改變，總結成了一個簡單的公式，他認為自動駕駛的本質(zhì)問題是物理AI問題，即L4自動駕駛能力=模型 x 算力 x 數(shù)據(jù) x 本體。

小鵬汽車“自動駕駛公式”，來源：小鵬汽車

公式簡單不意味著很容易實現(xiàn)，比如數(shù)據(jù)環(huán)節(jié)，物理世界的數(shù)據(jù)的復雜度很高，輸入信號是連續(xù)的非結構化數(shù)據(jù)，并且涉及復雜的真實世界交互。在小鵬第二代VLA發(fā)布會上，何小鵬說：“新的車端模型推理Token消耗量，約等于全國數(shù)字AI Token日調(diào)用量的80倍。”

而小鵬汽車正在通過底層技術架構的革新，讓模型、算力、數(shù)據(jù)都能發(fā)揮出最大效能，并最終實現(xiàn)真正意義上的自動駕駛。

奉行這種通過底層技術改變來提高自動駕駛泛化能力邏輯企業(yè)不止小鵬汽車一家。2025年10月，特斯拉AI部門副總裁Ashok Elluswamy在分享FSD的最新進展時，表示FSD正在通過以視頻為主的多模態(tài)輸入進入端到端模型，直接輸出控制指令，感知-預測-決策-控制可在同一神經(jīng)網(wǎng)絡中耦合回傳。

這一整體框架幾乎就是端到端大模型與世界模型的融合，為此，特斯拉還開發(fā)了一個“神經(jīng)世界模擬器”，用于根據(jù)當前狀態(tài)與下一步動作生成未來狀態(tài)，從而進行端到端大模型的性能評估。

特斯拉“神經(jīng)世界模擬器，圖片來源：特斯拉

這種模型架構幾乎與小鵬汽車的世界基座模型無異。

何小鵬在發(fā)布會上說：“我覺得我們是換道超車了，我們做到全新的架構了，但一去（美國）發(fā)現(xiàn)他們也已經(jīng)切換了。”兩家企業(yè)的判斷，再次“不謀而合”。

這種全新的模型架構不僅可能讓整個自動駕駛行業(yè)完成從L2到L4的躍遷，還有希望實現(xiàn)汽車本體、具身智能甚至低空飛行器的智能化提升。

比如小鵬汽車的世界基座模型能夠?qū)崿F(xiàn)多模態(tài)指令輸出，能夠輸出語音信息、視覺顯示信息、動作、行為等等，這意味著其蒸餾出的車端模型不僅在智駕系統(tǒng)上能用，智能座艙系統(tǒng)也能用。

劉先明表示：“在自動駕駛上驗證過的AI能力和底層架構，可以大規(guī)模遷移到座艙上，讓整車真正成為一個有機的智能體，而不是一個功能割裂的東西。”

同時，根據(jù)小鵬汽車的計劃，2026年底將量產(chǎn)應用人形機器人，如果第二代VLA保持每天4版的迭代速度，或許在移植到人形機器人上時，后者也能擁有不錯的運動控制表現(xiàn)。

模型的泛化能力，不僅是提高自動駕駛性能的工具，其更深遠的意義，在于它正在回答一個關乎智能本質(zhì)的終極命題：機器能否真正理解并進入物理世界？

小鵬汽車建立智算集群、研發(fā)物理AI大模型，實際上是在搭建一個能夠被不同形態(tài)產(chǎn)品共用的底層“物理AI操作系統(tǒng)”，一旦這種操作系統(tǒng)被驗證，其衍生出的智能控制系統(tǒng)，不會僅僅停留在方向盤上。

所以，第二代VLA打破因技術瓶頸而產(chǎn)生的“自動駕駛空氣墻”只是開始，打破所有機器與現(xiàn)實世界交互的“墻”，才是小鵬汽車正在做的事。

（封面圖來源：小鵬汽車）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.