“領(lǐng)先5倍”之外,小鵬VLA真正讓我在意的是什么
何小鵬說第二代VLA比行業(yè)第一梯隊領(lǐng)先接近5倍,這話乍一聽挺像“王婆賣瓜”。
![]()
但看完官方發(fā)布的實測視頻和推送計劃,我覺得這次值得認(rèn)真聊聊——不是聊倍數(shù),是聊“這玩意兒到底怎么干活”的。
![]()
![]()
先說那個土路實測。視頻里車在鄉(xiāng)村坑洼路上自己走,遇到坑會主動繞開,挑相對平整的路面通過。
這跟以前那種“畫線跟著走”的邏輯完全不一樣——它不是識別車道線然后居中,而是識別“哪里能走”“哪里好走”,然后自己選路徑。
說白了,以前是“聽話的孩子”,現(xiàn)在是“有主見的老司機”。
![]()
技術(shù)上怎么實現(xiàn)的?第二代VLA的核心變化是“視覺直驅(qū)動作”。之前那套邏輯是“看見→翻譯成語言→理解語言→做動作”,中間有個語言轉(zhuǎn)譯的環(huán)節(jié),信息有損耗,反應(yīng)也慢。
這次直接把語言那層拆了,視覺信號進(jìn)來,模型直接輸出角速度、加速度這些控制量。
用何小鵬的話說,這是“拆掉語言瓶頸”,讓車的反應(yīng)更接近人的本能。
![]()
數(shù)據(jù)上也挺能打:復(fù)雜小路平均接管里程提升13倍,夜間深色物體識別率提升72%,決策速度從幾百毫秒壓到80毫秒。
80毫秒是什么概念?人眨個眼都要100-150毫秒。這已經(jīng)比人反應(yīng)快了。
硬件層面,小鵬走的是“輕傳感器、重模型”的路子。
12顆攝像頭,沒主激光雷達(dá),算力2250TOPS來自三顆圖靈芯片。跟行業(yè)主流的多傳感器融合路線比,它更接近特斯拉的“視覺優(yōu)先”。
![]()
但區(qū)別在于,小鵬把VLA模型做成了“端到端”——輸入視覺信號,輸出控制指令,中間沒有規(guī)則代碼,全讓模型自己學(xué)。
我關(guān)注到一個細(xì)節(jié):大眾將成為第二代VLA的首發(fā)客戶。這很有意思。
大眾這種傳統(tǒng)巨頭選小鵬的技術(shù)上車,說明這套東西已經(jīng)過了工程化驗證,不是實驗室demo。
![]()
推送節(jié)奏也定了:3月下旬開始向P7、G7、X9的Ultra版全量推送,4月覆蓋G6、G9、P7+。換句話說,下個月你就能在路上見到真車跑這套系統(tǒng)。
最后說點實在的。“領(lǐng)先5倍”這個數(shù)字,普通人很難驗證。
![]()
但如果你看過那個土路視頻,會發(fā)現(xiàn)一個更本質(zhì)的變化:以前智駕是在“馴服路”,現(xiàn)在是在“適應(yīng)路”。那種“人開車”的松弛感,才是真正的代際差。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.