![]()
小鵬汽車董事長 何小鵬
文|肖漫
編輯|李勤
“通過我們內(nèi)部比較測評,我認為比行業(yè)一流選手領(lǐng)先接近5倍。”在第二代VLA發(fā)布會后的交流中,小鵬汽車董事長兼CEO何小鵬說道。
智駕的演進,正從“軟件定義汽車”變?yōu)椤癆I 定義超級智能體”。新浪潮下,小鵬汽車給出了他們面向未來的激進解法:跳過在硬件、軟件與法規(guī)層面皆面臨妥協(xié)的 L3 階段,直接以 L2 和 L4 作為智駕演進的核心錨點。
在何小鵬看來,第二代VLA已經(jīng)讓小鵬具備從L2直接進入L4的可能性。
小鵬和特斯拉一樣,不再是在原有的智駕框架里修修補補,而是徹底把自動駕駛當成通用人工智能(AGI)在物理世界的落地來解題。戰(zhàn)略變化前,小鵬已將智能座艙中心和自動駕駛中心合并,集中 AI 資源形成統(tǒng)一中臺,以此提升開發(fā)效率。
小鵬現(xiàn)在的思路是引入世界模型的構(gòu)建思路,實現(xiàn)智能座艙與智能駕駛的深度融合。讓智艙與智駕不再孤立,融合為一個“強力超級智能體(Agent)”,未來 1-3 年實現(xiàn)從被動工具到主動服務(wù)的跨越。
實現(xiàn)這個設(shè)想的基礎(chǔ)是最好基座模型,并解決數(shù)據(jù)問題。?鵬汽?通用智能中心負責?劉先明認為,“做好基座模型,是一家做L4公司的必修課。不做這件事,就可能在這次技術(shù)轉(zhuǎn)型中落在后面,或者沒辦法完成完整的技術(shù)轉(zhuǎn)型。”
小鵬的技術(shù)變革足夠果斷,智能化的軟件升級已經(jīng)成為小鵬汽車產(chǎn)品的核心抓手。但正如36氪汽車此前報道指出,現(xiàn)下的小鵬仍是一家以賣車作為核心收入的汽車公司,身處在競爭烈度仍在強化的中國汽車市場,小鵬在內(nèi)的所有公司都要在市場環(huán)境和技術(shù)的雙重變革下尋求轉(zhuǎn)型。
以下是36氪汽車與小鵬汽車董事長 CEO 何小鵬、?鵬汽?通用智能中心負責?劉先明的交流內(nèi)容,略經(jīng)編輯:
問:小鵬為何建議跳過L3、并向兩會提出該建議,是為了我們可以有一個更領(lǐng)先的技術(shù)嗎?
何小鵬:我認為L4開始就會有新的責任主體,在今天全球科技發(fā)展的情況下,基本上從L2的下一個臺階就是L4,中間專門加一個L3實際對于硬件、軟件、法律法規(guī)都是挑戰(zhàn),所以從我的角度來看,我認為中國應(yīng)該一個是L2,一個是L4。
問:第二代VLA將落地到多少臺車輛,能否給出大致預(yù)估數(shù)據(jù)?
何小鵬:我們所有的Ultra和UltraSE都會都會搭載第二代 VLA,你可理解為未來小鵬在全球市場的車型,將會提供基礎(chǔ)智能輔助駕駛和頂級智能輔助駕駛兩種選擇。
問:第二代VLA到底能夠做到什么程度?是已經(jīng)完全可以達到L4,還是在什么樣的階段?
劉先明:現(xiàn)在到底做到什么水平。目前還沒有完全說自己能達到百分之百的L4,但是現(xiàn)在整個VLA2.0搭建了一套非常通用并且高效的架構(gòu),所以基本上每天都會有新的版本出來,不停地去迭代新的問題,而且進步速度也是超乎我們想象的,所以我們有信心,在未來的一段時間內(nèi)能做到L4水平的一套比較完整的體系。
具體的時間可能還沒有辦法給出完全的判斷,1—3年是大師兄給出的判斷,我們的判斷是如果按每一天迭代的速度比前一天快,看到整個訓練速度和數(shù)據(jù)規(guī)模曲線是加速上升的狀態(tài),如果我們一直維持這個狀態(tài)的話,我相信會很快。
問:為什么會把智能座艙和智能駕駛合并,形成這樣的組織架構(gòu)調(diào)整?目前這種變化似乎也是車企中正在發(fā)生的趨勢,想請問小鵬汽車這次調(diào)整與其他車企有什么不同?
何小鵬:汽車行業(yè)正在進入新的跨域融合階段:自動駕駛是整車運動,智能座艙是整車大腦,再加上動力、底盤,我們認為這四個域都在進行跨域融合中。
未來L4或Robotaxi車型,很多廠商會從原來單一域的集成(比如一個域由多家供應(yīng)商集成,或單獨一個域研發(fā)),轉(zhuǎn)向跨域融合,這樣能讓整車更快、更安全、更靈敏,能力提升數(shù)倍,從被動使用轉(zhuǎn)向主動服務(wù)。所以,先明負責的通用智能中心,正是跨域融合進程中的一部分。
這也是我非常堅信1—3年全自動駕駛會落地、3—5年所有汽車都會成為強力超級智能體。
問:第二代VLA實現(xiàn)端到端智能革命,將于本月下旬全量推送。這套底層技術(shù)統(tǒng)一、動力形態(tài)雙選的產(chǎn)品策略,將如何定義小鵬未來3年高端市場打法?
何小鵬:關(guān)于未來1-3年,汽車將從軟件時代進入AI時代,從軟硬件獨立發(fā)展走向跨域融合,從原來的、簡單的智能新能源車升級為可主動服務(wù)的高階智能Agent。因為小鵬在多領(lǐng)域同步研發(fā),所以未來1-3年大家會看到有很多跨域融合的效果。
這也是我為什么非常激動地認為,包括以前的燃油汽車,以前靠汽車商想做好的方案越來越困難,汽車一定會從原來的被動生產(chǎn)工具變成一個主動產(chǎn)生生產(chǎn)力的產(chǎn)物,我認為是劃時代的產(chǎn)物,大概3—5年會實現(xiàn)。
問:剛才您提到基座模型是做好L4的基礎(chǔ)。從行業(yè)來看,目前很多Robotaxi玩家對基座模型提及不多,或選擇其他技術(shù)路線。未來基座模型是否會成為Robotaxi企業(yè)做好業(yè)務(wù)的標準嗎?
劉先明:現(xiàn)在 L4 或者自動駕駛已經(jīng)發(fā)生很大的技術(shù)范式變化。我們過去看到Waymo還有很多 L4 公司,其實上限很低,大家只能不停往前卷。這帶來另外一個問題,就是L4的ODD概念,車輛到底能運行在什么地方,只能取決于鋪了多少車、采了多少數(shù)據(jù)、建了多少地圖。所以如果真想泛化性解決整個問題,技術(shù)范式就一定要變,這是不可避免的。
今天我們也在發(fā)布會上提到,做好基座模型,是一家做L4公司的必修課。不做這件事,就可能在這次技術(shù)轉(zhuǎn)型中落后,沒辦法完成完整的技術(shù)轉(zhuǎn)型。
問:第二代VLA出海方面,您提到目前在瑞典的case使用云端模型進行仿真訓練。特斯拉在做中國FSD時,也是通過網(wǎng)絡(luò)視頻、仿真訓練等方式推進,我們?nèi)绾伪苊獬霈F(xiàn)類似特斯拉 “水土不服” 的問題?
劉先明:第二代 VLA 模型在沒有經(jīng)過任何海外數(shù)據(jù)適配訓練的情況下,從今天大師兄(何小鵬)發(fā)布的視頻里可以看到,已經(jīng)具備很強的能力。第二,小鵬是一家全球化企業(yè),我們會在合規(guī)前提下,在全球任何有小鵬車輛的地方正常擁有并使用當?shù)財?shù)據(jù)。第三,對于更多泛化性場景,通過世界模型的生成方式,也可以讓我們快速達到一個能力起始點。
所以整個小鵬全球化自動駕駛的策略,一定是這幾點結(jié)合在一起:模型本身要有極強的泛化能力,不能只依賴中國數(shù)據(jù)、只能在中國跑,這個事情是行不通的;再加上小鵬的全球化布局,以及我們在技術(shù)上的突破。
問:世界基座模型如果同時賦能多樣化智能體,它在多模態(tài)交互、空間感知這些方面會不會存在技術(shù)復(fù)用的瓶頸?不同形態(tài)的智能體能否對基座模型反哺,加深模型的優(yōu)化?
劉先明:底層的復(fù)用能力應(yīng)該還是很強的,整個VLA或基座模型的設(shè)計是原生多模態(tài),不太會只針對自動駕駛,是可以復(fù)用的。具體的復(fù)用情況我們還在持續(xù)探索,目前暫時無法給出特別明確的結(jié)論。現(xiàn)階段首要任務(wù)還是先在車上先把整個事情跑完,下一步再推進艙駕聯(lián)動。
問:自動駕駛從端到端進入到模型這個范式之后,大家都在用人類的數(shù)據(jù)去做模仿學習,今天先明也分享了世界模型在仿真世界里做大量的強化學習的案例,但從去年開始,很多人就在談人類數(shù)據(jù)其實價值不大了,您怎么看?
何小鵬:我覺得物理世界、人類世界的數(shù)據(jù)量現(xiàn)在來看是無限的。
以前我覺得有10萬臺、100萬臺車跑了多少公里就夠了,現(xiàn)在我覺得遠遠不夠。很多人說我有車隊、我有公司,車賣得多就有很多數(shù)據(jù),這些都是錯誤的。如何收集有質(zhì)量、有價值、超大規(guī)模的數(shù)據(jù),我覺得是非常困難的一點。不論是汽車還是機器人,這件事上都遠遠沒有看到頭,這是我的看法。
問:RL強化學習是不是真的萬金油,所有的問題都可以解嗎?有沒有它不擅長的東西?
劉先明:強化學習不是萬金油。現(xiàn)在學術(shù)界、工業(yè)界都在說強化學習很厲害,但它一定需要一個非常強的基座模型——至少能采樣到解決這個問題的可行解。如果連這個能力都沒有,強化學習就沒辦法繼續(xù)提升。
但強化學習是效率特別高、能定向解決問題,并且能持續(xù)探索長尾問題的一種學習方式。所以我覺得大家不用把強化學習當成可解萬物的萬能解,而是一個非常高效的學習方法。
問:目前市場上算力軍備競賽宣傳愈演愈烈,友商之間在瘋狂堆算力,但很多用戶實際體驗后發(fā)現(xiàn),算力大幅提升,體感提升卻沒有數(shù)值增長那么明顯,問題大概出在哪?
劉先明:算力不只是名義上的數(shù)字好看,更重要的是把算力用好,這是核心問題。這也是我們從通用處理器向?qū)S锰幚砥鰽SIC過渡的原因。其實你看NVIDIA(英偉達),就是在GPU和CUDA時代做這件事 —— 把算力用好,比單純說算力提升多少倍更有價值。所以算力不僅要大,用好才是核心關(guān)鍵。
另外,大算力一定需要更高信息密度的輸入、更大的模型來匹配,否則算力就是空轉(zhuǎn)。這些因素合在一起就意味著:如果只是搞算力軍備競賽、單純堆高數(shù)值,消費者是感受不到明顯的體感提升的。
問:最近2—3年我們從行業(yè)實踐來看,關(guān)于模型做決策怎么出軌跡這件事主要有兩種方法,第一種方法是大模型直接給出最終的軌跡,第二個給出幾種不同的軌跡之后,讓系統(tǒng)從中選擇一條,小鵬第二代VLA是前者還是后者,在您看來這兩種不同的方案之間有沒有優(yōu)劣之分,哪種方案更符合未來的發(fā)展趨勢?
劉先明:第一個問題核心就是你是做自動駕駛還是AI?如果這個問題回答了,那答案其實很清楚了。我們做的是一個AI,不是專門只是用來做自動駕駛,所以一個AI模型是怎么做的,我們就是什么樣子的。
既然都已經(jīng)做了這么大的變化,就不會帶著之前很多的邏輯,這些heuristic(基于經(jīng)驗規(guī)則的啟發(fā)式方法),就是這些很多的規(guī)則或者辦法來解決現(xiàn)在的問題,這個也是讓數(shù)據(jù)和模型不停scaling(通過增加數(shù)據(jù)量、模型參數(shù)規(guī)模、算力投入,來持續(xù)提升模型能力)最重要的核心,盡量少加其他的東西進來。
這個可能聽起來有點過于簡單直接,但是在過去這幾年里面,整個AI的發(fā)展就是告訴我們這一件事,就是怎么能去做scaling,怎么能夠快速地迭代,就能夠快速的解決問題。核心就是你到底做的是智駕還是做的是AI。
問:在模型訓練過程中,“安心、場景、效率”這三個關(guān)鍵詞是否存在取舍,是否有明確的優(yōu)先級排序?在您目前的觀察中,全球范圍內(nèi)是否只有兩家已經(jīng)切換到原生多模態(tài)物理世界大模型?
劉先明:如果做過機器學習或AI,就知道PR曲線。當曲線較平時,只能在安心、效率、場景間權(quán)衡,本質(zhì)沒得選。
自動駕駛中,我們常問:到底想要什么樣的自動駕駛?
自動駕駛最核心的目標是安全。但并不意味著安全就可以為所有其他東西讓路,沒人想要為了安全而要一個慢吞吞、沒效率、跑不動的東西。解決這個矛盾,核心是提升基礎(chǔ)能力——只有基礎(chǔ)能力上去,才能在不犧牲其他維度的前提下,把安全做到更高水平。
我們說的 “代際差”,不只是單一指標的差距,更關(guān)鍵是有沒有切換整套做事思路,迭代速度有沒有質(zhì)變。我們現(xiàn)在追求的是不僅跑得快,加速度還在持續(xù)變大,因為我們在構(gòu)建底層通用能力體系,這才是真正的代際差,而非單點指標領(lǐng)先。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.