來(lái)源:市場(chǎng)資訊
(來(lái)源:晚點(diǎn)LatePost)
![]()
文丨李安琪
編輯丨龔方毅
2022 年下半年,通用汽車(chē)旗下的 Cruise 在舊金山晚高峰跑了一趟一個(gè)半小時(shí)的 Robotaxi(無(wú)人駕駛出租車(chē)),全程零接管。不久后公司請(qǐng) Sam Altman 做了一場(chǎng)內(nèi)部爐邊談話(huà),當(dāng)時(shí)在 Cruise 做機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺(jué)研究的劉先明和同事們聊起這趟行程,很驕傲。而 Sam Altman 一直在說(shuō)他們正在做的 ChatGPT —— 當(dāng)時(shí)沒(méi)太多人在意。
幾個(gè)月后 OpenAI 發(fā)布 ChatGPT,一個(gè)足夠簡(jiǎn)單的模型架構(gòu),加上足夠大的參數(shù)量、數(shù)據(jù)和算力,展現(xiàn)出超越預(yù)期的智能。劉先明說(shuō)當(dāng)時(shí)被震撼了,他想也許沿著同樣的路徑,不用手寫(xiě)成千上萬(wàn)條規(guī)則,不用給系統(tǒng)裝五顆激光雷達(dá)再把沿街會(huì)遮擋傳感器的樹(shù)枝修剪一遍,智能駕駛也有機(jī)會(huì)涌現(xiàn)出智能。
2024 年初,他帶著這個(gè)判斷加入小鵬汽車(chē)。在小鵬硅谷辦公室第一次見(jiàn)何小鵬時(shí),他想的是 “如果他聽(tīng)不懂我在說(shuō)什么,我就不來(lái)了”。
今年 3 月,基于這套邏輯開(kāi)發(fā)的小鵬汽車(chē)第二代 VLA [1](視覺(jué)-語(yǔ)言-動(dòng)作模型)開(kāi)始上車(chē)。這也是劉先明加入小鵬以來(lái)最完整的一次交付。因?yàn)樘嗤邢霚y(cè),一輛裝了新版軟件的試駕車(chē),日租金一度被炒到八千元。
交付后,我們?cè)谛※i的上海研發(fā)辦公室見(jiàn)到了劉先明。他剃個(gè)圓寸頭、戴黑框眼鏡、說(shuō)話(huà)溫和,是 i 人但因?yàn)楣ぷ鞒闪嗽?huà)癆。熟人評(píng)價(jià)他 “目標(biāo)感很清晰,能力非常綜合,既能講很深的技術(shù),也能把復(fù)雜問(wèn)題說(shuō)清楚”。
劉先明在小鵬汽車(chē)歷任北美 AI 負(fù)責(zé)人、基座模型負(fù)責(zé)人、自動(dòng)駕駛中心負(fù)責(zé)人,2026 年 2 月出任通用智能中心負(fù)責(zé)人,統(tǒng)管智駕和座艙這兩個(gè)原先的一級(jí)部門(mén)。在他之前,吳新宙為小鵬建立了智駕第一梯隊(duì)的行業(yè)認(rèn)知,李力耘用工程和規(guī)則把 “端到端” 高階輔助駕駛推向全國(guó)量產(chǎn)。劉先明要做的是自研基座模型,拆掉語(yǔ)言翻譯,讓模型從視頻和駕駛數(shù)據(jù)里直接學(xué)開(kāi)車(chē)。
兩年間,劉先明成了小鵬花錢(qián)最多的人。2025 年,他統(tǒng)管的業(yè)務(wù)吃掉了 45 億元年度 AI 研發(fā)預(yù)算中最大的份額。何小鵬在第二代 VLA 量產(chǎn)推送前的直播里說(shuō) “連續(xù)十幾個(gè)月,每月花 3 個(gè)億去賭這個(gè)事情,心里也很慌。”
但一個(gè)繞不開(kāi)的問(wèn)題是,智駕行業(yè)目前的整體處境是否值得這種規(guī)模的投入。目前沒(méi)有哪個(gè)細(xì)分市場(chǎng)的銷(xiāo)量冠軍是靠智駕贏的,頭部智駕供應(yīng)商還在虧錢(qián),而且技術(shù)領(lǐng)先的花期又很短,總有后發(fā)者快速追上。
劉先明的回答是,他們賭的不只是智駕,還有物理 AI。而在實(shí)現(xiàn)這個(gè)愿景前,他跟何小鵬還有一個(gè)更具體的賭約:今年 8 月底達(dá)不到特斯拉 FSD V14 在硅谷的水平,他將在金門(mén)大橋裸跑。
以下是《晚點(diǎn) Auto 》和小鵬汽車(chē)通用智能中心負(fù)責(zé)人劉先明的對(duì)談與追問(wèn),經(jīng)編輯:
“拆掉 Language,VLA 2.0 才真正開(kāi)始”
晚點(diǎn):什么是 VLA 2.0?
劉先明:之前行業(yè)里做智駕大模型,包括我們第一代 VLA,基本都是拿開(kāi)源的語(yǔ)言模型做骨架,加上圖像數(shù)據(jù)就能做 VLM [2](視覺(jué)-語(yǔ)言模型)。但問(wèn)題是攝像頭看到畫(huà)面后要先經(jīng)過(guò)語(yǔ)言模型處理再輸出駕駛動(dòng)作這個(gè)過(guò)程,容易有高延遲,一秒鐘只能輸出兩三次指令,做不到實(shí)時(shí)處理。
做 VLA 2.0 時(shí)我們自研基座模型,傳感器信息輸入系統(tǒng),輸出駕駛動(dòng)作,中間不再經(jīng)過(guò)語(yǔ)言(Language)翻譯。這個(gè)基座模型接上動(dòng)作模塊就是 VLA 控車(chē),接上視頻生成就是世界模型。
從頭訓(xùn)練一個(gè)基座模型需要大量的錢(qián)、數(shù)據(jù)和精力,還要冒險(xiǎn),當(dāng)下汽車(chē)行業(yè)誰(shuí)敢在不確定的情況下投這么多?這個(gè)決定是最難的。做出結(jié)果之后,說(shuō)服別人并不難。
晚點(diǎn):這就是你們說(shuō)的拆掉 Language?
劉先明:拆掉的是推理鏈路中間的語(yǔ)言翻譯:原來(lái)模型輸出結(jié)果要先變成 language tokens [3] ,查表翻譯成文字,再生成駕駛動(dòng)作。普通人開(kāi)車(chē)不需要先在腦子里把看到的東西翻譯成一段話(huà),這一步?jīng)]有必要。
但語(yǔ)言沒(méi)有從整個(gè)系統(tǒng)消失。輸入端還需要語(yǔ)言,用戶(hù)語(yǔ)音控車(chē)、意圖理解都要用到語(yǔ)言模型。所以不是做了一個(gè)完全沒(méi)有 language 的東西,拆掉的是中間那層翻譯。
晚點(diǎn):在原來(lái)的架構(gòu)上繼續(xù)喂更多數(shù)據(jù),不拆 Language 不行嗎?
劉先明:不行。模型中間不能有信息瓶頸,一旦產(chǎn)生,后面再增加數(shù)據(jù)量也不見(jiàn)得有好的效果。另外自動(dòng)駕駛對(duì)實(shí)時(shí)性要求非常高,最終要權(quán)衡的是模型體量和推理延時(shí)。在有限車(chē)端算力下,參數(shù)量擴(kuò)大十倍,推理就變慢,控車(chē)能力變差;但要想更好控車(chē)、更低延時(shí),那模型體量要減小。
我們?nèi)ツ曜隽艘粋€(gè)特別有意思的事,當(dāng)時(shí)團(tuán)隊(duì)里不是所有人都信任這個(gè)方向,所以一開(kāi)始用開(kāi)源模型再加上 Action(動(dòng)作)數(shù)據(jù)訓(xùn)了一套自動(dòng)駕駛 VLA 模型后,有一天我們幾個(gè)人偷偷把 Language 拆了,模型但還是用原來(lái)的名字,我們第一次上了最大數(shù)量的 GPU 來(lái)訓(xùn)練模型,GPU 變大,數(shù)據(jù)量變大變多,拆完訓(xùn)完發(fā)現(xiàn)效果挺好的。
晚點(diǎn):那是 VLA 2.0 的雛形?當(dāng)時(shí)花了多久做這件事?
劉先明:去年 5 月份,花了兩三個(gè)星期。
晚點(diǎn):拆掉了語(yǔ)言模塊之后,訓(xùn)練數(shù)據(jù)的來(lái)源是不是也要跟著變?
劉先明:互聯(lián)網(wǎng)上的文字?jǐn)?shù)據(jù)是最多的,非常容易獲得,信息量很大,可以快速把模型做起來(lái)。但做物理 AI,做機(jī)器人,做自動(dòng)駕駛,更多數(shù)據(jù)來(lái)自于每天回傳的車(chē)輛數(shù)據(jù),從物理世界真實(shí)采集出來(lái)的。如果要做物理 AI,一定要把這部分?jǐn)?shù)據(jù)弄好,訓(xùn)練方式一定要改過(guò)來(lái)。
晚點(diǎn):機(jī)器人行業(yè)也有反思,減少大語(yǔ)言模型,直接做理解+生成一體化。小鵬二代 VLA 也受這個(gè)范式啟發(fā)嗎?
劉先明:這個(gè)思考可能是在不同的人群和領(lǐng)域中同時(shí)發(fā)生的。自動(dòng)駕駛和機(jī)器人都屬于物理 AI,面對(duì)的問(wèn)題本質(zhì)是一樣的,都要與真實(shí)物理世界交互,處理非結(jié)構(gòu)化的輸入,輸出連續(xù)而非離散的動(dòng)作(車(chē)子的駕駛動(dòng)作和機(jī)器人的行為動(dòng)作)。拿掉 “語(yǔ)言” 這個(gè)思路很符合第一性原理,它簡(jiǎn)單、直接,是更極致的端到端,也很像人類(lèi)開(kāi)車(chē)和日常生活中很多不用語(yǔ)言但暗含智能的 “直覺(jué)行為”。
晚點(diǎn):但我們聽(tīng)說(shuō)這版 VLA 2.0 發(fā)布推遲了兩個(gè)月?
劉先明:本來(lái)定在 1 月底開(kāi)始凍結(jié)版本、2 月全量推送。1 月初有一天小鵬給我打電話(huà),他說(shuō) “現(xiàn)在這樣不行,你們每天都在修下限,模型上限完全沒(méi)有釋放出來(lái),再給你兩個(gè)月的時(shí)間,你會(huì)做成什么樣?” 我說(shuō) “老板,你要再給兩個(gè)月時(shí)間,我馬上把結(jié)構(gòu)給換了”。他說(shuō) “好”。于是調(diào)整到 3 月份推送。
第二天我們換了模型結(jié)構(gòu)重新開(kāi)始訓(xùn)練。有人說(shuō)我們交作業(yè)總是很遲,因?yàn)槲覀兛吹礁玫目赡苄浴H绻?2 月份我們真的發(fā)了一版,可能現(xiàn)在天天在修 bug。
晚點(diǎn):如果覺(jué)得可以做得更好,為什么不主動(dòng)提延遲?
劉先明:一個(gè)是當(dāng)時(shí)版本確實(shí)可以上線(xiàn)。另一個(gè)原因是模型、AI 發(fā)展是永遠(yuǎn)往前進(jìn),我們現(xiàn)在理論上每天能更新四個(gè)版本。但從公司商業(yè)決策來(lái)看,要考慮產(chǎn)品型譜、上市節(jié)奏、財(cái)務(wù)狀況來(lái)決定什么時(shí)候產(chǎn)出結(jié)果。
晚點(diǎn):多給 2 個(gè)月,模型怎么做到顯著進(jìn)步?
劉先明:我們的核心優(yōu)勢(shì)是迭代速度,而不是做一個(gè)非常 fancy、跨時(shí)代的模型結(jié)構(gòu)。現(xiàn)在每家的 AI 模型結(jié)構(gòu)都極其相似和簡(jiǎn)單,越復(fù)雜的東西越不好用。
我們有一套體系可以加快迭代速度,速度越快才能發(fā)現(xiàn)新問(wèn)題、嘗試新結(jié)構(gòu)。對(duì)很多團(tuán)隊(duì)來(lái)說(shuō),最大的問(wèn)題不是不知道下個(gè)結(jié)構(gòu)用什么,而是沒(méi)時(shí)間去試。我們?cè)谧鲆患](méi)人知道正確答案的事,只能猜或者只能靠經(jīng)驗(yàn)判斷,沒(méi)有人百分百準(zhǔn)確。我們每天都在不停迭代,把過(guò)去的結(jié)論推翻重新來(lái)。
晚點(diǎn):馬斯克也說(shuō)過(guò),創(chuàng)新來(lái)自于速度的迭代。
劉先明:特別明顯,現(xiàn)在模型收斂速度越來(lái)越快,不是因?yàn)楦喙こ處熂尤耄俏覀兊捏w系自動(dòng)化程度越來(lái)越高。
晚點(diǎn):這條路總結(jié)下來(lái)就是 Data Scaling [5] ?
劉先明:不僅是 Data Scaling。首先 AI 一定是極致簡(jiǎn)化,不像過(guò)去做語(yǔ)音,得先有個(gè)模型做語(yǔ)音識(shí)別,再做語(yǔ)言處理,最后做語(yǔ)音生成。現(xiàn)在大家都是原生多模態(tài)模型,端到端,結(jié)構(gòu)一定要簡(jiǎn)單。第二,Scaling 不僅體現(xiàn)在數(shù)據(jù),還體現(xiàn)在模型,是體系層級(jí)的 Scaling。有任何短板,這事都做不成,絕不是一兩天、半年就能追得上來(lái)。
晚點(diǎn):現(xiàn)在車(chē)端模型的參數(shù)有多大?
劉先明:差不多 ****。
晚點(diǎn):模型越大越好嗎?
劉先明:沒(méi)有絕對(duì)說(shuō)法,至少體量上越大越好,但越大的模型需要越多數(shù)據(jù)。收集數(shù)據(jù)對(duì)我們來(lái)說(shuō)不是難事,尤其是二代 VLA 推出去后,會(huì)有大量影子模式數(shù)據(jù)回來(lái)。真正難的是,如何在車(chē)端芯片塞入更大的模型。
晚點(diǎn):現(xiàn)在數(shù)據(jù)有多大的量級(jí)?
劉先明:整體數(shù)據(jù)存儲(chǔ)量 50 PB 左右。
晚點(diǎn):總體來(lái)說(shuō),數(shù)據(jù)規(guī)模越大對(duì)于模型性能越有利?
劉先明:高質(zhì)量、有用的數(shù)據(jù)規(guī)模越大越有利。我們一開(kāi)始也遇到過(guò)車(chē)在直行場(chǎng)景開(kāi)得很好,一掉頭就廢的情況。原因是 90% 以上的數(shù)據(jù)都是空曠道路直行。數(shù)據(jù)單純多沒(méi)有意義,得找到有用數(shù)據(jù)。
晚點(diǎn):找?guī)装賯€(gè)熟練的專(zhuān)車(chē)司機(jī),讓他們?nèi)珖?guó)到處開(kāi),把他們的數(shù)據(jù)收集下來(lái),這個(gè)方式行得通嗎?
劉先明:行不通。200 個(gè)、2 萬(wàn)個(gè)司機(jī),跟上百萬(wàn)個(gè)司機(jī)完全不一樣。200 個(gè)司機(jī)能覆蓋多少場(chǎng)景?有段時(shí)間,我們碰到最奇葩的數(shù)據(jù)采集案例是近距離繞行,一個(gè)司機(jī)停在前面,另一個(gè)人繞過(guò),再停在前面,再繞過(guò)去。
我們也想過(guò)請(qǐng)司機(jī),但這樣的數(shù)據(jù)沒(méi)有意義,因?yàn)槎疾皇莵?lái)自于真實(shí)場(chǎng)景。數(shù)據(jù)收集要像是真實(shí)世界采樣器,采樣得越密集、越隨機(jī),量足夠大,才可能逼近真實(shí)世界場(chǎng)景,模型才具有泛化性,才能解決之前沒(méi)見(jiàn)過(guò)的問(wèn)題。
晚點(diǎn):我們體驗(yàn)過(guò)好幾家智駕,一個(gè)共同感受是前 10 分鐘效果驚艷,越到后面越容易唯唯諾諾,這是為什么?
劉先明:第一可能是模型的容量本身受限,它會(huì)限制使用場(chǎng)景,還沒(méi)辦法泛化到很大的落地場(chǎng)景。另一個(gè)原因是數(shù)據(jù),數(shù)據(jù)是個(gè)新的問(wèn)題。怎么去挖掘高質(zhì)量數(shù)據(jù)?
Meta 做一個(gè)事情叫做 data curation [8] (數(shù)據(jù)治理),這本身就是目前 AI 里面最難的問(wèn)題,怎么發(fā)現(xiàn)一個(gè)數(shù)據(jù)不在你的訓(xùn)練樣本里面,是一個(gè) outlier [9](異常值),它還不是一個(gè)壞數(shù)據(jù)。
這里也有一個(gè)悖論。首先你發(fā)現(xiàn)它,一定是因?yàn)樗辉诖笠?guī)模數(shù)據(jù)里,第二,它如果在小規(guī)模里面,它很有可能是 outlier,是 “臟數(shù)據(jù)”,可能會(huì)被踢掉。怎么解決問(wèn)題?其實(shí)有一套方法,但需要時(shí)間,需要不停地?cái)U(kuò)充數(shù)據(jù)的邊緣。
晚點(diǎn):你說(shuō) VLA 世界模型也有 CoT [6] 思維鏈,就像 chatbot 的思考過(guò)程,換到自動(dòng)駕駛領(lǐng)域,模型是怎么做思維鏈推理的?
劉先明:大家覺(jué)得 CoT 思維鏈很聰明,核心是啥?Scaling law [4] 有兩個(gè)維度,一個(gè)是 training time scaling [7] ,訓(xùn)練時(shí)擴(kuò)展,即訓(xùn)練階段投入更多算力,讓模型變強(qiáng);另一個(gè)是 test-time scaling,測(cè)試時(shí)擴(kuò)展,就是推理時(shí)消耗多少算力,投入更多算力,通常能得到更好的結(jié)果。
CoT 的過(guò)程是:生成一個(gè) token ,作為輸入,再重新生成下個(gè) token ,不停產(chǎn)生中間的結(jié)果,這是個(gè)計(jì)算過(guò)程。CoT 還可以做很多采樣,有隨機(jī)性采樣的話(huà),就可以做強(qiáng)化學(xué)習(xí),探索不同的解決方案,給出最好結(jié)果。
視覺(jué) CoT 的本質(zhì)就是一個(gè) test-time scaling ,給更多計(jì)算時(shí)間,產(chǎn)生更好的推理結(jié)果。車(chē)端做推理時(shí),只是在訓(xùn)練過(guò)程中,將中間結(jié)果可視化出來(lái),我們也想知道它腦子里到底在想什么,于是通過(guò)世界模型生成未來(lái)一段時(shí)間內(nèi)的道路環(huán)境和自車(chē)行為,預(yù)測(cè)模型下一步動(dòng)作,我們稱(chēng)之為 “腦內(nèi)小劇場(chǎng)”,劇場(chǎng)生成的畫(huà)面可以是鳥(niǎo)瞰圖,也可以是對(duì)應(yīng)不同位置攝像頭的視頻畫(huà)面。我們發(fā)現(xiàn)這個(gè)玩意兒挺有用的。
“智駕團(tuán)隊(duì)花了最多錢(qián),不想用規(guī)則交差”
晚點(diǎn):如果能更早意識(shí)到第一代 VLA 中語(yǔ)言的限制,早點(diǎn)拆掉,二代 VLA 是不是更快出來(lái)?
劉先明:也不會(huì)。模型訓(xùn)練跟交響樂(lè)協(xié)奏曲一樣,多個(gè)要素一起發(fā)展。如果連足夠的行車(chē)數(shù)據(jù)都沒(méi)有,就想拆掉 Language,其實(shí)搞不定;就算有足夠數(shù)據(jù),有了更好的模型,如果訓(xùn)練集群的穩(wěn)定性和效率不高,也搞不定。把節(jié)奏排好,模型、數(shù)據(jù)、Infra [10](基礎(chǔ)設(shè)施)都沒(méi)有短板,花多大錢(qián)辦多大事。
晚點(diǎn):規(guī)則階段積累的東西還能派上用場(chǎng)嗎?
劉先明:其實(shí)不多,有些東西甚至應(yīng)該盡早拿掉。沒(méi)有人告訴你 VLA 具體怎么做,只有大概思路,去想工程應(yīng)該怎么匹配,怎么用最少時(shí)間、不大改動(dòng)系統(tǒng)的情況下把它做出來(lái),再逐漸拆分中間模塊。
晚點(diǎn):聽(tīng)起來(lái)很順滑,但你們實(shí)際上在二代 VLA 測(cè)試階段遇到了很多問(wèn)題。
劉先明:對(duì),當(dāng)時(shí)有個(gè)決定比較艱難。二代 VLA 模型測(cè)試后遇到各種問(wèn)題,比如撞路沿子或者不居中。這時(shí)候要不要借助規(guī)則把它修正一下?有段時(shí)間整個(gè)團(tuán)隊(duì)都很掙扎,因?yàn)橹灰狭艘?guī)則,系統(tǒng)就變味兒了,就拆不掉了。
晚點(diǎn):為什么會(huì)拆不掉?
劉先明:模型還沒(méi)量產(chǎn)前,應(yīng)該盡量讓它暴露問(wèn)題。規(guī)則能修,但我想從數(shù)據(jù)角度解決模型問(wèn)題。那時(shí)候測(cè)試一周,新問(wèn)題越來(lái)越多,團(tuán)隊(duì)也很困惑,問(wèn)題解得完嗎?只要上一點(diǎn)規(guī)則后處理,事情就搞定了。但是一旦寫(xiě)了規(guī)則,所有問(wèn)題都會(huì)被蓋住,喪失發(fā)現(xiàn)問(wèn)題的能力。不把規(guī)則拆干凈,就像在修一條到不了未來(lái)的路。
晚點(diǎn):小鵬現(xiàn)在是 0 規(guī)則、0 超級(jí)對(duì)齊嗎?
劉先明:我們沒(méi)有規(guī)則。端到端時(shí)代可以加規(guī)則,大家都是這么做的,但模型時(shí)代依靠數(shù)據(jù)規(guī)模驅(qū)動(dòng),如果再加規(guī)則,模型的上限最終肯定會(huì)被規(guī)則限制住。加規(guī)則,也許短期可以攢出一個(gè)還不錯(cuò)的版本,但可能到 8 月份完成不了任務(wù),我還是要去裸跑的(笑),其他廠商也一定很快追上來(lái)。
舉個(gè)例子,模型走錯(cuò)路,確實(shí)可以搭載車(chē)道級(jí)導(dǎo)航,在還剩 300 米右轉(zhuǎn)時(shí)強(qiáng)行變道,但一旦上了,會(huì)發(fā)現(xiàn)后面導(dǎo)航變成了拐杖,只能解決一時(shí)的問(wèn)題。我們不想重度依賴(lài)導(dǎo)航信息,因?yàn)槲覀冏龅氖侨蚧a(chǎn)品,歐洲等地區(qū)沒(méi)有圖商提供高清地圖信息的。
這是一個(gè)選擇,是通過(guò)技術(shù)手段解決,還是用一個(gè) shortcut(捷徑)搞定,代價(jià)是后面沒(méi)法繼續(xù)。我們希望達(dá)到的狀態(tài)是,限制我們的只有自己的迭代速度。
晚點(diǎn):這里的技術(shù)手段是指強(qiáng)化學(xué)習(xí)?
劉先明:要解決走錯(cuò)路的問(wèn)題,最好的辦法是強(qiáng)化學(xué)習(xí)。在匯入?yún)R出這種場(chǎng)景可以使用強(qiáng)化學(xué)習(xí),加上適當(dāng)?shù)?reward(獎(jiǎng)勵(lì)),讓模型學(xué)會(huì)在什么情況下該做什么事情。闖紅燈也有幾種不同的辦法。一種是加規(guī)則,用傳統(tǒng)的技術(shù)棧 2D 模型檢測(cè),檢測(cè)到紅燈就一腳摁死剎停,但會(huì)帶來(lái)一個(gè)問(wèn)題,整個(gè)技術(shù)棧會(huì)過(guò)分依賴(lài)于已有的規(guī)則。
晚點(diǎn):加或者不加規(guī)則,到底是如何影響模型工作的?
劉先明:不管是端到端模型還是 VLA 模型,核心是有一些輸入,經(jīng)過(guò)加工之后要去輸出。比如我們認(rèn)為輸出就是一個(gè)車(chē)要規(guī)劃幾秒的軌跡,軌跡之間的時(shí)間間隔是多少?如果橫向最大的范圍是 20 米,縱向是 80 米,把這個(gè)范圍離散化,所有可能的軌跡點(diǎn)組合就構(gòu)成了一個(gè)極大的搜索空間。
傳統(tǒng)方法不管是 Monte Carlo [11] (蒙特卡洛方法)還是非凸優(yōu)化,核心都是砍掉搜索空間,把它砍到可計(jì)算的范圍之內(nèi)。在算力和模型不足的情況下,對(duì)搜索空間做大幅的縮減。
AI 模型反過(guò)來(lái)。為什么我們覺(jué)得現(xiàn)在 AI 聰明、能做很多事情?因?yàn)樗膮?shù)量直接決定了它的輸出空間。如果有幾個(gè) Billion(十億)參數(shù)的模型,比如 OpenAI 220B 的模型,理論上它可以探索 220B 這么大規(guī)模的空間,這是足夠大的搜索空間了。所以要解決問(wèn)題很簡(jiǎn)單,就是讓你的搜索空間足夠大。
過(guò)去我們做了很多平衡,比如對(duì)搜索空間不做太多限制,但把時(shí)間和空間分開(kāi)。橫向很絲滑,我們一般叫做空間;縱向一般是用速度和加速來(lái)控制,我們一般叫做時(shí)間。很多傳統(tǒng)方法即使到端到端的時(shí)代也是這樣——先輸出一個(gè)橫向軌跡,至于什么時(shí)間點(diǎn)到這個(gè)位置,可能是單獨(dú)用規(guī)則去算的。那它就會(huì)一腳剎死,因?yàn)橐?guī)則沒(méi)有這么大的浮動(dòng)空間。
我們則希望通過(guò)一個(gè)足夠大的模型,能夠探索這么大的搜索空間。為了讓整個(gè)模型不會(huì)過(guò)擬合到某些特定的模式上,就需要很多訓(xùn)練數(shù)據(jù)。有了更多的訓(xùn)練數(shù)據(jù),就有一個(gè)很大的模型,但又不希望模型是個(gè)倒金字塔——輸入的信息量很少,一直在做插值升維,其實(shí)信息量本身沒(méi)有上升。于是我們就讓整個(gè)模型盡量變成一個(gè)通暢的結(jié)構(gòu),通暢的結(jié)構(gòu)要求輸入的信息量足夠大。
這是為什么我們不用激光雷達(dá),因?yàn)榧す饫走_(dá)給我們的信息量太小了,而且頻率又很低,整個(gè)系統(tǒng)會(huì)拖慢到 10 赫茲。它還有光柵的閃變,光柵的處理時(shí)間一般是 80 到 100 毫秒。
最近小鵬第二代 VLA 從喀什到上海橫穿中國(guó),全程 5000 公里,純視覺(jué)方案經(jīng)歷沙塵暴、雨雪等天氣和場(chǎng)景,單次最長(zhǎng) 0 接管里程 1360 公里,這已經(jīng)能說(shuō)明問(wèn)題。
把所有東西加在一塊,整個(gè)邏輯就非常簡(jiǎn)單:找到一個(gè)給你提供高密度信息輸入的傳感器配置,一個(gè)足夠強(qiáng)大的模型,和一個(gè)能夠端到端去訓(xùn)練的方式。
晚點(diǎn):什么樣的智駕體驗(yàn)可以稱(chēng)得上好?
劉先明:智駕體驗(yàn)過(guò)于主觀,沒(méi)有特別好的評(píng)價(jià)標(biāo)準(zhǔn)。過(guò)去大家一直用接管 MPI、MPCI 來(lái)評(píng)價(jià),但如果加規(guī)則或者限制,是很容易做到零接管的。
我一直說(shuō),自動(dòng)駕駛是白開(kāi)水,能讓坐在后座的用戶(hù)忘掉駕駛這件事。
我們內(nèi)部評(píng)價(jià)時(shí)會(huì)盡量排除主觀因素,用比較客觀的 CCES: compliance-合規(guī),comfort-舒適,efficiency-效率,safety-安全。其中,安全最重要,有時(shí)候?yàn)榱税踩坏貌粻奚恍┬屎褪孢m性,但我們不想就此放棄效率和舒適,就看怎么平衡。
晚點(diǎn):這形成共識(shí)很難嗎?
劉先明:很難,因?yàn)樾袠I(yè)很卷。想出圈,一定要挑出不同的特質(zhì),去讓別人注意到自己。
晚點(diǎn):你會(huì)怎么做?
劉先明:沒(méi)有固定答案。最好的辦法是,在技術(shù)架構(gòu)和技術(shù)路線(xiàn)上,不能有短期的 trade-off(妥協(xié)),一定要做具備可拓展性、向上空間足夠大的東西。另外,基礎(chǔ)能力要足夠強(qiáng),才可以在不同風(fēng)格上做 trade-off。作為技術(shù)一號(hào)位,我能做的就是告訴大家,不要去追求某些短期目標(biāo)而去欠下一些技術(shù)債。
晚點(diǎn):哪些算 trade-off 呢?
劉先明:比如為了舒適性,加一些 “過(guò)路口減速” 規(guī)則,或者在某些特定情況給模型加兜底。
晚點(diǎn):你這些說(shuō)的都挺好的。但我們還是想知道,去年天天測(cè)、天天出新問(wèn)題的時(shí)候,團(tuán)隊(duì)還信這條技術(shù)路線(xiàn)嗎?
劉先明:有一段時(shí)間士氣比較慘,測(cè)試結(jié)果很慘,天天我都去看。那時(shí)候真不敢回國(guó)。
那段時(shí)間壓力很大,團(tuán)隊(duì)確實(shí)有不同的聲音。但頂過(guò)壓力后,發(fā)現(xiàn)問(wèn)題的收斂速度非常快。問(wèn)題充分暴露后,用比較系統(tǒng)的方法去修,AI 修問(wèn)題不是一個(gè)個(gè)修,是一坨一坨修的。
有時(shí)候加了一個(gè)數(shù)據(jù)解決一個(gè)問(wèn)題,另外一坨不相關(guān)的問(wèn)題也解了。這個(gè)事情確定之后,系統(tǒng)就好干了,大家都認(rèn)同方向了。以前系統(tǒng)會(huì)存在很多模塊兜底,長(zhǎng)得奇形怪狀特別亂,沒(méi)法優(yōu)化,現(xiàn)在系統(tǒng)可以簡(jiǎn)化很多。
晚點(diǎn):是前面說(shuō)的去年 5 月份那時(shí)候嗎?
劉先明:差不多,那時(shí)候真不敢回國(guó)。我本來(lái) 5 月回國(guó)時(shí)應(yīng)該給大師兄測(cè) demo 的,結(jié)果到約定時(shí)間都沒(méi)找他。一直等到我坐上飛美國(guó)的飛機(jī),才給他發(fā)消息,說(shuō)下次回來(lái)一定讓你坐 demo。
晚點(diǎn):確認(rèn)一下,你是上了飛機(jī)才告訴他的?
劉先明:我想的是,什么時(shí)候做出來(lái)了什么時(shí)候再回國(guó)。
晚點(diǎn):我要是交不出稿,可能也消失。
劉先明:但是你交不出稿你消失的話(huà),會(huì)不會(huì)有人問(wèn)你?
晚點(diǎn):當(dāng)然會(huì)啊。當(dāng)時(shí)何小鵬真沒(méi)找過(guò)你?
劉先明:大師兄對(duì)我真的挺寬容,他不問(wèn)我。有時(shí)候他在飛書(shū)上跟我發(fā)消息,打個(gè)招呼,然后不管了。
晚點(diǎn):做不出來(lái)的時(shí)候你忐忑嗎?
劉先明:大師兄經(jīng)常開(kāi)玩笑說(shuō)我 “花了全公司最多的錢(qián),但是發(fā)現(xiàn)分文不掙”。作為管理者,我肯定有壓力。一家公司能健康地發(fā)展下去,不能只投入,要講產(chǎn)出的,否則游戲轉(zhuǎn)不下去。
但如果你在做的事關(guān)系到公司的未來(lái)命運(yùn)或者整個(gè)商業(yè)化進(jìn)程,沒(méi)有壓力是不可能的,這一點(diǎn)上,全公司壓力最大的肯定是大師兄。有的時(shí)候他也會(huì)跟我吐槽,說(shuō)他自己很痛苦。
在我這一層,他其實(shí)一直極力保護(hù)我。有時(shí)候一個(gè)會(huì)議我剛進(jìn)門(mén),他會(huì)說(shuō) “你走吧,這會(huì)不需要你,回去干活。” 今天車(chē)圈如此卷,半年做不出來(lái)東西,可能很多一號(hào)位就被干掉了。我做這個(gè)事情這么長(zhǎng)時(shí)間,資源一直源源不斷的投入進(jìn)來(lái),老板并沒(méi)有因?yàn)槎虝旱捏w驗(yàn)不好就放棄,或者換一條路走。這種信任和篤定,不太能在別的地方找到。
大概去年 6 月份,我們進(jìn)展還是很快的,所以敢回國(guó)了。我在回來(lái)的航班上看一個(gè)版本的實(shí)驗(yàn)結(jié)果,覺(jué)得不錯(cuò),落地之后趕緊去測(cè)試,天天追著大師兄坐 demo,從北京追到上海。大師兄問(wèn)我為什么不去廣州測(cè),我說(shuō)廣州跑不下來(lái),太難了。
晚點(diǎn):小鵬對(duì)你的管理風(fēng)格是偏向?qū)捜葸€是嚴(yán)格?
劉先明:既寬容又嚴(yán)厲。對(duì)于結(jié)果很寬容,不急功近利,不短視。正是有這種對(duì)于研究和技術(shù)突破的寬容,才有了今天的技術(shù)突破。很多 CEO 嘴上喊的都是技術(shù)突破和投入,但忍不了半年。這是我最欣賞和佩服大師兄的地方。他對(duì)于原則很?chē)?yán)厲,對(duì)就是對(duì),錯(cuò)就是錯(cuò)。不能浪費(fèi)資源,不能渾水摸魚(yú)。這也是小鵬能逐漸走得更快更穩(wěn)的原因。
晚點(diǎn):你什么時(shí)候知道你花了整個(gè)公司最多的錢(qián)?
劉先明:一直都知道。每年都會(huì)跟小鵬和財(cái)務(wù)去審預(yù)算,太可怕了。
晚點(diǎn):所以是多少?
劉先明:這不能告訴你們。
晚點(diǎn):公開(kāi)能查到的 2025 年是 45 億元 AI 研發(fā)投入,是這個(gè)數(shù)字嗎?
劉先明:我去要預(yù)算是 2024 年的事情。2025 年已經(jīng)是公開(kāi)數(shù)字了。
晚點(diǎn):剛到小鵬時(shí)覺(jué)得你自己能花多少錢(qián)?
劉先明:我剛來(lái)的時(shí)候,給老板寫(xiě)一個(gè)方案,要預(yù)算,然后他問(wèn)我說(shuō)這些夠嗎?我說(shuō)不太夠,于是我們重新寫(xiě)了一個(gè)版本叫 “格局打開(kāi)版”,預(yù)算直接 x2,大師兄直接批了。
不過(guò),在資源不受限的情況下,很多事情過(guò)于理想化;而在人、時(shí)間,預(yù)算都受限的情況下,你不得不去想,怎么讓龐大的組織變得更高效;在哪些事情上做取舍,哪些事情讓你有更大贏面。
晚點(diǎn):能舉個(gè)例子嗎?你剛加入時(shí)算力沒(méi)有今天豐富,當(dāng)時(shí)的某個(gè)決策放到今天會(huì)是什么?
劉先明:變化特別明顯,我剛來(lái)時(shí)算力還 OK,但大家覺(jué)得不夠用,每個(gè)人都在申請(qǐng)更多的卡,要預(yù)算。那時(shí)候我去看整個(gè)訓(xùn)練集群的訓(xùn)練效率,發(fā)現(xiàn) GPU 利用率只有 8%,很低。我的決策很簡(jiǎn)單,把它干到 40%,效率提升 5 倍。
當(dāng)時(shí)我們要訓(xùn)更大的模型,為了在規(guī)定的時(shí)間點(diǎn)完成它,直接把卡的數(shù)量 x2,不夠就 x3、x4,這樣可以縮短單個(gè)模型的訓(xùn)練時(shí)間,當(dāng)時(shí)更多是技術(shù)選擇。
現(xiàn)在不一樣。一方面要優(yōu)化整個(gè)訓(xùn)練效率,還要考慮數(shù)據(jù),數(shù)據(jù)成本,存儲(chǔ)/讀取成本。但更重要的是,哪些業(yè)務(wù)線(xiàn)可以等,哪些事情是可以被砍掉的;怎么把預(yù)算分配大盤(pán)子里,讓長(zhǎng)板變得更長(zhǎng)。
晚點(diǎn):8% 也太低了。怎么會(huì)這樣?
劉先明:那個(gè)時(shí)候模型規(guī)模還比較小,大家沒(méi)有意識(shí)到這個(gè)問(wèn)題,并且沒(méi)有深入看這個(gè)問(wèn)題,訓(xùn)練速度慢就直接加機(jī)器,簡(jiǎn)單粗暴。但資源達(dá)到瓶頸后就必須要看了。
在硅谷,工程師的文化和傳統(tǒng)通常是先做工具,先做各種 profiling [12](性能分析)和 dashboard(數(shù)據(jù)可視化),這也是硅谷工程師和研究人員效率很高的原因。但這初期很費(fèi)時(shí)間,后期卻能做到加速度。
解決問(wèn)題核心是找對(duì)人,來(lái)做這種硬核的事情,還要團(tuán)隊(duì)能有統(tǒng)一的認(rèn)知,內(nèi)部要有節(jié)奏,不能揠苗助長(zhǎng),也不能急功近利。最后就是科學(xué)的方法論,不是靠喊口號(hào)和硬派指標(biāo),要從數(shù)據(jù)出發(fā)做出科學(xué)的決定。
晚點(diǎn):去年小鵬賣(mài)的車(chē)更多了,何小鵬給你買(mǎi)卡的預(yù)算有沒(méi)有變多?
劉先明:我們?nèi)ヒA(yù)算,他總是問(wèn) “夠嗎”?
晚點(diǎn):滿(mǎn)分 10 分,你給這版 VLA 2.0 打幾分?
劉先明:6 分,離我們所有人的理想還有差距。目前已知的問(wèn)題,導(dǎo)航(我們不想用任何先驗(yàn)信息,比如高精地圖或者規(guī)則點(diǎn)來(lái)限制模型的泛化能力,我們需要讓他在沒(méi)有這些先驗(yàn)信息的地方也能好用,比如鄉(xiāng)村,地庫(kù),漫游,海外,所以還需要時(shí)間),處理極端情況的能力。所以我不認(rèn)為世界上目前有任何一個(gè)系統(tǒng)已經(jīng)接近 10 分。
“不止智駕,小鵬還要搏物理 AI 的未來(lái)”
晚點(diǎn):現(xiàn)在的 VLA 是不是還不夠你剛說(shuō)的 “極簡(jiǎn)”?
劉先明:整體架構(gòu)上應(yīng)該差不多了。但是內(nèi)部很多細(xì)節(jié)還在不停更新,包括我們也在嘗試各種各樣的方法在往前做,不管是訓(xùn)練的方法還是模型的架構(gòu),都在往前做,但整個(gè)范式是基本不會(huì)變的。
晚點(diǎn):還可能要拆掉什么東西嗎?
劉先明:沒(méi)什么可拆的了,再拆就沒(méi)了。
晚點(diǎn):再拆就剩骨架了。
劉先明:對(duì)。所以說(shuō)到底,其實(shí)這背后沒(méi)有什么太多的秘密,秘密就是極致的工程化,這也是我剛來(lái)的時(shí)候跟小鵬說(shuō)的話(huà),AI 的背后就是極致工程化。
晚點(diǎn):目前自動(dòng)駕駛領(lǐng)域,還有技術(shù)非共識(shí)?
劉先明:還有很多,可能一家公司甚至團(tuán)隊(duì)里都有非共識(shí)。比如怎么做 VLA 大家就沒(méi)有共識(shí),再比如自動(dòng)駕駛出多條軌跡還是單條軌跡也沒(méi)有共識(shí);是橫向空間縱向空間分開(kāi)做出軌跡,還是橫縱聯(lián)合出軌跡,也沒(méi)有共識(shí)。如果大算力、大數(shù)據(jù)是強(qiáng)共識(shí),那兩年前所有車(chē)企都應(yīng)該去做大算力芯片,但現(xiàn)在很多量產(chǎn)的下一代芯片,算力還是 Orin 量級(jí)。
晚點(diǎn):非共識(shí)意味著不確定性,但何小鵬說(shuō)三年內(nèi)自動(dòng)駕駛可以實(shí)現(xiàn),這是一個(gè)很大的確定性。這里面有矛盾嗎?
劉先明:沒(méi)有大矛盾,方法論是固定的,大方向是確定的,可能行業(yè)還沒(méi)完全信。我們篤定是因?yàn)檫^(guò)去幾年 AI 的發(fā)展就是這樣,比如 OpenAI、Gemini、Claude 出來(lái)。2023 年谷歌發(fā)第一代大模型時(shí),大家還認(rèn)為是造假,但想象不到一年后,Gemini 3 能做到現(xiàn)在這樣。當(dāng)路徑是對(duì)時(shí),趨勢(shì)會(huì)發(fā)展得非常快的。核心在于有沒(méi)有選擇一條對(duì)的路,不斷調(diào)整方法,快速探索。
晚點(diǎn):你在 Cruise 研究 L4 自動(dòng)駕駛、Robotaxi,一些 L4 自動(dòng)駕駛公司普遍會(huì)認(rèn)為,沿著 L2 智駕的路線(xiàn)沒(méi)有辦法抵達(dá) L4 級(jí)自動(dòng)駕駛。你怎么評(píng)價(jià)?
劉先明:沿著 L2 可以走到 L4,AI 大模型和規(guī)模法則(Scaling Law)讓我們看到并且堅(jiān)信這個(gè)方向。
我們的 VLA 2.0 架構(gòu)就是為了 L4 而生的,從視覺(jué)輸入到軌跡輸出的極簡(jiǎn)架構(gòu),能夠支持模型、數(shù)據(jù)和算力的高效擴(kuò)展,scaling 能讓我們突破模仿學(xué)習(xí)的上限,突破 L2;世界模型和強(qiáng)化學(xué)習(xí)能夠幫助模型自我進(jìn)化,解決各種各樣的 corner case。
其實(shí),Cruise 是當(dāng)時(shí)自動(dòng)駕駛?cè)镒?Waymo 追得非常狠的公司。2019 年還是純規(guī)則,工程師寫(xiě)一段代碼,然后自己坐到副駕,現(xiàn)場(chǎng)調(diào)試,開(kāi)一圈出去沒(méi)撞就說(shuō)明沒(méi)事,如果撞了,就說(shuō)明代碼有問(wèn)題。
晚點(diǎn):寫(xiě)完代碼立刻測(cè)試?
劉先明:對(duì)。那時(shí)候技術(shù)棧非常重規(guī)則,最早 Cruise 那幫人很多都參加過(guò) DARPA [13] 的無(wú)人駕駛挑戰(zhàn)賽,也有人來(lái)自 CMU(卡內(nèi)基梅隆大學(xué))機(jī)器人實(shí)驗(yàn)室。我第一次見(jiàn)到 Cruise 車(chē)的時(shí)候驚呆了,那么小的 GM Chevy Bolt(雪佛蘭小型電動(dòng)車(chē))車(chē)上裝了 5 顆激光雷達(dá)。
第二代車(chē)有 22 顆攝像頭,4 顆 128 線(xiàn)激光雷達(dá),8 顆近場(chǎng)激光雷達(dá)。那個(gè)時(shí)候的代碼怎么寫(xiě)的?雷達(dá)點(diǎn)云作為輸入進(jìn)來(lái),檢測(cè)然后執(zhí)行規(guī)則,寫(xiě)優(yōu)化器,然后計(jì)算軌跡。在舊金山街道,我們的車(chē)被樹(shù)枝垂下來(lái)遮住激光雷達(dá),被卡住了。Cruise 還動(dòng)用 “鈔” 能力,把整條街的樹(shù)枝都得修剪了。
Cruise 是全美第一個(gè)商業(yè)化的自動(dòng)駕駛企業(yè),雖然后面有不幸的事情。能做到這一點(diǎn),是因?yàn)?2019 年 Cruise 決心換思路,成立了 AI 部門(mén),我是那個(gè)時(shí)候加入的。當(dāng)時(shí)提出概念 Continuous Learning Machine 的概念,即一種持續(xù)學(xué)習(xí)的機(jī)器。當(dāng)時(shí)覺(jué)得不太可能實(shí)現(xiàn),但也是從那時(shí)候開(kāi)始,我們大規(guī)模學(xué)習(xí) Infra,建立非常通用、簡(jiǎn)單的模型框架。
晚點(diǎn):你在 Cruise 時(shí)已經(jīng)能看到 AI 大模型的技術(shù)框架支撐進(jìn)化到自動(dòng)駕駛了嗎?
劉先明:那時(shí)候沒(méi)有人敢說(shuō)一定是對(duì)的。2022 年底 Cruise 內(nèi)部邀請(qǐng) Sam Altman(OpenAI 創(chuàng)始人)來(lái)跟當(dāng)時(shí)的 CEO Kyle Vogt 做爐邊談話(huà),當(dāng)時(shí)我們?cè)谂f金山體驗(yàn)了一個(gè)多小時(shí) Robotaxi,沒(méi)有遠(yuǎn)程接管過(guò),我們跟 Sam 吹牛,看我們多牛。但是 Sam 當(dāng)時(shí)說(shuō)我們?cè)谧?GPT,緊接著 2023 年 ChatGPT 就出來(lái)了,非常震撼。
晚點(diǎn):為什么之后又去了小鵬?
劉先明:當(dāng)時(shí)在商業(yè)化面前,要做最終取舍,還要用各種規(guī)則把模型限制住。離開(kāi) Cruise 還是因?yàn)椋?dāng)你相信一條路,但在這看不到盡頭,你可能會(huì)選擇一個(gè)新的地方去實(shí)現(xiàn)它。
晚點(diǎn):你當(dāng)時(shí)跟何小鵬第一次見(jiàn)面就達(dá)成了共識(shí)?
劉先明:跟大師兄約在硅谷辦公室面試。面試之前,我想的事情是,如果他聽(tīng)不懂我在說(shuō)什么我就不來(lái)了。估計(jì)大師兄當(dāng)時(shí)想的事情是,如果這個(gè)人想的事情還是過(guò)去那套,我也不要他了。他希望做一家有創(chuàng)新能力的 AI 企業(yè),所以才大刀闊斧去改革。我覺(jué)得我跟他說(shuō)什么,他是認(rèn)同并覺(jué)得就應(yīng)該做的。我也是一個(gè)比較激進(jìn)的人,聊完了之后,我覺(jué)得給我準(zhǔn)備 offer 吧。
晚點(diǎn):當(dāng)時(shí)有多家智駕公司也在接觸你,你選擇了小鵬汽車(chē)?
劉先明:我要做的事,一定需要大量數(shù)據(jù)和大量資金支持,肯定選擇一個(gè)能有數(shù)據(jù)和硬件支持的地方,只能是主機(jī)廠。當(dāng)然,大師兄自己也有了類(lèi)似的想法,想找人跟他一起實(shí)現(xiàn)。所以剛來(lái)小鵬的時(shí)候,我們認(rèn)為這條路是對(duì)的,但沒(méi)人百分百確信。那個(gè)時(shí)間點(diǎn)上,小鵬想做,我也終于找到一個(gè)愿意投錢(qián)的老板。
晚點(diǎn):你最早加入小鵬出任 AI 負(fù)責(zé)人,還不是技術(shù)一號(hào)位,當(dāng)時(shí)怎么爭(zhēng)取資源、怎么說(shuō)服團(tuán)隊(duì)嘗試新路線(xiàn)?
劉先明:小鵬自動(dòng)駕駛團(tuán)隊(duì)一直非常扁平。我來(lái)的時(shí)候跟力耘電話(huà),他說(shuō)這個(gè)團(tuán)隊(duì)是你的,一會(huì)兒又打過(guò)來(lái)說(shuō),這個(gè)團(tuán)隊(duì)也是你的。其實(shí)不需要去爭(zhēng)取什么。過(guò)去幾年,小鵬做了很多事情,比如 2022 年開(kāi)始建 “扶搖” 萬(wàn)卡集群,很多先天條件都已經(jīng)鋪好。它的積累在所有主機(jī)廠里是最有先天優(yōu)勢(shì)的。
晚點(diǎn):你什么時(shí)候才覺(jué)得自己在小鵬站穩(wěn)了腳跟?
劉先明:我剛來(lái)時(shí),很多人跟我說(shuō)踩了幾個(gè)死穴。第一是空降,第二是跨國(guó),當(dāng)時(shí)團(tuán)隊(duì)一半在國(guó)內(nèi),一半在美國(guó),第三還讓人覺(jué)得高高在上,那時(shí)候科學(xué)家氣質(zhì)比較重,很高冷,不像現(xiàn)在話(huà)癆一樣。很多人判斷我撐不過(guò)一年。
晚點(diǎn):但你走到了今天,還被賦予更多職責(zé)。
劉先明:小鵬的團(tuán)隊(duì)是很包容的,因?yàn)橐恢庇泄韫葓F(tuán)隊(duì),大家很適應(yīng)有能力、有新想法的人加入,也適應(yīng)跨文化協(xié)作。
晚點(diǎn):從哪個(gè)節(jié)點(diǎn)開(kāi)始,你覺(jué)得團(tuán)隊(duì)開(kāi)始信你?
劉先明:可能就是無(wú)圖城市 NOA 階段,包括去激光雷達(dá)、搭建 OCC(占據(jù)網(wǎng)絡(luò))階段,開(kāi)始向團(tuán)隊(duì)輸出一些想法,推動(dòng)底層框架變化,大家愿意跟著你一起干,最終結(jié)果好像還不錯(cuò),那時(shí)候開(kāi)始有人相信你的技術(shù)判斷。
晚點(diǎn):自動(dòng)駕駛的技術(shù)依然在向前演進(jìn),除了 VLA,還有別的路線(xiàn)可能嗎?有行業(yè)人士說(shuō)技術(shù)路徑已經(jīng)進(jìn)入停滯年代,您認(rèn)同嗎?
劉先明:我不認(rèn)同,我們才只是物理 AI 很初始的階段。我們也都看到了過(guò)去、今年,AI 是以什么節(jié)奏進(jìn)步的。核心還是你要做自動(dòng)駕駛軟件,還是物理 AI 。自動(dòng)駕駛算法可能接近天花板了,但是物理 AI 剛開(kāi)始。
晚點(diǎn):機(jī)器人的研發(fā)會(huì)對(duì)智駕還有哪些啟示嗎?小鵬會(huì)在機(jī)器人關(guān)節(jié)的自研上做到哪種程度?
劉先明:小鵬機(jī)器人現(xiàn)階段會(huì)充分復(fù)用小鵬智駕乃至整個(gè)汽車(chē)體系的能力。機(jī)器人行業(yè)是軟件驅(qū)動(dòng)硬件設(shè)計(jì),機(jī)器人的關(guān)鍵在于融合+創(chuàng)新,要做到這一點(diǎn),全棧自研就成了必選項(xiàng)。
只有自己研發(fā)的硬件,才能完美匹配自己訓(xùn)練的模型,而模型的訓(xùn)練也要根據(jù)實(shí)際需求進(jìn)行專(zhuān)項(xiàng)調(diào)整。到最后,我們發(fā)現(xiàn),只有全棧自研,才能造出一個(gè)足夠領(lǐng)先,同時(shí)又能實(shí)現(xiàn)規(guī)模化量產(chǎn)的機(jī)器人。
晚點(diǎn):你前面說(shuō)小鵬汽車(chē)極致扁平,這是場(chǎng)面話(huà)嗎?
劉先明:扁平化真是小鵬的獨(dú)特文化,你很少能在飯?zhí)每吹揭粋€(gè) CEO 這么平易近人,也跟你一樣吃豬腳飯。我在食堂見(jiàn)到他,當(dāng)時(shí)還拄著拐,大師兄見(jiàn)到我說(shuō),來(lái)坐這吃,我說(shuō)我走不動(dòng),然后大師兄端著飯盤(pán)過(guò)來(lái)了。
晚點(diǎn):你們現(xiàn)在人也挺多的,特斯拉 FSD 團(tuán)隊(duì)沒(méi)那么人,車(chē)企智駕有必要養(yǎng)這么龐大的智駕隊(duì)伍嗎?
劉先明:不一樣,特斯拉 Autopilot 團(tuán)隊(duì)確實(shí)人不多。我們團(tuán)隊(duì)其實(shí)有很大的變化,很多人轉(zhuǎn)到了中間的 Infra,去做訓(xùn)練、推理、車(chē)端部署、數(shù)據(jù)研發(fā)等。很多之前寫(xiě)規(guī)則的工程師,雖然不適應(yīng)做模型,但知道什么數(shù)據(jù)最重要,所以他是做數(shù)據(jù)最好的人。
數(shù)據(jù)不是能從車(chē)上回傳回來(lái)就可以用。每天一輛車(chē)平均開(kāi)車(chē) 1.7 個(gè)小時(shí),但真實(shí)有效數(shù)據(jù)不超過(guò) 90 秒。如果沒(méi)有對(duì)自動(dòng)駕駛行為非常準(zhǔn)確的判斷,是找不出來(lái)數(shù)據(jù)的。我們不是要干掉這些人,而是給大家找更合適的位置。我們還有大眾的項(xiàng)目、機(jī)器人 .... 很多橫向項(xiàng)目也會(huì)涉及到很多人。盡量幫大家做轉(zhuǎn)型和升級(jí)。
晚點(diǎn):如果按商業(yè)化順序來(lái)看,自動(dòng)駕駛、機(jī)器人、通用智能,哪個(gè)優(yōu)先級(jí)最高?
劉先明:自動(dòng)駕駛、機(jī)器人、通用智能。
晚點(diǎn):你是個(gè)容易 “掛臉” 的人嗎?
劉先明:不是,有人說(shuō)我很 nice,但是我會(huì)因?yàn)槔速M(fèi)時(shí)間和邏輯不清楚這兩件事情直接打斷所有人講話(huà)。
晚點(diǎn):你 MBTI 是什么?
劉先明:INTJ。
晚點(diǎn):作為小鵬通用智能中心的負(fù)責(zé)人,你希望團(tuán)隊(duì)成員用哪三個(gè)關(guān)鍵詞來(lái)評(píng)價(jià)自己的領(lǐng)導(dǎo)風(fēng)格?
劉先明:克制,穩(wěn)定,果斷。
晚點(diǎn):如果要用一場(chǎng)具體的仗來(lái)讓整個(gè)通用智能中心形成戰(zhàn)斗力,你會(huì)選什么?
劉先明:就是今年的艙駕聯(lián)動(dòng),因?yàn)檫@是整個(gè)組織轉(zhuǎn)型,重構(gòu)底層架構(gòu),以及讓大家看到上限的一次戰(zhàn)斗。這個(gè)故事很熟悉,自動(dòng)駕駛也是 VLA 2.0 這么一戰(zhàn)打成的。
晚點(diǎn):你跟我們提了很多次 “簡(jiǎn)單”,這是你的某種信條嗎?
劉先明:其實(shí)是在讀書(shū)的時(shí)候,我的博導(dǎo) Thomas Huang(我們叫他 Tom,黃煦濤教授),他一輩子追求的理念就是簡(jiǎn)單,相信簡(jiǎn)單的東西才是美的。
2012 年我在美國(guó)讀書(shū),那會(huì) Alexnet 神經(jīng)網(wǎng)絡(luò)剛出來(lái),當(dāng)時(shí)我們整個(gè)實(shí)驗(yàn)室做圖像處理和計(jì)算機(jī)視覺(jué),Tom 說(shuō)所有人停下手里所有工作,全轉(zhuǎn)去神經(jīng)網(wǎng)絡(luò)。這其實(shí)就是模型 Scaling 和數(shù)據(jù) Scaling 的早期雛形。但業(yè)界很多人不敢去轉(zhuǎn),在排斥,我們當(dāng)學(xué)生的心里也比較打鼓,但可能當(dāng)時(shí)已經(jīng)有這樣的想法。
畢業(yè)以后第一次被直接的觸動(dòng)確實(shí)是 Sam Altman 介紹 GPT,所有人都在考慮是不是這就是未來(lái)。我們這代人很幸運(yùn),2016 年的時(shí)候有 Resnet(殘差神經(jīng)網(wǎng)絡(luò)),2017 年有 Transformer,GPT 最早是 2019 年,2023 年 Chat GPT。你會(huì)發(fā)現(xiàn),你不確定的道路,已經(jīng)有些先驅(qū)者幫你探好路,告訴你是對(duì)的。
題圖來(lái)源:小鵬汽車(chē)
注釋?zhuān)?/p>
[1] VLA:Visual-Language-Action 的縮寫(xiě),即 “視覺(jué)—語(yǔ)言—?jiǎng)幼髂P汀保笇⒁曈X(jué)輸入、語(yǔ)言理解與動(dòng)作輸出結(jié)合在一起的模型。文中所說(shuō)小鵬 VLA 2.0,核心變化是減少中間語(yǔ)言翻譯環(huán)節(jié),讓模型更直接地從感知走向動(dòng)作輸出
[2] VLM:Vision-Language Model 的縮寫(xiě),即 “視覺(jué)—語(yǔ)言模型”,通常用于處理圖像、視頻與文本之間的聯(lián)合理解任務(wù)。
[3] Language / language token:文中指模型推理過(guò)程中的語(yǔ)言表征。token 是大模型處理信息時(shí)使用的基本單位,可理解為文本被切分后的最小計(jì)算單元之一。
[4] Scaling Law:規(guī)模法則,指模型能力通常會(huì)隨著參數(shù)規(guī)模、訓(xùn)練數(shù)據(jù)量和算力投入的增長(zhǎng)而提升。
[5] Data Scaling:通過(guò)擴(kuò)大數(shù)據(jù)規(guī)模、提升數(shù)據(jù)質(zhì)量來(lái)增強(qiáng)模型能力的方法。
[6] CoT:Chain of Thought 的縮寫(xiě),常譯為 “鏈?zhǔn)酵评怼?或 “思維鏈”,指模型通過(guò)生成中間推理步驟來(lái)提升結(jié)果質(zhì)量。
[7] training time scaling / test-time scaling:前者指在訓(xùn)練階段增加算力、數(shù)據(jù)和訓(xùn)練資源;后者指在推理階段增加計(jì)算量,以換取更好的結(jié)果。
[8] data curation:數(shù)據(jù)篩選、數(shù)據(jù)治理,指從海量數(shù)據(jù)中識(shí)別、清洗、組織出對(duì)訓(xùn)練真正有價(jià)值的數(shù)據(jù)。
[9] outlier:異常值,指明顯偏離多數(shù)樣本分布的數(shù)據(jù)。它未必是錯(cuò)誤數(shù)據(jù),但往往更難處理。
[10] Infra:infrastructure 的縮寫(xiě),即 “基礎(chǔ)設(shè)施”。在本文語(yǔ)境里,主要指訓(xùn)練集群、數(shù)據(jù)系統(tǒng)、推理部署等支撐模型研發(fā)和運(yùn)行的底層能力。
[11] Monte Carlo:蒙特卡洛方法,一類(lèi)基于隨機(jī)采樣的統(tǒng)計(jì)模擬方法,常用于復(fù)雜系統(tǒng)的求解與優(yōu)化。
[12] profiling / dashboard:profiling 指性能分析,用于定位系統(tǒng)運(yùn)行瓶頸;dashboard 指數(shù)據(jù)看板或可視化面板,用于監(jiān)測(cè)和展示關(guān)鍵指標(biāo)。
[13] DARPA / CMU:DARPA 是美國(guó)國(guó)防高級(jí)研究計(jì)劃局,曾舉辦多屆無(wú)人駕駛挑戰(zhàn)賽;CMU 是卡內(nèi)基梅隆大學(xué),其機(jī)器人研究長(zhǎng)期處于全球前沿。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.