網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

對(duì)話(huà)小鵬汽車(chē)劉先明：押注 “極簡(jiǎn)模型”，我花了全公司最多的錢(qián)

2026-04-14 16:39:54　來(lái)源: 新浪財(cái)經(jīng)

北京舉報(bào)

分享至

來(lái)源：市場(chǎng)資訊

（來(lái)源：晚點(diǎn)LatePost）

文丨李安琪

編輯丨龔方毅

2022 年下半年，通用汽車(chē)旗下的 Cruise 在舊金山晚高峰跑了一趟一個(gè)半小時(shí)的 Robotaxi（無(wú)人駕駛出租車(chē)），全程零接管。不久后公司請(qǐng) Sam Altman 做了一場(chǎng)內(nèi)部爐邊談話(huà)，當(dāng)時(shí)在 Cruise 做機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺(jué)研究的劉先明和同事們聊起這趟行程，很驕傲。而 Sam Altman 一直在說(shuō)他們正在做的 ChatGPT —— 當(dāng)時(shí)沒(méi)太多人在意。

幾個(gè)月后 OpenAI 發(fā)布 ChatGPT，一個(gè)足夠簡(jiǎn)單的模型架構(gòu)，加上足夠大的參數(shù)量、數(shù)據(jù)和算力，展現(xiàn)出超越預(yù)期的智能。劉先明說(shuō)當(dāng)時(shí)被震撼了，他想也許沿著同樣的路徑，不用手寫(xiě)成千上萬(wàn)條規(guī)則，不用給系統(tǒng)裝五顆激光雷達(dá)再把沿街會(huì)遮擋傳感器的樹(shù)枝修剪一遍，智能駕駛也有機(jī)會(huì)涌現(xiàn)出智能。

2024 年初，他帶著這個(gè)判斷加入小鵬汽車(chē)。在小鵬硅谷辦公室第一次見(jiàn)何小鵬時(shí)，他想的是 “如果他聽(tīng)不懂我在說(shuō)什么，我就不來(lái)了”。

今年 3 月，基于這套邏輯開(kāi)發(fā)的小鵬汽車(chē)第二代 VLA [1]（視覺(jué)-語(yǔ)言-動(dòng)作模型）開(kāi)始上車(chē)。這也是劉先明加入小鵬以來(lái)最完整的一次交付。因?yàn)樘嗤邢霚y(cè)，一輛裝了新版軟件的試駕車(chē)，日租金一度被炒到八千元。

交付后，我們?cè)谛※i的上海研發(fā)辦公室見(jiàn)到了劉先明。他剃個(gè)圓寸頭、戴黑框眼鏡、說(shuō)話(huà)溫和，是 i 人但因?yàn)楣ぷ鞒闪嗽?huà)癆。熟人評(píng)價(jià)他 “目標(biāo)感很清晰，能力非常綜合，既能講很深的技術(shù)，也能把復(fù)雜問(wèn)題說(shuō)清楚”。

劉先明在小鵬汽車(chē)歷任北美 AI 負(fù)責(zé)人、基座模型負(fù)責(zé)人、自動(dòng)駕駛中心負(fù)責(zé)人，2026 年 2 月出任通用智能中心負(fù)責(zé)人，統(tǒng)管智駕和座艙這兩個(gè)原先的一級(jí)部門(mén)。在他之前，吳新宙為小鵬建立了智駕第一梯隊(duì)的行業(yè)認(rèn)知，李力耘用工程和規(guī)則把 “端到端” 高階輔助駕駛推向全國(guó)量產(chǎn)。劉先明要做的是自研基座模型，拆掉語(yǔ)言翻譯，讓模型從視頻和駕駛數(shù)據(jù)里直接學(xué)開(kāi)車(chē)。

兩年間，劉先明成了小鵬花錢(qián)最多的人。2025 年，他統(tǒng)管的業(yè)務(wù)吃掉了 45 億元年度 AI 研發(fā)預(yù)算中最大的份額。何小鵬在第二代 VLA 量產(chǎn)推送前的直播里說(shuō) “連續(xù)十幾個(gè)月，每月花 3 個(gè)億去賭這個(gè)事情，心里也很慌。”

但一個(gè)繞不開(kāi)的問(wèn)題是，智駕行業(yè)目前的整體處境是否值得這種規(guī)模的投入。目前沒(méi)有哪個(gè)細(xì)分市場(chǎng)的銷(xiāo)量冠軍是靠智駕贏的，頭部智駕供應(yīng)商還在虧錢(qián)，而且技術(shù)領(lǐng)先的花期又很短，總有后發(fā)者快速追上。

劉先明的回答是，他們賭的不只是智駕，還有物理 AI。而在實(shí)現(xiàn)這個(gè)愿景前，他跟何小鵬還有一個(gè)更具體的賭約：今年 8 月底達(dá)不到特斯拉 FSD V14 在硅谷的水平，他將在金門(mén)大橋裸跑。

以下是《晚點(diǎn) Auto 》和小鵬汽車(chē)通用智能中心負(fù)責(zé)人劉先明的對(duì)談與追問(wèn)，經(jīng)編輯：

“拆掉 Language，VLA 2.0 才真正開(kāi)始”

晚點(diǎn)：什么是 VLA 2.0？

劉先明：之前行業(yè)里做智駕大模型，包括我們第一代 VLA，基本都是拿開(kāi)源的語(yǔ)言模型做骨架，加上圖像數(shù)據(jù)就能做 VLM [2]（視覺(jué)-語(yǔ)言模型）。但問(wèn)題是攝像頭看到畫(huà)面后要先經(jīng)過(guò)語(yǔ)言模型處理再輸出駕駛動(dòng)作這個(gè)過(guò)程，容易有高延遲，一秒鐘只能輸出兩三次指令，做不到實(shí)時(shí)處理。

做 VLA 2.0 時(shí)我們自研基座模型，傳感器信息輸入系統(tǒng)，輸出駕駛動(dòng)作，中間不再經(jīng)過(guò)語(yǔ)言（Language）翻譯。這個(gè)基座模型接上動(dòng)作模塊就是 VLA 控車(chē)，接上視頻生成就是世界模型。

從頭訓(xùn)練一個(gè)基座模型需要大量的錢(qián)、數(shù)據(jù)和精力，還要冒險(xiǎn)，當(dāng)下汽車(chē)行業(yè)誰(shuí)敢在不確定的情況下投這么多？這個(gè)決定是最難的。做出結(jié)果之后，說(shuō)服別人并不難。

晚點(diǎn)：這就是你們說(shuō)的拆掉 Language？

劉先明：拆掉的是推理鏈路中間的語(yǔ)言翻譯：原來(lái)模型輸出結(jié)果要先變成 language tokens [3] ，查表翻譯成文字，再生成駕駛動(dòng)作。普通人開(kāi)車(chē)不需要先在腦子里把看到的東西翻譯成一段話(huà)，這一步?jīng)]有必要。

但語(yǔ)言沒(méi)有從整個(gè)系統(tǒng)消失。輸入端還需要語(yǔ)言，用戶(hù)語(yǔ)音控車(chē)、意圖理解都要用到語(yǔ)言模型。所以不是做了一個(gè)完全沒(méi)有 language 的東西，拆掉的是中間那層翻譯。

晚點(diǎn)：在原來(lái)的架構(gòu)上繼續(xù)喂更多數(shù)據(jù)，不拆 Language 不行嗎？

劉先明：不行。模型中間不能有信息瓶頸，一旦產(chǎn)生，后面再增加數(shù)據(jù)量也不見(jiàn)得有好的效果。另外自動(dòng)駕駛對(duì)實(shí)時(shí)性要求非常高，最終要權(quán)衡的是模型體量和推理延時(shí)。在有限車(chē)端算力下，參數(shù)量擴(kuò)大十倍，推理就變慢，控車(chē)能力變差；但要想更好控車(chē)、更低延時(shí)，那模型體量要減小。

我們?nèi)ツ曜隽艘粋€(gè)特別有意思的事，當(dāng)時(shí)團(tuán)隊(duì)里不是所有人都信任這個(gè)方向，所以一開(kāi)始用開(kāi)源模型再加上 Action（動(dòng)作）數(shù)據(jù)訓(xùn)了一套自動(dòng)駕駛 VLA 模型后，有一天我們幾個(gè)人偷偷把 Language 拆了，模型但還是用原來(lái)的名字，我們第一次上了最大數(shù)量的 GPU 來(lái)訓(xùn)練模型，GPU 變大，數(shù)據(jù)量變大變多，拆完訓(xùn)完發(fā)現(xiàn)效果挺好的。

晚點(diǎn)：那是 VLA 2.0 的雛形？當(dāng)時(shí)花了多久做這件事？

劉先明：去年 5 月份，花了兩三個(gè)星期。

晚點(diǎn)：拆掉了語(yǔ)言模塊之后，訓(xùn)練數(shù)據(jù)的來(lái)源是不是也要跟著變？

劉先明：互聯(lián)網(wǎng)上的文字?jǐn)?shù)據(jù)是最多的，非常容易獲得，信息量很大，可以快速把模型做起來(lái)。但做物理 AI，做機(jī)器人，做自動(dòng)駕駛，更多數(shù)據(jù)來(lái)自于每天回傳的車(chē)輛數(shù)據(jù)，從物理世界真實(shí)采集出來(lái)的。如果要做物理 AI，一定要把這部分?jǐn)?shù)據(jù)弄好，訓(xùn)練方式一定要改過(guò)來(lái)。

晚點(diǎn)：機(jī)器人行業(yè)也有反思，減少大語(yǔ)言模型，直接做理解+生成一體化。小鵬二代 VLA 也受這個(gè)范式啟發(fā)嗎？

劉先明：這個(gè)思考可能是在不同的人群和領(lǐng)域中同時(shí)發(fā)生的。自動(dòng)駕駛和機(jī)器人都屬于物理 AI，面對(duì)的問(wèn)題本質(zhì)是一樣的，都要與真實(shí)物理世界交互，處理非結(jié)構(gòu)化的輸入，輸出連續(xù)而非離散的動(dòng)作（車(chē)子的駕駛動(dòng)作和機(jī)器人的行為動(dòng)作）。拿掉 “語(yǔ)言” 這個(gè)思路很符合第一性原理，它簡(jiǎn)單、直接，是更極致的端到端，也很像人類(lèi)開(kāi)車(chē)和日常生活中很多不用語(yǔ)言但暗含智能的 “直覺(jué)行為”。

晚點(diǎn)：但我們聽(tīng)說(shuō)這版 VLA 2.0 發(fā)布推遲了兩個(gè)月？

劉先明：本來(lái)定在 1 月底開(kāi)始凍結(jié)版本、2 月全量推送。1 月初有一天小鵬給我打電話(huà)，他說(shuō) “現(xiàn)在這樣不行，你們每天都在修下限，模型上限完全沒(méi)有釋放出來(lái)，再給你兩個(gè)月的時(shí)間，你會(huì)做成什么樣？” 我說(shuō) “老板，你要再給兩個(gè)月時(shí)間，我馬上把結(jié)構(gòu)給換了”。他說(shuō) “好”。于是調(diào)整到 3 月份推送。

第二天我們換了模型結(jié)構(gòu)重新開(kāi)始訓(xùn)練。有人說(shuō)我們交作業(yè)總是很遲，因?yàn)槲覀兛吹礁玫目赡苄浴Ｈ绻?2 月份我們真的發(fā)了一版，可能現(xiàn)在天天在修 bug。

晚點(diǎn)：如果覺(jué)得可以做得更好，為什么不主動(dòng)提延遲？

劉先明：一個(gè)是當(dāng)時(shí)版本確實(shí)可以上線(xiàn)。另一個(gè)原因是模型、AI 發(fā)展是永遠(yuǎn)往前進(jìn)，我們現(xiàn)在理論上每天能更新四個(gè)版本。但從公司商業(yè)決策來(lái)看，要考慮產(chǎn)品型譜、上市節(jié)奏、財(cái)務(wù)狀況來(lái)決定什么時(shí)候產(chǎn)出結(jié)果。

晚點(diǎn)：多給 2 個(gè)月，模型怎么做到顯著進(jìn)步？

劉先明：我們的核心優(yōu)勢(shì)是迭代速度，而不是做一個(gè)非常 fancy、跨時(shí)代的模型結(jié)構(gòu)。現(xiàn)在每家的 AI 模型結(jié)構(gòu)都極其相似和簡(jiǎn)單，越復(fù)雜的東西越不好用。

我們有一套體系可以加快迭代速度，速度越快才能發(fā)現(xiàn)新問(wèn)題、嘗試新結(jié)構(gòu)。對(duì)很多團(tuán)隊(duì)來(lái)說(shuō)，最大的問(wèn)題不是不知道下個(gè)結(jié)構(gòu)用什么，而是沒(méi)時(shí)間去試。我們?cè)谧鲆患](méi)人知道正確答案的事，只能猜或者只能靠經(jīng)驗(yàn)判斷，沒(méi)有人百分百準(zhǔn)確。我們每天都在不停迭代，把過(guò)去的結(jié)論推翻重新來(lái)。

晚點(diǎn)：馬斯克也說(shuō)過(guò)，創(chuàng)新來(lái)自于速度的迭代。

劉先明：特別明顯，現(xiàn)在模型收斂速度越來(lái)越快，不是因?yàn)楦喙こ處熂尤耄俏覀兊捏w系自動(dòng)化程度越來(lái)越高。

晚點(diǎn)：這條路總結(jié)下來(lái)就是 Data Scaling [5] ？

劉先明：不僅是 Data Scaling。首先 AI 一定是極致簡(jiǎn)化，不像過(guò)去做語(yǔ)音，得先有個(gè)模型做語(yǔ)音識(shí)別，再做語(yǔ)言處理，最后做語(yǔ)音生成。現(xiàn)在大家都是原生多模態(tài)模型，端到端，結(jié)構(gòu)一定要簡(jiǎn)單。第二，Scaling 不僅體現(xiàn)在數(shù)據(jù)，還體現(xiàn)在模型，是體系層級(jí)的 Scaling。有任何短板，這事都做不成，絕不是一兩天、半年就能追得上來(lái)。

晚點(diǎn)：現(xiàn)在車(chē)端模型的參數(shù)有多大？

劉先明：差不多 ****。

晚點(diǎn)：模型越大越好嗎？

劉先明：沒(méi)有絕對(duì)說(shuō)法，至少體量上越大越好，但越大的模型需要越多數(shù)據(jù)。收集數(shù)據(jù)對(duì)我們來(lái)說(shuō)不是難事，尤其是二代 VLA 推出去后，會(huì)有大量影子模式數(shù)據(jù)回來(lái)。真正難的是，如何在車(chē)端芯片塞入更大的模型。

晚點(diǎn)：現(xiàn)在數(shù)據(jù)有多大的量級(jí)？

劉先明：整體數(shù)據(jù)存儲(chǔ)量 50 PB 左右。

晚點(diǎn)：總體來(lái)說(shuō)，數(shù)據(jù)規(guī)模越大對(duì)于模型性能越有利？

劉先明：高質(zhì)量、有用的數(shù)據(jù)規(guī)模越大越有利。我們一開(kāi)始也遇到過(guò)車(chē)在直行場(chǎng)景開(kāi)得很好，一掉頭就廢的情況。原因是 90% 以上的數(shù)據(jù)都是空曠道路直行。數(shù)據(jù)單純多沒(méi)有意義，得找到有用數(shù)據(jù)。

晚點(diǎn)：找?guī)装賯€(gè)熟練的專(zhuān)車(chē)司機(jī)，讓他們?nèi)珖?guó)到處開(kāi)，把他們的數(shù)據(jù)收集下來(lái)，這個(gè)方式行得通嗎？

劉先明：行不通。200 個(gè)、2 萬(wàn)個(gè)司機(jī)，跟上百萬(wàn)個(gè)司機(jī)完全不一樣。200 個(gè)司機(jī)能覆蓋多少場(chǎng)景？有段時(shí)間，我們碰到最奇葩的數(shù)據(jù)采集案例是近距離繞行，一個(gè)司機(jī)停在前面，另一個(gè)人繞過(guò)，再停在前面，再繞過(guò)去。

我們也想過(guò)請(qǐng)司機(jī)，但這樣的數(shù)據(jù)沒(méi)有意義，因?yàn)槎疾皇莵?lái)自于真實(shí)場(chǎng)景。數(shù)據(jù)收集要像是真實(shí)世界采樣器，采樣得越密集、越隨機(jī)，量足夠大，才可能逼近真實(shí)世界場(chǎng)景，模型才具有泛化性，才能解決之前沒(méi)見(jiàn)過(guò)的問(wèn)題。

晚點(diǎn)：我們體驗(yàn)過(guò)好幾家智駕，一個(gè)共同感受是前 10 分鐘效果驚艷，越到后面越容易唯唯諾諾，這是為什么？

劉先明：第一可能是模型的容量本身受限，它會(huì)限制使用場(chǎng)景，還沒(méi)辦法泛化到很大的落地場(chǎng)景。另一個(gè)原因是數(shù)據(jù)，數(shù)據(jù)是個(gè)新的問(wèn)題。怎么去挖掘高質(zhì)量數(shù)據(jù)？

Meta 做一個(gè)事情叫做 data curation [8] （數(shù)據(jù)治理），這本身就是目前 AI 里面最難的問(wèn)題，怎么發(fā)現(xiàn)一個(gè)數(shù)據(jù)不在你的訓(xùn)練樣本里面，是一個(gè) outlier [9]（異常值），它還不是一個(gè)壞數(shù)據(jù)。

這里也有一個(gè)悖論。首先你發(fā)現(xiàn)它，一定是因?yàn)樗辉诖笠?guī)模數(shù)據(jù)里，第二，它如果在小規(guī)模里面，它很有可能是 outlier，是 “臟數(shù)據(jù)”，可能會(huì)被踢掉。怎么解決問(wèn)題？其實(shí)有一套方法，但需要時(shí)間，需要不停地?cái)U(kuò)充數(shù)據(jù)的邊緣。

晚點(diǎn)：你說(shuō) VLA 世界模型也有 CoT [6] 思維鏈，就像 chatbot 的思考過(guò)程，換到自動(dòng)駕駛領(lǐng)域，模型是怎么做思維鏈推理的？

劉先明：大家覺(jué)得 CoT 思維鏈很聰明，核心是啥？Scaling law [4] 有兩個(gè)維度，一個(gè)是 training time scaling [7] ，訓(xùn)練時(shí)擴(kuò)展，即訓(xùn)練階段投入更多算力，讓模型變強(qiáng)；另一個(gè)是 test-time scaling，測(cè)試時(shí)擴(kuò)展，就是推理時(shí)消耗多少算力，投入更多算力，通常能得到更好的結(jié)果。

CoT 的過(guò)程是：生成一個(gè) token ，作為輸入，再重新生成下個(gè) token ，不停產(chǎn)生中間的結(jié)果，這是個(gè)計(jì)算過(guò)程。CoT 還可以做很多采樣，有隨機(jī)性采樣的話(huà)，就可以做強(qiáng)化學(xué)習(xí)，探索不同的解決方案，給出最好結(jié)果。

視覺(jué) CoT 的本質(zhì)就是一個(gè) test-time scaling ，給更多計(jì)算時(shí)間，產(chǎn)生更好的推理結(jié)果。車(chē)端做推理時(shí)，只是在訓(xùn)練過(guò)程中，將中間結(jié)果可視化出來(lái)，我們也想知道它腦子里到底在想什么，于是通過(guò)世界模型生成未來(lái)一段時(shí)間內(nèi)的道路環(huán)境和自車(chē)行為，預(yù)測(cè)模型下一步動(dòng)作，我們稱(chēng)之為 “腦內(nèi)小劇場(chǎng)”，劇場(chǎng)生成的畫(huà)面可以是鳥(niǎo)瞰圖，也可以是對(duì)應(yīng)不同位置攝像頭的視頻畫(huà)面。我們發(fā)現(xiàn)這個(gè)玩意兒挺有用的。

“智駕團(tuán)隊(duì)花了最多錢(qián)，不想用規(guī)則交差”

晚點(diǎn)：如果能更早意識(shí)到第一代 VLA 中語(yǔ)言的限制，早點(diǎn)拆掉，二代 VLA 是不是更快出來(lái)？

劉先明：也不會(huì)。模型訓(xùn)練跟交響樂(lè)協(xié)奏曲一樣，多個(gè)要素一起發(fā)展。如果連足夠的行車(chē)數(shù)據(jù)都沒(méi)有，就想拆掉 Language，其實(shí)搞不定；就算有足夠數(shù)據(jù)，有了更好的模型，如果訓(xùn)練集群的穩(wěn)定性和效率不高，也搞不定。把節(jié)奏排好，模型、數(shù)據(jù)、Infra [10]（基礎(chǔ)設(shè)施）都沒(méi)有短板，花多大錢(qián)辦多大事。

晚點(diǎn)：規(guī)則階段積累的東西還能派上用場(chǎng)嗎？

劉先明：其實(shí)不多，有些東西甚至應(yīng)該盡早拿掉。沒(méi)有人告訴你 VLA 具體怎么做，只有大概思路，去想工程應(yīng)該怎么匹配，怎么用最少時(shí)間、不大改動(dòng)系統(tǒng)的情況下把它做出來(lái)，再逐漸拆分中間模塊。

晚點(diǎn)：聽(tīng)起來(lái)很順滑，但你們實(shí)際上在二代 VLA 測(cè)試階段遇到了很多問(wèn)題。

劉先明：對(duì)，當(dāng)時(shí)有個(gè)決定比較艱難。二代 VLA 模型測(cè)試后遇到各種問(wèn)題，比如撞路沿子或者不居中。這時(shí)候要不要借助規(guī)則把它修正一下？有段時(shí)間整個(gè)團(tuán)隊(duì)都很掙扎，因?yàn)橹灰狭艘?guī)則，系統(tǒng)就變味兒了，就拆不掉了。

晚點(diǎn)：為什么會(huì)拆不掉？

劉先明：模型還沒(méi)量產(chǎn)前，應(yīng)該盡量讓它暴露問(wèn)題。規(guī)則能修，但我想從數(shù)據(jù)角度解決模型問(wèn)題。那時(shí)候測(cè)試一周，新問(wèn)題越來(lái)越多，團(tuán)隊(duì)也很困惑，問(wèn)題解得完嗎？只要上一點(diǎn)規(guī)則后處理，事情就搞定了。但是一旦寫(xiě)了規(guī)則，所有問(wèn)題都會(huì)被蓋住，喪失發(fā)現(xiàn)問(wèn)題的能力。不把規(guī)則拆干凈，就像在修一條到不了未來(lái)的路。

晚點(diǎn)：小鵬現(xiàn)在是 0 規(guī)則、0 超級(jí)對(duì)齊嗎？

劉先明：我們沒(méi)有規(guī)則。端到端時(shí)代可以加規(guī)則，大家都是這么做的，但模型時(shí)代依靠數(shù)據(jù)規(guī)模驅(qū)動(dòng)，如果再加規(guī)則，模型的上限最終肯定會(huì)被規(guī)則限制住。加規(guī)則，也許短期可以攢出一個(gè)還不錯(cuò)的版本，但可能到 8 月份完成不了任務(wù)，我還是要去裸跑的（笑），其他廠商也一定很快追上來(lái)。

舉個(gè)例子，模型走錯(cuò)路，確實(shí)可以搭載車(chē)道級(jí)導(dǎo)航，在還剩 300 米右轉(zhuǎn)時(shí)強(qiáng)行變道，但一旦上了，會(huì)發(fā)現(xiàn)后面導(dǎo)航變成了拐杖，只能解決一時(shí)的問(wèn)題。我們不想重度依賴(lài)導(dǎo)航信息，因?yàn)槲覀冏龅氖侨蚧a(chǎn)品，歐洲等地區(qū)沒(méi)有圖商提供高清地圖信息的。

這是一個(gè)選擇，是通過(guò)技術(shù)手段解決，還是用一個(gè) shortcut（捷徑）搞定，代價(jià)是后面沒(méi)法繼續(xù)。我們希望達(dá)到的狀態(tài)是，限制我們的只有自己的迭代速度。

晚點(diǎn)：這里的技術(shù)手段是指強(qiáng)化學(xué)習(xí)？

劉先明：要解決走錯(cuò)路的問(wèn)題，最好的辦法是強(qiáng)化學(xué)習(xí)。在匯入?yún)R出這種場(chǎng)景可以使用強(qiáng)化學(xué)習(xí)，加上適當(dāng)?shù)?reward（獎(jiǎng)勵(lì)），讓模型學(xué)會(huì)在什么情況下該做什么事情。闖紅燈也有幾種不同的辦法。一種是加規(guī)則，用傳統(tǒng)的技術(shù)棧 2D 模型檢測(cè)，檢測(cè)到紅燈就一腳摁死剎停，但會(huì)帶來(lái)一個(gè)問(wèn)題，整個(gè)技術(shù)棧會(huì)過(guò)分依賴(lài)于已有的規(guī)則。

晚點(diǎn)：加或者不加規(guī)則，到底是如何影響模型工作的？

劉先明：不管是端到端模型還是 VLA 模型，核心是有一些輸入，經(jīng)過(guò)加工之后要去輸出。比如我們認(rèn)為輸出就是一個(gè)車(chē)要規(guī)劃幾秒的軌跡，軌跡之間的時(shí)間間隔是多少？如果橫向最大的范圍是 20 米，縱向是 80 米，把這個(gè)范圍離散化，所有可能的軌跡點(diǎn)組合就構(gòu)成了一個(gè)極大的搜索空間。

傳統(tǒng)方法不管是 Monte Carlo [11] （蒙特卡洛方法）還是非凸優(yōu)化，核心都是砍掉搜索空間，把它砍到可計(jì)算的范圍之內(nèi)。在算力和模型不足的情況下，對(duì)搜索空間做大幅的縮減。

AI 模型反過(guò)來(lái)。為什么我們覺(jué)得現(xiàn)在 AI 聰明、能做很多事情？因?yàn)樗膮?shù)量直接決定了它的輸出空間。如果有幾個(gè) Billion（十億）參數(shù)的模型，比如 OpenAI 220B 的模型，理論上它可以探索 220B 這么大規(guī)模的空間，這是足夠大的搜索空間了。所以要解決問(wèn)題很簡(jiǎn)單，就是讓你的搜索空間足夠大。

過(guò)去我們做了很多平衡，比如對(duì)搜索空間不做太多限制，但把時(shí)間和空間分開(kāi)。橫向很絲滑，我們一般叫做空間；縱向一般是用速度和加速來(lái)控制，我們一般叫做時(shí)間。很多傳統(tǒng)方法即使到端到端的時(shí)代也是這樣——先輸出一個(gè)橫向軌跡，至于什么時(shí)間點(diǎn)到這個(gè)位置，可能是單獨(dú)用規(guī)則去算的。那它就會(huì)一腳剎死，因?yàn)橐?guī)則沒(méi)有這么大的浮動(dòng)空間。

我們則希望通過(guò)一個(gè)足夠大的模型，能夠探索這么大的搜索空間。為了讓整個(gè)模型不會(huì)過(guò)擬合到某些特定的模式上，就需要很多訓(xùn)練數(shù)據(jù)。有了更多的訓(xùn)練數(shù)據(jù)，就有一個(gè)很大的模型，但又不希望模型是個(gè)倒金字塔——輸入的信息量很少，一直在做插值升維，其實(shí)信息量本身沒(méi)有上升。于是我們就讓整個(gè)模型盡量變成一個(gè)通暢的結(jié)構(gòu)，通暢的結(jié)構(gòu)要求輸入的信息量足夠大。

這是為什么我們不用激光雷達(dá)，因?yàn)榧す饫走_(dá)給我們的信息量太小了，而且頻率又很低，整個(gè)系統(tǒng)會(huì)拖慢到 10 赫茲。它還有光柵的閃變，光柵的處理時(shí)間一般是 80 到 100 毫秒。

最近小鵬第二代 VLA 從喀什到上海橫穿中國(guó)，全程 5000 公里，純視覺(jué)方案經(jīng)歷沙塵暴、雨雪等天氣和場(chǎng)景，單次最長(zhǎng) 0 接管里程 1360 公里，這已經(jīng)能說(shuō)明問(wèn)題。

把所有東西加在一塊，整個(gè)邏輯就非常簡(jiǎn)單：找到一個(gè)給你提供高密度信息輸入的傳感器配置，一個(gè)足夠強(qiáng)大的模型，和一個(gè)能夠端到端去訓(xùn)練的方式。

晚點(diǎn)：什么樣的智駕體驗(yàn)可以稱(chēng)得上好？

劉先明：智駕體驗(yàn)過(guò)于主觀，沒(méi)有特別好的評(píng)價(jià)標(biāo)準(zhǔn)。過(guò)去大家一直用接管 MPI、MPCI 來(lái)評(píng)價(jià)，但如果加規(guī)則或者限制，是很容易做到零接管的。

我一直說(shuō)，自動(dòng)駕駛是白開(kāi)水，能讓坐在后座的用戶(hù)忘掉駕駛這件事。

我們內(nèi)部評(píng)價(jià)時(shí)會(huì)盡量排除主觀因素，用比較客觀的 CCES： compliance-合規(guī)，comfort-舒適，efficiency-效率，safety-安全。其中，安全最重要，有時(shí)候?yàn)榱税踩坏貌粻奚恍┬屎褪孢m性，但我們不想就此放棄效率和舒適，就看怎么平衡。

晚點(diǎn)：這形成共識(shí)很難嗎？

劉先明：很難，因?yàn)樾袠I(yè)很卷。想出圈，一定要挑出不同的特質(zhì)，去讓別人注意到自己。

晚點(diǎn)：你會(huì)怎么做？

劉先明：沒(méi)有固定答案。最好的辦法是，在技術(shù)架構(gòu)和技術(shù)路線(xiàn)上，不能有短期的 trade-off（妥協(xié)），一定要做具備可拓展性、向上空間足夠大的東西。另外，基礎(chǔ)能力要足夠強(qiáng)，才可以在不同風(fēng)格上做 trade-off。作為技術(shù)一號(hào)位，我能做的就是告訴大家，不要去追求某些短期目標(biāo)而去欠下一些技術(shù)債。

晚點(diǎn)：哪些算 trade-off 呢？

劉先明：比如為了舒適性，加一些 “過(guò)路口減速” 規(guī)則，或者在某些特定情況給模型加兜底。

晚點(diǎn)：你這些說(shuō)的都挺好的。但我們還是想知道，去年天天測(cè)、天天出新問(wèn)題的時(shí)候，團(tuán)隊(duì)還信這條技術(shù)路線(xiàn)嗎？

劉先明：有一段時(shí)間士氣比較慘，測(cè)試結(jié)果很慘，天天我都去看。那時(shí)候真不敢回國(guó)。

那段時(shí)間壓力很大，團(tuán)隊(duì)確實(shí)有不同的聲音。但頂過(guò)壓力后，發(fā)現(xiàn)問(wèn)題的收斂速度非常快。問(wèn)題充分暴露后，用比較系統(tǒng)的方法去修，AI 修問(wèn)題不是一個(gè)個(gè)修，是一坨一坨修的。

有時(shí)候加了一個(gè)數(shù)據(jù)解決一個(gè)問(wèn)題，另外一坨不相關(guān)的問(wèn)題也解了。這個(gè)事情確定之后，系統(tǒng)就好干了，大家都認(rèn)同方向了。以前系統(tǒng)會(huì)存在很多模塊兜底，長(zhǎng)得奇形怪狀特別亂，沒(méi)法優(yōu)化，現(xiàn)在系統(tǒng)可以簡(jiǎn)化很多。

晚點(diǎn)：是前面說(shuō)的去年 5 月份那時(shí)候嗎？

劉先明：差不多，那時(shí)候真不敢回國(guó)。我本來(lái) 5 月回國(guó)時(shí)應(yīng)該給大師兄測(cè) demo 的，結(jié)果到約定時(shí)間都沒(méi)找他。一直等到我坐上飛美國(guó)的飛機(jī)，才給他發(fā)消息，說(shuō)下次回來(lái)一定讓你坐 demo。

晚點(diǎn)：確認(rèn)一下，你是上了飛機(jī)才告訴他的？

劉先明：我想的是，什么時(shí)候做出來(lái)了什么時(shí)候再回國(guó)。

晚點(diǎn)：我要是交不出稿，可能也消失。

劉先明：但是你交不出稿你消失的話(huà)，會(huì)不會(huì)有人問(wèn)你？

晚點(diǎn)：當(dāng)然會(huì)啊。當(dāng)時(shí)何小鵬真沒(méi)找過(guò)你？

劉先明：大師兄對(duì)我真的挺寬容，他不問(wèn)我。有時(shí)候他在飛書(shū)上跟我發(fā)消息，打個(gè)招呼，然后不管了。

晚點(diǎn)：做不出來(lái)的時(shí)候你忐忑嗎？

劉先明：大師兄經(jīng)常開(kāi)玩笑說(shuō)我 “花了全公司最多的錢(qián)，但是發(fā)現(xiàn)分文不掙”。作為管理者，我肯定有壓力。一家公司能健康地發(fā)展下去，不能只投入，要講產(chǎn)出的，否則游戲轉(zhuǎn)不下去。

但如果你在做的事關(guān)系到公司的未來(lái)命運(yùn)或者整個(gè)商業(yè)化進(jìn)程，沒(méi)有壓力是不可能的，這一點(diǎn)上，全公司壓力最大的肯定是大師兄。有的時(shí)候他也會(huì)跟我吐槽，說(shuō)他自己很痛苦。

在我這一層，他其實(shí)一直極力保護(hù)我。有時(shí)候一個(gè)會(huì)議我剛進(jìn)門(mén)，他會(huì)說(shuō) “你走吧，這會(huì)不需要你，回去干活。” 今天車(chē)圈如此卷，半年做不出來(lái)東西，可能很多一號(hào)位就被干掉了。我做這個(gè)事情這么長(zhǎng)時(shí)間，資源一直源源不斷的投入進(jìn)來(lái)，老板并沒(méi)有因?yàn)槎虝旱捏w驗(yàn)不好就放棄，或者換一條路走。這種信任和篤定，不太能在別的地方找到。

大概去年 6 月份，我們進(jìn)展還是很快的，所以敢回國(guó)了。我在回來(lái)的航班上看一個(gè)版本的實(shí)驗(yàn)結(jié)果，覺(jué)得不錯(cuò)，落地之后趕緊去測(cè)試，天天追著大師兄坐 demo，從北京追到上海。大師兄問(wèn)我為什么不去廣州測(cè)，我說(shuō)廣州跑不下來(lái)，太難了。

晚點(diǎn)：小鵬對(duì)你的管理風(fēng)格是偏向?qū)捜葸€是嚴(yán)格？

劉先明：既寬容又嚴(yán)厲。對(duì)于結(jié)果很寬容，不急功近利，不短視。正是有這種對(duì)于研究和技術(shù)突破的寬容，才有了今天的技術(shù)突破。很多 CEO 嘴上喊的都是技術(shù)突破和投入，但忍不了半年。這是我最欣賞和佩服大師兄的地方。他對(duì)于原則很?chē)?yán)厲，對(duì)就是對(duì)，錯(cuò)就是錯(cuò)。不能浪費(fèi)資源，不能渾水摸魚(yú)。這也是小鵬能逐漸走得更快更穩(wěn)的原因。

晚點(diǎn)：你什么時(shí)候知道你花了整個(gè)公司最多的錢(qián)？

劉先明：一直都知道。每年都會(huì)跟小鵬和財(cái)務(wù)去審預(yù)算，太可怕了。

晚點(diǎn)：所以是多少？

劉先明：這不能告訴你們。

晚點(diǎn)：公開(kāi)能查到的 2025 年是 45 億元 AI 研發(fā)投入，是這個(gè)數(shù)字嗎？

劉先明：我去要預(yù)算是 2024 年的事情。2025 年已經(jīng)是公開(kāi)數(shù)字了。

晚點(diǎn)：剛到小鵬時(shí)覺(jué)得你自己能花多少錢(qián)？

劉先明：我剛來(lái)的時(shí)候，給老板寫(xiě)一個(gè)方案，要預(yù)算，然后他問(wèn)我說(shuō)這些夠嗎？我說(shuō)不太夠，于是我們重新寫(xiě)了一個(gè)版本叫 “格局打開(kāi)版”，預(yù)算直接 x2，大師兄直接批了。

不過(guò)，在資源不受限的情況下，很多事情過(guò)于理想化；而在人、時(shí)間，預(yù)算都受限的情況下，你不得不去想，怎么讓龐大的組織變得更高效；在哪些事情上做取舍，哪些事情讓你有更大贏面。

晚點(diǎn)：能舉個(gè)例子嗎？你剛加入時(shí)算力沒(méi)有今天豐富，當(dāng)時(shí)的某個(gè)決策放到今天會(huì)是什么？

劉先明：變化特別明顯，我剛來(lái)時(shí)算力還 OK，但大家覺(jué)得不夠用，每個(gè)人都在申請(qǐng)更多的卡，要預(yù)算。那時(shí)候我去看整個(gè)訓(xùn)練集群的訓(xùn)練效率，發(fā)現(xiàn) GPU 利用率只有 8%，很低。我的決策很簡(jiǎn)單，把它干到 40%，效率提升 5 倍。

當(dāng)時(shí)我們要訓(xùn)更大的模型，為了在規(guī)定的時(shí)間點(diǎn)完成它，直接把卡的數(shù)量 x2，不夠就 x3、x4，這樣可以縮短單個(gè)模型的訓(xùn)練時(shí)間，當(dāng)時(shí)更多是技術(shù)選擇。

現(xiàn)在不一樣。一方面要優(yōu)化整個(gè)訓(xùn)練效率，還要考慮數(shù)據(jù)，數(shù)據(jù)成本，存儲(chǔ)/讀取成本。但更重要的是，哪些業(yè)務(wù)線(xiàn)可以等，哪些事情是可以被砍掉的；怎么把預(yù)算分配大盤(pán)子里，讓長(zhǎng)板變得更長(zhǎng)。

晚點(diǎn)：8% 也太低了。怎么會(huì)這樣？

劉先明：那個(gè)時(shí)候模型規(guī)模還比較小，大家沒(méi)有意識(shí)到這個(gè)問(wèn)題，并且沒(méi)有深入看這個(gè)問(wèn)題，訓(xùn)練速度慢就直接加機(jī)器，簡(jiǎn)單粗暴。但資源達(dá)到瓶頸后就必須要看了。

在硅谷，工程師的文化和傳統(tǒng)通常是先做工具，先做各種 profiling [12]（性能分析）和 dashboard（數(shù)據(jù)可視化），這也是硅谷工程師和研究人員效率很高的原因。但這初期很費(fèi)時(shí)間，后期卻能做到加速度。

解決問(wèn)題核心是找對(duì)人，來(lái)做這種硬核的事情，還要團(tuán)隊(duì)能有統(tǒng)一的認(rèn)知，內(nèi)部要有節(jié)奏，不能揠苗助長(zhǎng)，也不能急功近利。最后就是科學(xué)的方法論，不是靠喊口號(hào)和硬派指標(biāo)，要從數(shù)據(jù)出發(fā)做出科學(xué)的決定。

晚點(diǎn)：去年小鵬賣(mài)的車(chē)更多了，何小鵬給你買(mǎi)卡的預(yù)算有沒(méi)有變多？

劉先明：我們?nèi)ヒA(yù)算，他總是問(wèn) “夠嗎”？

晚點(diǎn)：滿(mǎn)分 10 分，你給這版 VLA 2.0 打幾分？

劉先明：6 分，離我們所有人的理想還有差距。目前已知的問(wèn)題，導(dǎo)航（我們不想用任何先驗(yàn)信息，比如高精地圖或者規(guī)則點(diǎn)來(lái)限制模型的泛化能力，我們需要讓他在沒(méi)有這些先驗(yàn)信息的地方也能好用，比如鄉(xiāng)村，地庫(kù)，漫游，海外，所以還需要時(shí)間），處理極端情況的能力。所以我不認(rèn)為世界上目前有任何一個(gè)系統(tǒng)已經(jīng)接近 10 分。

“不止智駕，小鵬還要搏物理 AI 的未來(lái)”

晚點(diǎn)：現(xiàn)在的 VLA 是不是還不夠你剛說(shuō)的 “極簡(jiǎn)”？

劉先明：整體架構(gòu)上應(yīng)該差不多了。但是內(nèi)部很多細(xì)節(jié)還在不停更新，包括我們也在嘗試各種各樣的方法在往前做，不管是訓(xùn)練的方法還是模型的架構(gòu)，都在往前做，但整個(gè)范式是基本不會(huì)變的。

晚點(diǎn)：還可能要拆掉什么東西嗎？

劉先明：沒(méi)什么可拆的了，再拆就沒(méi)了。

晚點(diǎn)：再拆就剩骨架了。

劉先明：對(duì)。所以說(shuō)到底，其實(shí)這背后沒(méi)有什么太多的秘密，秘密就是極致的工程化，這也是我剛來(lái)的時(shí)候跟小鵬說(shuō)的話(huà)，AI 的背后就是極致工程化。

晚點(diǎn)：目前自動(dòng)駕駛領(lǐng)域，還有技術(shù)非共識(shí)？

劉先明：還有很多，可能一家公司甚至團(tuán)隊(duì)里都有非共識(shí)。比如怎么做 VLA 大家就沒(méi)有共識(shí)，再比如自動(dòng)駕駛出多條軌跡還是單條軌跡也沒(méi)有共識(shí)；是橫向空間縱向空間分開(kāi)做出軌跡，還是橫縱聯(lián)合出軌跡，也沒(méi)有共識(shí)。如果大算力、大數(shù)據(jù)是強(qiáng)共識(shí)，那兩年前所有車(chē)企都應(yīng)該去做大算力芯片，但現(xiàn)在很多量產(chǎn)的下一代芯片，算力還是 Orin 量級(jí)。

晚點(diǎn)：非共識(shí)意味著不確定性，但何小鵬說(shuō)三年內(nèi)自動(dòng)駕駛可以實(shí)現(xiàn)，這是一個(gè)很大的確定性。這里面有矛盾嗎？

劉先明：沒(méi)有大矛盾，方法論是固定的，大方向是確定的，可能行業(yè)還沒(méi)完全信。我們篤定是因?yàn)檫^(guò)去幾年 AI 的發(fā)展就是這樣，比如 OpenAI、Gemini、Claude 出來(lái)。2023 年谷歌發(fā)第一代大模型時(shí)，大家還認(rèn)為是造假，但想象不到一年后，Gemini 3 能做到現(xiàn)在這樣。當(dāng)路徑是對(duì)時(shí)，趨勢(shì)會(huì)發(fā)展得非常快的。核心在于有沒(méi)有選擇一條對(duì)的路，不斷調(diào)整方法，快速探索。

晚點(diǎn)：你在 Cruise 研究 L4 自動(dòng)駕駛、Robotaxi，一些 L4 自動(dòng)駕駛公司普遍會(huì)認(rèn)為，沿著 L2 智駕的路線(xiàn)沒(méi)有辦法抵達(dá) L4 級(jí)自動(dòng)駕駛。你怎么評(píng)價(jià)？

劉先明：沿著 L2 可以走到 L4，AI 大模型和規(guī)模法則（Scaling Law）讓我們看到并且堅(jiān)信這個(gè)方向。

我們的 VLA 2.0 架構(gòu)就是為了 L4 而生的，從視覺(jué)輸入到軌跡輸出的極簡(jiǎn)架構(gòu)，能夠支持模型、數(shù)據(jù)和算力的高效擴(kuò)展，scaling 能讓我們突破模仿學(xué)習(xí)的上限，突破 L2；世界模型和強(qiáng)化學(xué)習(xí)能夠幫助模型自我進(jìn)化，解決各種各樣的 corner case。

其實(shí)，Cruise 是當(dāng)時(shí)自動(dòng)駕駛?cè)镒?Waymo 追得非常狠的公司。2019 年還是純規(guī)則，工程師寫(xiě)一段代碼，然后自己坐到副駕，現(xiàn)場(chǎng)調(diào)試，開(kāi)一圈出去沒(méi)撞就說(shuō)明沒(méi)事，如果撞了，就說(shuō)明代碼有問(wèn)題。

晚點(diǎn)：寫(xiě)完代碼立刻測(cè)試？

劉先明：對(duì)。那時(shí)候技術(shù)棧非常重規(guī)則，最早 Cruise 那幫人很多都參加過(guò) DARPA [13] 的無(wú)人駕駛挑戰(zhàn)賽，也有人來(lái)自 CMU（卡內(nèi)基梅隆大學(xué)）機(jī)器人實(shí)驗(yàn)室。我第一次見(jiàn)到 Cruise 車(chē)的時(shí)候驚呆了，那么小的 GM Chevy Bolt（雪佛蘭小型電動(dòng)車(chē)）車(chē)上裝了 5 顆激光雷達(dá)。

第二代車(chē)有 22 顆攝像頭，4 顆 128 線(xiàn)激光雷達(dá)，8 顆近場(chǎng)激光雷達(dá)。那個(gè)時(shí)候的代碼怎么寫(xiě)的？雷達(dá)點(diǎn)云作為輸入進(jìn)來(lái)，檢測(cè)然后執(zhí)行規(guī)則，寫(xiě)優(yōu)化器，然后計(jì)算軌跡。在舊金山街道，我們的車(chē)被樹(shù)枝垂下來(lái)遮住激光雷達(dá)，被卡住了。Cruise 還動(dòng)用 “鈔” 能力，把整條街的樹(shù)枝都得修剪了。

Cruise 是全美第一個(gè)商業(yè)化的自動(dòng)駕駛企業(yè)，雖然后面有不幸的事情。能做到這一點(diǎn)，是因?yàn)?2019 年 Cruise 決心換思路，成立了 AI 部門(mén)，我是那個(gè)時(shí)候加入的。當(dāng)時(shí)提出概念 Continuous Learning Machine 的概念，即一種持續(xù)學(xué)習(xí)的機(jī)器。當(dāng)時(shí)覺(jué)得不太可能實(shí)現(xiàn)，但也是從那時(shí)候開(kāi)始，我們大規(guī)模學(xué)習(xí) Infra，建立非常通用、簡(jiǎn)單的模型框架。

晚點(diǎn)：你在 Cruise 時(shí)已經(jīng)能看到 AI 大模型的技術(shù)框架支撐進(jìn)化到自動(dòng)駕駛了嗎？

劉先明：那時(shí)候沒(méi)有人敢說(shuō)一定是對(duì)的。2022 年底 Cruise 內(nèi)部邀請(qǐng) Sam Altman（OpenAI 創(chuàng)始人）來(lái)跟當(dāng)時(shí)的 CEO Kyle Vogt 做爐邊談話(huà)，當(dāng)時(shí)我們?cè)谂f金山體驗(yàn)了一個(gè)多小時(shí) Robotaxi，沒(méi)有遠(yuǎn)程接管過(guò)，我們跟 Sam 吹牛，看我們多牛。但是 Sam 當(dāng)時(shí)說(shuō)我們?cè)谧?GPT，緊接著 2023 年 ChatGPT 就出來(lái)了，非常震撼。

晚點(diǎn)：為什么之后又去了小鵬？

劉先明：當(dāng)時(shí)在商業(yè)化面前，要做最終取舍，還要用各種規(guī)則把模型限制住。離開(kāi) Cruise 還是因?yàn)椋?dāng)你相信一條路，但在這看不到盡頭，你可能會(huì)選擇一個(gè)新的地方去實(shí)現(xiàn)它。

晚點(diǎn)：你當(dāng)時(shí)跟何小鵬第一次見(jiàn)面就達(dá)成了共識(shí)？

劉先明：跟大師兄約在硅谷辦公室面試。面試之前，我想的事情是，如果他聽(tīng)不懂我在說(shuō)什么我就不來(lái)了。估計(jì)大師兄當(dāng)時(shí)想的事情是，如果這個(gè)人想的事情還是過(guò)去那套，我也不要他了。他希望做一家有創(chuàng)新能力的 AI 企業(yè)，所以才大刀闊斧去改革。我覺(jué)得我跟他說(shuō)什么，他是認(rèn)同并覺(jué)得就應(yīng)該做的。我也是一個(gè)比較激進(jìn)的人，聊完了之后，我覺(jué)得給我準(zhǔn)備 offer 吧。

晚點(diǎn)：當(dāng)時(shí)有多家智駕公司也在接觸你，你選擇了小鵬汽車(chē)？

劉先明：我要做的事，一定需要大量數(shù)據(jù)和大量資金支持，肯定選擇一個(gè)能有數(shù)據(jù)和硬件支持的地方，只能是主機(jī)廠。當(dāng)然，大師兄自己也有了類(lèi)似的想法，想找人跟他一起實(shí)現(xiàn)。所以剛來(lái)小鵬的時(shí)候，我們認(rèn)為這條路是對(duì)的，但沒(méi)人百分百確信。那個(gè)時(shí)間點(diǎn)上，小鵬想做，我也終于找到一個(gè)愿意投錢(qián)的老板。

晚點(diǎn)：你最早加入小鵬出任 AI 負(fù)責(zé)人，還不是技術(shù)一號(hào)位，當(dāng)時(shí)怎么爭(zhēng)取資源、怎么說(shuō)服團(tuán)隊(duì)嘗試新路線(xiàn)？

劉先明：小鵬自動(dòng)駕駛團(tuán)隊(duì)一直非常扁平。我來(lái)的時(shí)候跟力耘電話(huà)，他說(shuō)這個(gè)團(tuán)隊(duì)是你的，一會(huì)兒又打過(guò)來(lái)說(shuō)，這個(gè)團(tuán)隊(duì)也是你的。其實(shí)不需要去爭(zhēng)取什么。過(guò)去幾年，小鵬做了很多事情，比如 2022 年開(kāi)始建 “扶搖” 萬(wàn)卡集群，很多先天條件都已經(jīng)鋪好。它的積累在所有主機(jī)廠里是最有先天優(yōu)勢(shì)的。

晚點(diǎn)：你什么時(shí)候才覺(jué)得自己在小鵬站穩(wěn)了腳跟？

劉先明：我剛來(lái)時(shí)，很多人跟我說(shuō)踩了幾個(gè)死穴。第一是空降，第二是跨國(guó)，當(dāng)時(shí)團(tuán)隊(duì)一半在國(guó)內(nèi)，一半在美國(guó)，第三還讓人覺(jué)得高高在上，那時(shí)候科學(xué)家氣質(zhì)比較重，很高冷，不像現(xiàn)在話(huà)癆一樣。很多人判斷我撐不過(guò)一年。

晚點(diǎn)：但你走到了今天，還被賦予更多職責(zé)。

劉先明：小鵬的團(tuán)隊(duì)是很包容的，因?yàn)橐恢庇泄韫葓F(tuán)隊(duì)，大家很適應(yīng)有能力、有新想法的人加入，也適應(yīng)跨文化協(xié)作。

晚點(diǎn)：從哪個(gè)節(jié)點(diǎn)開(kāi)始，你覺(jué)得團(tuán)隊(duì)開(kāi)始信你？

劉先明：可能就是無(wú)圖城市 NOA 階段，包括去激光雷達(dá)、搭建 OCC（占據(jù)網(wǎng)絡(luò)）階段，開(kāi)始向團(tuán)隊(duì)輸出一些想法，推動(dòng)底層框架變化，大家愿意跟著你一起干，最終結(jié)果好像還不錯(cuò)，那時(shí)候開(kāi)始有人相信你的技術(shù)判斷。

晚點(diǎn)：自動(dòng)駕駛的技術(shù)依然在向前演進(jìn)，除了 VLA，還有別的路線(xiàn)可能嗎？有行業(yè)人士說(shuō)技術(shù)路徑已經(jīng)進(jìn)入停滯年代，您認(rèn)同嗎？

劉先明：我不認(rèn)同，我們才只是物理 AI 很初始的階段。我們也都看到了過(guò)去、今年，AI 是以什么節(jié)奏進(jìn)步的。核心還是你要做自動(dòng)駕駛軟件，還是物理 AI 。自動(dòng)駕駛算法可能接近天花板了，但是物理 AI 剛開(kāi)始。

晚點(diǎn)：機(jī)器人的研發(fā)會(huì)對(duì)智駕還有哪些啟示嗎？小鵬會(huì)在機(jī)器人關(guān)節(jié)的自研上做到哪種程度？

劉先明：小鵬機(jī)器人現(xiàn)階段會(huì)充分復(fù)用小鵬智駕乃至整個(gè)汽車(chē)體系的能力。機(jī)器人行業(yè)是軟件驅(qū)動(dòng)硬件設(shè)計(jì)，機(jī)器人的關(guān)鍵在于融合+創(chuàng)新，要做到這一點(diǎn)，全棧自研就成了必選項(xiàng)。

只有自己研發(fā)的硬件，才能完美匹配自己訓(xùn)練的模型，而模型的訓(xùn)練也要根據(jù)實(shí)際需求進(jìn)行專(zhuān)項(xiàng)調(diào)整。到最后，我們發(fā)現(xiàn)，只有全棧自研，才能造出一個(gè)足夠領(lǐng)先，同時(shí)又能實(shí)現(xiàn)規(guī)模化量產(chǎn)的機(jī)器人。

晚點(diǎn)：你前面說(shuō)小鵬汽車(chē)極致扁平，這是場(chǎng)面話(huà)嗎？

劉先明：扁平化真是小鵬的獨(dú)特文化，你很少能在飯?zhí)每吹揭粋€(gè) CEO 這么平易近人，也跟你一樣吃豬腳飯。我在食堂見(jiàn)到他，當(dāng)時(shí)還拄著拐，大師兄見(jiàn)到我說(shuō)，來(lái)坐這吃，我說(shuō)我走不動(dòng)，然后大師兄端著飯盤(pán)過(guò)來(lái)了。

晚點(diǎn)：你們現(xiàn)在人也挺多的，特斯拉 FSD 團(tuán)隊(duì)沒(méi)那么人，車(chē)企智駕有必要養(yǎng)這么龐大的智駕隊(duì)伍嗎？

劉先明：不一樣，特斯拉 Autopilot 團(tuán)隊(duì)確實(shí)人不多。我們團(tuán)隊(duì)其實(shí)有很大的變化，很多人轉(zhuǎn)到了中間的 Infra，去做訓(xùn)練、推理、車(chē)端部署、數(shù)據(jù)研發(fā)等。很多之前寫(xiě)規(guī)則的工程師，雖然不適應(yīng)做模型，但知道什么數(shù)據(jù)最重要，所以他是做數(shù)據(jù)最好的人。

數(shù)據(jù)不是能從車(chē)上回傳回來(lái)就可以用。每天一輛車(chē)平均開(kāi)車(chē) 1.7 個(gè)小時(shí)，但真實(shí)有效數(shù)據(jù)不超過(guò) 90 秒。如果沒(méi)有對(duì)自動(dòng)駕駛行為非常準(zhǔn)確的判斷，是找不出來(lái)數(shù)據(jù)的。我們不是要干掉這些人，而是給大家找更合適的位置。我們還有大眾的項(xiàng)目、機(jī)器人 .... 很多橫向項(xiàng)目也會(huì)涉及到很多人。盡量幫大家做轉(zhuǎn)型和升級(jí)。

晚點(diǎn)：如果按商業(yè)化順序來(lái)看，自動(dòng)駕駛、機(jī)器人、通用智能，哪個(gè)優(yōu)先級(jí)最高？

劉先明：自動(dòng)駕駛、機(jī)器人、通用智能。

晚點(diǎn)：你是個(gè)容易 “掛臉” 的人嗎？

劉先明：不是，有人說(shuō)我很 nice，但是我會(huì)因?yàn)槔速M(fèi)時(shí)間和邏輯不清楚這兩件事情直接打斷所有人講話(huà)。

晚點(diǎn)：你 MBTI 是什么？

劉先明：INTJ。

晚點(diǎn)：作為小鵬通用智能中心的負(fù)責(zé)人，你希望團(tuán)隊(duì)成員用哪三個(gè)關(guān)鍵詞來(lái)評(píng)價(jià)自己的領(lǐng)導(dǎo)風(fēng)格？

劉先明：克制，穩(wěn)定，果斷。

晚點(diǎn)：如果要用一場(chǎng)具體的仗來(lái)讓整個(gè)通用智能中心形成戰(zhàn)斗力，你會(huì)選什么？

劉先明：就是今年的艙駕聯(lián)動(dòng)，因?yàn)檫@是整個(gè)組織轉(zhuǎn)型，重構(gòu)底層架構(gòu)，以及讓大家看到上限的一次戰(zhàn)斗。這個(gè)故事很熟悉，自動(dòng)駕駛也是 VLA 2.0 這么一戰(zhàn)打成的。

晚點(diǎn)：你跟我們提了很多次 “簡(jiǎn)單”，這是你的某種信條嗎？

劉先明：其實(shí)是在讀書(shū)的時(shí)候，我的博導(dǎo) Thomas Huang（我們叫他 Tom，黃煦濤教授），他一輩子追求的理念就是簡(jiǎn)單，相信簡(jiǎn)單的東西才是美的。

2012 年我在美國(guó)讀書(shū)，那會(huì) Alexnet 神經(jīng)網(wǎng)絡(luò)剛出來(lái)，當(dāng)時(shí)我們整個(gè)實(shí)驗(yàn)室做圖像處理和計(jì)算機(jī)視覺(jué)，Tom 說(shuō)所有人停下手里所有工作，全轉(zhuǎn)去神經(jīng)網(wǎng)絡(luò)。這其實(shí)就是模型 Scaling 和數(shù)據(jù) Scaling 的早期雛形。但業(yè)界很多人不敢去轉(zhuǎn)，在排斥，我們當(dāng)學(xué)生的心里也比較打鼓，但可能當(dāng)時(shí)已經(jīng)有這樣的想法。

畢業(yè)以后第一次被直接的觸動(dòng)確實(shí)是 Sam Altman 介紹 GPT，所有人都在考慮是不是這就是未來(lái)。我們這代人很幸運(yùn)，2016 年的時(shí)候有 Resnet（殘差神經(jīng)網(wǎng)絡(luò)），2017 年有 Transformer，GPT 最早是 2019 年，2023 年 Chat GPT。你會(huì)發(fā)現(xiàn)，你不確定的道路，已經(jīng)有些先驅(qū)者幫你探好路，告訴你是對(duì)的。

題圖來(lái)源：小鵬汽車(chē)

注釋?zhuān)?/p>

[1] VLA：Visual-Language-Action 的縮寫(xiě)，即 “視覺(jué)—語(yǔ)言—?jiǎng)幼髂Ｐ汀保笇⒁曈X(jué)輸入、語(yǔ)言理解與動(dòng)作輸出結(jié)合在一起的模型。文中所說(shuō)小鵬 VLA 2.0，核心變化是減少中間語(yǔ)言翻譯環(huán)節(jié)，讓模型更直接地從感知走向動(dòng)作輸出

[2] VLM：Vision-Language Model 的縮寫(xiě)，即 “視覺(jué)—語(yǔ)言模型”，通常用于處理圖像、視頻與文本之間的聯(lián)合理解任務(wù)。

[3] Language / language token：文中指模型推理過(guò)程中的語(yǔ)言表征。token 是大模型處理信息時(shí)使用的基本單位，可理解為文本被切分后的最小計(jì)算單元之一。

[4] Scaling Law：規(guī)模法則，指模型能力通常會(huì)隨著參數(shù)規(guī)模、訓(xùn)練數(shù)據(jù)量和算力投入的增長(zhǎng)而提升。

[5] Data Scaling：通過(guò)擴(kuò)大數(shù)據(jù)規(guī)模、提升數(shù)據(jù)質(zhì)量來(lái)增強(qiáng)模型能力的方法。

[6] CoT：Chain of Thought 的縮寫(xiě)，常譯為 “鏈?zhǔn)酵评怼?或 “思維鏈”，指模型通過(guò)生成中間推理步驟來(lái)提升結(jié)果質(zhì)量。

[7] training time scaling / test-time scaling：前者指在訓(xùn)練階段增加算力、數(shù)據(jù)和訓(xùn)練資源；后者指在推理階段增加計(jì)算量，以換取更好的結(jié)果。

[8] data curation：數(shù)據(jù)篩選、數(shù)據(jù)治理，指從海量數(shù)據(jù)中識(shí)別、清洗、組織出對(duì)訓(xùn)練真正有價(jià)值的數(shù)據(jù)。

[9] outlier：異常值，指明顯偏離多數(shù)樣本分布的數(shù)據(jù)。它未必是錯(cuò)誤數(shù)據(jù)，但往往更難處理。

[10] Infra：infrastructure 的縮寫(xiě)，即 “基礎(chǔ)設(shè)施”。在本文語(yǔ)境里，主要指訓(xùn)練集群、數(shù)據(jù)系統(tǒng)、推理部署等支撐模型研發(fā)和運(yùn)行的底層能力。

[11] Monte Carlo：蒙特卡洛方法，一類(lèi)基于隨機(jī)采樣的統(tǒng)計(jì)模擬方法，常用于復(fù)雜系統(tǒng)的求解與優(yōu)化。

[12] profiling / dashboard：profiling 指性能分析，用于定位系統(tǒng)運(yùn)行瓶頸；dashboard 指數(shù)據(jù)看板或可視化面板，用于監(jiān)測(cè)和展示關(guān)鍵指標(biāo)。

[13] DARPA / CMU：DARPA 是美國(guó)國(guó)防高級(jí)研究計(jì)劃局，曾舉辦多屆無(wú)人駕駛挑戰(zhàn)賽；CMU 是卡內(nèi)基梅隆大學(xué)，其機(jī)器人研究長(zhǎng)期處于全球前沿。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.