智駕發展到今天,最難的不是教車輛怎么開走,而是教車輛怎么停下。
你坐在一輛智駕接管順暢行駛的車輛里,眼前路況開闊、陽光明媚,中控屏上的藍線平穩延伸。突然,毫無征兆地,車輛狠狠來了一腳“死亡急剎”,安全帶瞬間勒緊,后排手機飛向擋風玻璃,而窗外,空無一物。

這正是無數車主正在經歷的、被評為智駕應用中最靈異的場景:“幽靈剎車”。
過去幾年,智駕技術從堆砌代碼規則,進化到模擬人類直覺的“端到端”,甚至開始構建“世界模型”。但這些轟轟烈烈的技術演進,似乎都被困在了那個最微小的瞬間:車輛到底什么時候踩下剎車,最合適?
而無數個這樣難以判斷的微妙瞬間背后的,不僅僅是技術的難題,更是信任的難題,一邊是渴望行駛里程數指數增長的車企,一邊是因為微小失誤就徹底取關的用戶,當一個新技術的發展關乎到用戶安全的時候,技術和信任如何平衡?

“幽靈剎車”的幽靈從哪來?
智駕變成“智障”往往是從不會剎車開始的。
就拿我第一次體驗 robotaxi 的經驗來看吧:大概三年前,我第一次體驗國內大廠的一個 robotaxi,就在我們繞完了一圈之后,在車輛歸位的時候,路邊出現了一位行人,其實這個行人距離車輛的距離還是很遠的,但是車輛忽然點了個急剎車,剎車程度之猛導致坐在后排錄像的我直接把手機甩飛了。
這種現象被稱為“幽靈剎車”,這個像是智駕患上的“被害妄想癥”也是 X、Reddit、小紅書等國內外論壇上對智能駕駛抱怨最多的情況。
國內一位智能車車主就對我抱怨,在高速換道的時候,有一輛車從右側擦過,等到這輛車已經超過自己的車幾秒鐘了,自己的車才反應過來剎車。這種變道猶豫導致的剎車失誤 FSD 也經常出現,一位在 Reddit 上專門測評特斯拉 FSD 的博主就曾發帖抱怨,FSD 在轉向的時候,轉向燈閃了半天還是猶猶豫豫不趕緊并道,等到后車不耐煩超車的時候才變道,非常危險。

有人抱怨 FSD 面對停車標志時,不知道應該在什么距離停下最合適,經常遠遠剎停然后一步步往前挪,顯得極其“智障”,還有人指出在黃昏、凌晨這種視線昏暗的時刻,FSD 經常“幽靈剎車”甚至直接退出接管……
結合 Waymo 安全報告、NHTSA 數據匯總及第三方保險機構 ConsumerShield 分析,智駕目前事故率最高的三個場景:復雜路口變道失敗、幽靈剎車以及鬼探頭等突發物件處理失敗,其實歸根結底,都是不知道什么時候能剎車導致的。
為什么教給一輛車什么時候剎車,甚至比教它跑起來還要難?這并非算力不夠,而是因為剎車這個動作,本質上不是機械執行,而是一場關于“預判”的賭局。

人類司機和賽博司機最根本的區別是人類可以很輕易的判斷意圖。
人類看到路邊行人低頭看手機,會預判他大概率不會動;看到有人眼神游移、腳步虛浮,會預判他可能醉酒沖出。但智駕系統大多只能基于物體的運動的速度、方向來計算,等到行人真的沖出來有了橫向速度,它才開始計算物理碰撞概率,這中間的“計算延遲”加上機械執行時間,往往就導致了那種“事故已經快發生了才重剎”的滯后感。

但是這對機械司機來說十分困難,在工程師的邏輯里,智駕系統每時每刻都在做一道殘酷的選擇題——是“錯殺”,還是“錯放”?
如果為了絕對安全,把雷達和視覺的敏感度拉滿,那么路邊隨風飄起的一個塑料袋、井蓋上的一抹積水反光,甚至前方卡車排氣管噴出的一團黑煙,在系統的“眼中”都可能被渲染成一塊堅硬的巨石。為了保命,它只能不管不顧地一腳跺死——這就是“幽靈剎車”的由來。
極端相反的是,如果為了舒適性和通行效率,降低了感知的敏感度,過濾掉那些看似“雜波”的信號,那么當一輛靜止的白色貨車橫在路中間,或者一個穿著深色衣服的行人在夜色中鬼探頭時,系統可能會“自信”地認為前方無障礙,最終釀成慘劇。
人類司機擁有基于常識的“物理直覺”,我們一眼就能分辨出飄舞的報紙撞上去也無妨,但機器沒有這種常識,在它們的世界里,那只是一堆占據了空間體素的、未知的“障礙物”。
是誰出的題這么的難?到處找不到正確答案
智駕為了培養機器的“物理直覺”嘗試過很多路徑。
最初,傳統智駕研究的方案把開車分成了三個步驟:感知、規劃、決策。信息像接力棒一樣在這些盒子之間傳遞——感知層說:前方10米有一個障礙物,置信度80%。
預測層說:這東西好像不帶動的。
決策層查閱了程序員寫下的第502條規則:如果前方有障礙物且靜止,立即剎車。
控制層執行命令:一腳跺死。
但是在規控這個環節總是會遇到一個問題:很多事情沒有最優解。
舉個例子,車輛現在需要右轉,但是右側有行人在走路,這個行人距離車輛還有一定距離,如果是人類司機在教新手,這個時候一腳油門過去也可以、原地等待行人也可以,這種“都可以按情況決定”對人類來說是非常簡單的,但是對機器學習來說就復雜了。因為這會衍生出下一個問題:哪種情況要加速過去,那種情況要原地等待。
傳統規控做的事情就是干這個“具體問題具體分析”的活,把遇到的 corner case(特殊場景下的極端情況) 人工標注出來告訴機器應該怎么辦。這就會引起另外兩個問題:1. corner case 窮盡不了怎么辦?2. 代碼太多了,需要的人力也太多了怎么辦。
“幽靈剎車”這種現象在傳統研究方法之下很容易產生,因為總會出現“這個 case 我沒處理過,所以不知道怎么做最好”這種情況。
一項遵循“第一原則”的馬斯克推翻了傳統的研發路徑,提出另一個解決方案:如果我能直接讓機器像人一樣思考,而不是再用人工標注要教他每一個 corner case 應該怎么處理,才能真正實現智駕的初衷。

于是乎,在 2023 年的夏天,馬斯克在加州的帕洛阿爾托進行了一場畫質并不清晰的 FSD 直播,但真正震撼業界的不是畫質,而是他說出的那句話:“FSD v12 沒有任何一行代碼是用來告訴車什么是紅燈、什么是路口。我們刪掉了超過 30 萬行 C++控制代碼。”
至此,端到端逐漸成為了實現智駕的主流方案。
推出端到端后,FSD 團隊規控部門整體裁撤,原負責人離職剩下的人轉崗去做數據清洗和場景挖掘。團隊從感知、規控、地圖、測試四條老線全部打散,合并成“單模型 + 數據工程 + 云端訓練”三塊。
到了 2024 年,端到端逐漸成為圈內共識,華為、小鵬、理想、百度等智駕研發團隊調整相繼開始,小鵬撤銷原感知、規控、地圖三部,新設“AI 模型開發、AI 應用、AI 效能”三大板塊;ADS 3.0 組織架構 2024-05 完成整合,感知/規控/地圖并入“端到端架構部”,余承東直管;百度現在是雙線并行一部分人在傳統算法團隊,另外成立 ADFM 團隊,把原團隊感知人員移過去一部分也做了擴充招聘。
所謂的“端到端”,就是不再把駕駛拆解為“感知、決策、控制”,而是把這所有環節融合成一個巨大的神經網絡。輸入端是攝像頭拍到的原始視頻流,輸出端直接就是方向盤的角度和油門剎車的力度。中間發生了什么?不再有程序員寫好的“紅燈停綠燈行”的代碼,而是一個包含了數十億參數的黑盒子在瘋狂運算。

這就像是從“背交規”進化到了“練車感”。這種技術變革帶來的最大優勢,就是對模糊場景的泛化能力。
然而,端到端提出已經兩年的時間,智駕為什么還在出現“幽靈剎車”這種“智障”的瞬間——因為端到端雖然解決了“直覺”問題,卻帶來了兩個新的、更可怕的缺陷:不可解釋性與邏輯推理的缺失。
所有的大模型都有其不可解釋性,就像我們永遠解釋不了為什么當你讓 Gemini 給你把表格的顏色改一改,結果對方反饋給你一個狗頭圖片;或者你讓 ChatGPT 在網頁信息里提取數據內容做成表格,它反饋給你滿滿兩網頁的代碼……
在 ChatBot 產品中,這種不可解釋性會被當成一個“智障瞬間”的笑話,但在智駕場景里,這種不可解釋性可能會造成重大事故。
因此,在端到端之上,衍生出了一些范式。比如,VLA——Vision-Language-Action(視覺-語言-動作)模型。
如果把端到端訓練出來的機器比作賽車手,VLA 的意義就是讓這個賽車更好地適應日常的交通規則。可以簡單的把“VA”理解成端到端,“L”理解成大語言模型,那么就很好理解,VLA 就是給自動駕駛裝上一個“語言中樞”。它不僅看路,還能“讀懂”路。它能理解交通標志上的文字含義,能理解交警手勢背后的社會契約。當 VLA 介入時,車不再是憑直覺開,而是能進行內心獨白:“我看到了警車在閃燈,雖然是綠燈,但我應該讓行,因為法律規定警車優先。”這補足了端到端最缺乏的邏輯鏈條。

今年,隨著“物理 AI”的概念越來越火,世界模型的概念開始被多次提及。因為大家發現,當模型參數大到一定程度,它不僅能生成像素,還能涌現出對物理規律的理解。比如 Sora 生成的視頻中,液體流動的重力感、物體遮擋的透視關系,不再需要人工寫物理公式渲染,而是模型自己“悟”出來的。
世界模型也被應用到智駕研發上,來解決“端到端”的幻覺問題,世界模型可以充當一個“裁判”。在車做出動作之前,世界模型先在虛擬空間里推演一下:“如果我這么做,未來五秒會發生什么?”從而驗證端到端的決策是否安全。
身為人類司機,我應該怎么做
一位的用戶在 Reddit 上寫道:“我有 99%的時間都覺得 FSD 像個神,但在那 1%的時間里,它試圖在高速公路的匝道口把全家帶進水泥隔離墩。那一刻,我老婆在尖叫,孩子嚇哭了。雖然我接管回來了,沒有發生事故,但那天晚上我就取消了 FSD 訂閱。我無法承擔那 1%的代價。”

這種情況屢見不鮮,很多訂閱 FSD 和嘗試智駕的司機都會跟我反饋,有一次智駕抽風從高架橋下來之后差點撞上路邊的墩子、或者是莫名其妙開進坑里,當下立刻決定取關。
司機們對智駕的態度都是“一次不行,百次不用”,容錯率幾乎為零。
因此我們看到智駕市場上一個反直覺的現象:一邊是車企鼓吹智駕是人類司機安全性的幾倍,另一邊是因為一件小事從此不再使用智駕的用戶。
這中間缺失的是智駕時代沒有填補的用戶教育。
從產品本身而言,充分交互的設計,是必要的。在每一個需要決策的場景都用語音和圖片的交互方式告訴司機,機器接下來決定怎么做,這是為了兩件事情:1. 和司機充分溝通,讓司機理解機器的意圖,判斷是否應該接管;2. 避免司機因為信息差,對機器產生過分的信任或者不信任,錯過最佳接管時機或者在機器可以處理的時候提前接管,影響智駕體驗。

所以我們看到車企在人機交互方面的不停嘗試,包括 HUD 顯示、理想推出 AI 眼鏡,這都是在擴展機器和用戶交互的場景,進行充分溝通。
從營銷來看,車企應該做兩件事:其一是在銷售環節給用戶智駕功能的充分展示。實際上,馬斯克在近期的采訪中已經透露道,特斯拉準備讓所有銷售強制給意向用戶展示 FSD 的功能,因為很多訂閱客戶在不夠了解的情況下不經常使用 FSD,或者很多人干脆不訂閱,讓馬斯克非常苦惱。
智駕展示,是必要的,但不應該是市場式營銷,應該是銷售式科普。我和十幾個各個品牌的電車車主聊了聊,發現他們在購車環節當中被科普智駕使用方式的人數為零。其中一個車主跟我說:電車銷售分前端銷售和后端交付,前端銷售會通過各種折扣、金融優惠催促下單,后端交付的任務就是希望你盡快提車,這樣車企的營收可以計提在當月,不然你的車就會變成存貨了。這樣的銷售鏈路下,就沒有人有耐心去講解智駕的使用方式,更別說提醒智駕的邊界和風險性了。
開了三年電車的 Vivian(化名)就說:我覺得智駕展示不應該只停留在銷售口頭的科普,應該做成說明書手冊,甚至隨著智駕技術的提升應該推廣專門的智駕駕駛證。
而作為消費者,我們能做的就是,養成對智駕的理性認知,如果對智駕功能感興趣,在銷售環節更多詢問智駕的邊界和交互的模式:什么場景我必須介入?什么場景是最方便安全的?什么提示的情況下我必須接管?通過不斷地提問和試駕去了解技術真實的邊界。也通過提問,來推動企業進行銷售培訓。
任何技術的發展都需要用戶的支持和耐心,不同的是,和手機、耳機、眼鏡這些消費級電子產品不同,智駕邊界探索的代價很可能是人類的生命,作為用戶,謹慎入場、理性判斷才是我們能做的事。
作者:沙拉醬
編輯:臥蟲
封面圖來源: Giphy
Guokr
![]()
1月19日晚19點,“年味食足”零食直播專場即將開啟!我們為你精選了健康零食、山珍海味、還有送人超有面的好禮。
直播間全場好物9.9元起,驚喜福袋、互動抽獎輪番加碼,年貨一站購齊,省心更省力!點擊預約,一起囤年貨吧~
點個“小愛心”吧

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.