6月28日,馬斯克在自家社交媒體發文稱,“汽車第一次自動交付給主人”,并斷言“這一壯舉不僅提前一天完成,還標志著自動駕駛技術邁出了歷史性的一步” 。同一天,特斯拉公布一段視頻,這兩Model Y(參數丨圖片)從特斯拉奧斯汀工廠出發,全程無駕駛員/安全員,自稱無遠程操作員。完全自主地駛出停車場,經過城市路段、上下告訴,歷經30分鐘車程,來到用戶家門口,把自己交付給客戶。
![]()
客戶也在幾個小時后發表了感言。這通操作具備以上所有要素,但在國內輿論圈幾乎沒激起什么水花(除了雷軍發了一條微博),討論度很低。
孤證不立
有人認為,原因在于國內法規不允許,導致該操作無法效仿。兩國在自動駕駛/輔助駕駛上法規的思路上的確存在差異。在探索技術商業化這方面,中國是典型的“法律后置”思路,即監管發現技術可能性之后,頒發多個試點牌照,成熟了逐步放開商業運營。這意味著只要主機廠在中等樣本規模上證實了能力之后,法規是會開綠燈的。反之,法規不允許的話無須假裝抱怨,歸根結底是沒能力。這個能力要求成功概率相當高(譬如高于99.99%),相差的0.01%,就是廠家應該承擔責任的那部分。
最容易想到的是,如果是一個孤例,那的確沒太大意義(多年前就能做到類似的事情,但一直未能證明商業上的可靠性)。這輛車盡管最高時速116公里,但24公里的路程,花費30分鐘,意味著大部分時間為低速行駛(考慮到奧斯汀郊區白天路況相當寬松)。
![]()
盡管該視頻聲稱一刀未剪(有加速),但還是太容易作弊了。就算無遠程操作員,想提高成功率的話,可以提前采好這個路段的高精度地圖數據,做一個特供版。用高精圖匹配+博弈算法,處理特殊路況;如果還想繼續提升成功率,就影子駕駛跑熟這段路,本車采用熟路通勤模式,零接管還是很容易做到的,大不了就多次嘗試。
如果樣本大到一定程度(比如上千個交付案例,用戶一定距離內隨機選定),還是能說明特斯拉具備了“自動交付”能力,焦點就變成工程可靠性的問題。
學習路線占優
特斯拉HW5.0的配置,業內已經耳熟能詳:感知硬件由12顆攝像頭、4顆毫米4D波雷達、12顆超聲波雷達組成。GPU+IMU(慣性測量單元)用于精確定位和姿態感知。FSD算力芯片由Dojo架構雙芯片組成(液冷),總算力1.1EFLOPS。順便說一句,Dojo超算中心也用的是同一類芯片,只不過是25基本tile(瓦片)組成一個訓練模組,120個模組組成一個計算集群。
而其軟件(FSD V14.x)為典型的“一段式”端到端神經網絡,即從感知(實際上是攝像頭和毫米波雷達的融合數據)直接映射到駕駛決策。
該系統基于訓練,模仿人類的駕駛行為,生成駕駛軌跡。理論上,FSDV14.x有能力規劃包含高速、城市道路、住宅區在內最優路徑。
自2022年起(國內要到2023年)直到今天,這種端到端神經網絡,成為智駕的首選路線。而在此之前,以及最近,邏輯驅動路徑成為AI演化的另一條路。
走這條路的開發人員認為,人類智能的精髓在于推理。核心是符號表征知識,依據規則操作符號表達式。而端到端為代表的神經網絡路線,則認為智能的本質在于神經網絡的學習。雖然人類擁有真正的神經網絡,而計算機只有模擬的神經網絡(本質都一樣:多個輸入信號經過神經節形成輸出, 而輸入信號則來自其他神經,神經節在計算機里相當于一組函數)。這條路線的精髓在于,理解學習是如何發生的。
![]()
學習的瓶頸在于“黑箱”
端到端訓練無非是調整多個輸入信號的權重,觀察輸出的變化。這種方式更像是生物進化中的突變。隨機調整一個權重,看看神經系統表現,是變好了還是變差了。如果變好,就保留這個改動。問題是,神經系統的權重數量可能高達萬億級別,如果每一次突變都用海量樣本驗證效果,效率簡直令人發指。
如果改變一下思路,將數據直接給到神經網絡底層(也就是初始輸入端),信息經過多層多節點一直傳遞到輸出層,得到一個預測結果。將這一結果與已知答案比較。然后就將誤差從輸出層反向傳回網絡。網絡可以計算出,對每一個輸入權重進行微小調整,降低結果產生正面還是負面的影響(此時仍然是定性分析)。然后更新權重,重新微調并計算。只要重復這個過程,預測表現會越來越好。事實證明,結果收斂很快。
這個過程,就是訓練。神經網絡占住業內主流地位已經多年。而神經網絡用于智駕,基本上依賴算力和經驗,簡單說就是實證主導。就連陶哲軒也吐槽說,這個過程中,學界幾乎毫無貢獻。
![]()
以上過程,揭示了模型能工作,但為什么如此,人類不知道。對我們來說,端到端是黑箱。AI元老杰弗里·辛頓甚至預言,AI將發展出人類無法理解的內部語言。
現在問題還沒有那么嚴重。但是,端到端智駕在多數時候的對策看上去都是合理的,但少數時候莫名其妙,明明是相似場景相似任務,卻莫名其妙地失敗了。深度學習和訓練本身不可解釋。系統越強大(模型參數越多、算力越強),就越不透明。
推理與理解
和毫米波雷達只接收到物理信號不同,視覺圖像也是一種語義理解,而語義理解是一種高緯度的理解。雷達再先進(包括激光雷達),也不會看出一個小孩在橫穿馬路,它頂多會告訴你,前方150米有個移動小目標,大小未知、橫向移動速度5m/s。重要的并非識別障礙物,而是理解人類規則。
既然視覺可以真正理解,推理就重新變得受重視。有學者強烈懷疑神經網絡處理語言的能力(這也是為什么端到端要用規則兜底)。語言的核心是符號表達,大語言本身就是強大的建模媒介。GPT和DeepSeek為代表的大語言模型,都是如此。
句法并非重要,語言的真正功能是提供詞語。這些詞語“如同積木”(也是辛頓說的),構建了人類對世界的理解。
而大語言模型,實際上將詞義視為一大堆特征的集合。比如,“白色貨柜車”與“白色大車”,在語義上接近,因為它們激活的特征集高度重合。從智駕的角度,可以將其視為同一類東西,進一步區分的必要性不大。
智駕系統理解交通規則、場景和相關視覺語言,在某種程度上都可以被視為基于推理的預測。即讓一個語義特征,去預測下一個語義特征,和聊天機器人的原理極為相似。用在道路上,能描繪一個交通參與者的連續運動軌跡,預測其在下一秒出現的地方。幸好,它們不會飛,也不會原地旋轉,自由度相當有限,很容易預測。
這些預測,最終學到了能夠捕捉交通場景結構的規則,即讀懂交通。這和人類開車時的大腦活動已經很相似。不用說,谷歌發明的Transformer架構,提升了模型預測的能力。即便場景再復雜、參數再多,更多的參與者,并且需要處理不少模糊和歧義支出,但都可以根據預測誤差回饋來矯正系統。而所有要素“握手”的過程,就構成了場景理解。
從這個意義上講,特斯拉和其他公司的端到端,都非學會規則,只是學會如何模仿人類開車。現在的結果不可控、過程黑盒子,似乎成為通向L3的障礙。
而邏輯推理,則可能規避這一點。關鍵是如何讓一個系統,同時容納學習與推理兩種方式。
![]()
回到開端,結論呼之欲出,假定場景再復雜一點,特斯拉很難在上千次自動交付中均成功,而一例失敗就可能造成嚴重后果。特斯拉的車載Soc和云的算力更強、訓練和轉移效率更高,可能領先于中國廠商,但大家彼此沒有本質區別,都沒有實現場景泛化能力。
真正的自動交付,和“無人車組成車隊服務于城市人群,夜晚到郊區充電”這樣智慧城市幻想,實際上是一回事。現在并無希望做到這一點,新的支撐理論尚未誕生。
![]()
頗具諷刺意味的是,8月8日,據說馬斯克已經下令關閉Dojo超算項目,團隊正在集散。負責人彼得·班農即將離開公司。而Dojo對于訓練特斯拉的FSD至關重要。
特斯拉不大可能放棄FSD路線,可能依賴其他公司(英偉達、AMD)提供算力。這對于試圖放“交付大新聞”未果的特斯拉來說,打擊更大一點。也許是時候探索AI在自動駕駛領域的新路線了。
注:圖片部分來源網絡,如有侵權,聯系刪除。
AI Agent顛覆了端到端了嗎?
“消失的前車”透露了智駕哪方面缺陷?
克服AI幻覺?也許在開智駕倒車
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.