作者 |肖恩
編輯 |德新
兩年一度的計算機視覺頂會ICCV 10月在美國檀香山閉幕,今年的最佳論文頒給了卡內基梅隆大學團隊的BrickGPT,一種能從文本描述直接生成物理結構穩定并可實際搭建的積木機構模型,這個成果展示了生成式AI在物理世界應用的潛力。
對自動駕駛從業者而言,這次會議上還有一個更令人矚目的消息——特斯拉AI部門副總裁Ashok Elluswamy在“基礎模型蒸餾與自動駕駛”論壇中,分享了FSD的最新進展。
自2022年在AI Day上分享了占用格柵網絡之后,特斯拉幾乎沒有在任何公開場合透露過FSD的內幕,特別是進入到端到端架構之后,FSD的表現進步神速,但是特斯拉對背后的技術始終諱莫如深。
Elluswamy此次分享給出了關鍵信息:系統以視頻為主的多模態輸入進入端到端模型,直接輸出控制指令,感知 - 預測 - 決策 - 控制在同一神經網絡中耦合回傳;這一整體框架與近期熱議的“世界模型”思想高度相似。同時,在仿真側,世界模型被用于生成對抗性場景,以實現閉環評測與迭代。
在此之前,圍繞VLA與世界模型的路線分歧已爭論不休,特斯拉的最新表態無疑又添一把火。無論最終范式如何定型,能夠“想象未來”的世界模型,幾乎注定將成為當下自動駕駛技術演進的關鍵支點。
一、特斯拉FSD:端到端基礎模型與世界模型的融合
Elluswamy以“構建未來的自動化”為主題,首先闡述了FSD最近的一些進展,包括Robotaxi的上線以及實現了從工廠到交付中心的全程自動駕駛。
隨后,他介紹了特斯拉的端到端架構,多攝像頭圖像、導航地圖、車輛運動信息和音頻信號等輸入到一個端到端的神經網絡內,這個模型經過海量的數據訓練,支持長序列的輸入,最后直接輸出控制信號。
這部分和國內的技術方向基本一致,唯一的區別是增加了音頻信號的輸入。
為什么要使用端到端的架構,他給出了幾點理由:
- 人類的駕駛行為很難用函數去描述,規則算法很容易顧此失彼;
- 傳統的感知 - 規劃 - 控制的結構會有大量的信息損失;
- 端到端的擴展性更強,更適合解決長尾問題;
- 時延穩定;
- 不需要依賴人類的經驗,而是依靠算力和數據;
如果要構建一套出色的端到端系統,會遇到什么困難?Elluswamy提到了三大難題:
維度災難
FSD需要處理高幀率、高分辨率、長時上下文的多模態輸入:在以“5×5 像素塊”為輸入token的假設下,僅視覺就相當于7個攝像頭×36 FPS×500萬像素×30秒;同時還要結合未來數英里的導航地圖與路徑、100 Hz的速度/IMU/里程計等運動學數據,以及48kHz的音頻數據。綜合起來約有20億個token,如果直接輸入到Transformer,token數量會在時間窗內爆炸,無法滿足車端的時延要求。
特斯拉的做法是利用海量的車隊數據,從中總結出“關鍵token”,通過稀疏化和聚合保留最有用的信息,可在不顯著影響精度的情況下大幅降低推理的時延。
同時,特斯拉利用數據引擎從中抽取高質量的數據樣本用于訓練,讓系統能在各種極端或罕見場景中實現出色的泛化能力。
可解釋性與安全驗證
為了避免“黑箱”AI,特斯拉在車端模型中加入了可解釋的中間輸出,既有全景分割和3D占據網絡,也有基于三維高斯渲染的場景重建和語言化輸出,從而輔助工程師審視推理過程。
![]()
圖片來源:特斯拉
其中Elluswamy重點介紹了特斯拉的生成式高斯噴濺(Generative Gaussian Splatting),和傳統的高斯噴濺相比,特斯拉GGS具有更強的泛化能力,生成場景僅需要220毫秒,無需初始化,可建模動態物體,并能與端到端AI模型聯合訓練。
閉環評測與仿真
最后、也是最具挑戰性的一步,是模型評估。
即使擁有高質量的數據集,開環預測的損失函數下降,也未必意味著在真實世界中能有良好表現。評估體系必須多樣化且覆蓋不同模式,以支持快速的開發迭代。
為此,特斯拉開發了一個神經世界模擬器(Neural World Simulator)。該模擬器基于特斯拉自建的海量數據集進行訓練,但與常規模型不同,它不是預測動作,而是根據當前狀態與下一步動作生成未來狀態。從而與車端的端到端基礎模型閉環,做真實效果的評估。
![]()
圖片來源:特斯拉
神經世界模擬器在駕駛策略的指令下,按因果關系生成可交互的未來:不僅能基于歷史數據重放并驗證新的駕駛模型,還能系統地合成對抗性/極端場景,用于長尾覆蓋與安全邊界測試。
在工程實現上,特斯拉也強調該模擬器可實時或近實時地產生高分辨率、因果一致的響應,用于研發環節的快速驗證。除此之外,這類視頻生成能力還可在閉環環境中進行大規模強化學習,以實現超越人類水平的表現。
![]()
圖片來源:特斯拉
盡管特斯拉并未在分享中明確使用“世界模型”這一稱呼,但從其神經世界模擬器的能力與用法來看,它本質上就是一個極其強大的世界模型。
與傳統云端世界模型不同,特斯拉的系統不僅具備高保真場景生成能力,更關鍵的是,它能夠在給定候選動作的條件下,預測未來幾秒內的世界演化,從而實現決策前瞻與安全驗證。
模型不再只是“生成環境”,而是能“想象并評估行動結果”的因果預測系統。
從特斯拉將“預測未來幾秒的世界演化”作為決策前瞻核心這一點出發,車端基礎模型很可能走的也是世界模型路線:在車端進行實時的動作條件未來預測,在云端以神經世界模擬器進行大規模場景重現與回歸驗證,兩者在目標與表征層面高度對齊,從而形成訓練—評估—上線的一體化閉環。
二、何為世界模型?
端到端架構能為自動駕駛帶來更高的上限,這已經是行業的共識。但是如何在端到端的框架下讓自動駕駛達到甚至超越人類的駕駛水平,實現真正的無人駕駛,目前還沒有一個明確的方向,在多種技術路線中,世界模型無疑是其中重要的一支。
![]()
圖片來源:World Models for Autonomous Driving: An Initial Survey
世界模型并沒有一個標準的定義,但業內逐漸形成了對它的共識,世界模型是一個生成式時空神經系統,它將來自攝像頭、激光雷達、雷達和導航地圖等多模態輸入壓縮成潛在狀態,該狀態不僅編碼了幾何、語義信息,還攜帶因果上下文。
世界模型可以在潛在空間內推演環境未來,并讓智能體在執行動作前“演練”整個軌跡。正因如此,有人將世界模型形象地稱為能夠在腦海里“想象未來”的模型。
世界模型通常覆蓋三類任務:
- 未來物理世界生成:基于傳感器數據和車輛歷史,生成場景的未來演化(包括物體運動、占據概率、點云或圖像級視頻)。
- 行為規劃與決策:結合預測結果為自車生成軌跡或動作建議,實現決策與控制。
- 聯合預測與規劃:在潛在空間內同時建模多主體交互,利用生成的未來對候選動作進行評估,從而實現閉環的行為優化。
它不僅是感知或預測模塊的簡單堆疊,而是一個統一的大腦:它將現實世界壓縮成可演化的內部表示,并通過生成式推演支撐規劃與決策。它需要具備以下核心能力:
潛在時空表示
世界模型首先要將高維、多模態感知輸入映射到一個低維的潛在狀態。這一潛在表示既要包含環境中的幾何、語義信息,又要隨時間更新,使模型能夠在此空間內捕捉環境狀態的轉移。該能力意味著模型不再依賴顯示的BEV或占據柵格,而是以更加抽象但富含語義的形式表示“世界”。
動作條件的未來推演
在潛在狀態獲得之后,世界模型必須能夠在給定候選動作(加速、制動、變道等)的條件下,生成多步未來場景。這種生成不僅僅是時間上的外推,更是“假如我采取這個動作,其他道路參與者會如何反應、場景會如何變化”的因果推理。換言之,它不只是預測“將會發生什么”,更要回答“如果我這樣做,會發生什么”。
與規劃和控制的閉環耦合
世界模型的重要特征在于預測與規劃的深度耦合。模型生成的未來場景不僅提供參考,而是直接用于評估不同動作的風險和收益,從而在潛在空間中完成候選動作的比較—篩選—決策。這種閉環能力使世界模型能夠在端到端框架中直接輸出控制信號,就像特斯拉的“神經世界模擬器”那樣,能在閉環仿真中評估新模型、生成對抗場景,并進行大規模強化學習來獲得超越人類的性能。
多主體交互與不確定性建模
真實的道路中不僅有自車,還有別的車和行人,大家的運動狀態會互相影響。世界模型要在“腦海里的狀態空間”里,把這些參與者的位置、速度、意圖表示出來,并且隨著時間跟蹤他們彼此之間的互動。
同時,現實中的未來不是只有唯一的答案:前車可能并線,也可能減速。所以模型不能只給一條“最可能的軌跡”,而要給出一組可能的未來,讓系統在安全、效率、舒適之間做權衡。
長期記憶與自我演化
世界模型應當具有長期記憶和自我進化能力——能夠積累駕駛經驗、持續擴充其內部世界,并在不同任務和場景間遷移。這使它不僅適用于某條路線或某種條件,而是可在多種條件下泛化。
正是世界模型強大的能力,讓它成為現在自動駕駛領域最熱門的研究方向之一,很多人相信世界模型是通往L3和L4級別自動駕駛的關鍵鑰匙。
三、中國的世界模型之路
作為自動駕駛技術應用最廣泛的中國,世界模型已經生根發芽,既有像商湯這樣專注于云端,為自動駕駛補充合成數據的技術公司,也有像蔚來和華為這樣堅定的讓世界模型上車的整車廠。在中國,世界模型正扮演著越來越重要的角色。
蔚來NWM世界模型
蔚來汽車是較早公開將世界模型作為核心技術路線的公司之一。在2024年“NIO IN”發布會上,蔚來宣布了中國首個駕駛世界模型“NWM(Nio World Model)”,蔚來將其定義為“能夠全量理解多模態信息、生成新場景并預測未來的多元自回歸生成模型”。
![]()
圖片來源:蔚來
它在空間上完成“想象重建”(將感知到的物理世界逼真地重建為可編輯的虛擬世界),在時間上完成“想象推演”(在內部時空中滾動預演不同未來),進而輸出可執行的軌跡與動作。并展示了其在車端的應用。NWM可在100毫秒內推理216種可能的駕駛場景 并選取最優決策。蔚來官方表示,模型可以用3秒的歷史視頻提示生成長達20秒的未來視頻;世界模型通過生成式推演形成所謂“平行世界”,在這些想象出的未來中評估不同動作的后果。除了純視覺輸入,NWM還融合激光雷達、地圖和自車運動信息,并能理解駕駛員的語言指令。
![]()
圖片來源:蔚來
蔚來在云端開發了NSim作為生成式神經模擬器,NWM基于真實視頻進行三維重建后,進入NSim進行可編輯的場景分解、深度與法向量檢查、視角任意切換,并把NWM的推演軌跡與NSim的仿真結果對齊比對,從“唯一真實軌跡的回放評測”升級為“海量平行世界的對照評測”,以此形成數據閉環和針對性對抗場景的生成。再結合蔚來的“群體智能”源源不斷的收集真實世界中的長尾場景,形成雙輪驅動,加速模型迭代。
NWM的首個版本已于今年6月推送,在主動安全方面新增3大功能:
- 駕駛員失能處置
在高速/快速路場景,監測到駕駛員無意識后,車輛緩慢減速并變道至最右側應急車道,開啟雙閃 + SOS主動介入,由“車道內安全停車”升級為“自主安全靠邊”,顯著降低在車道內停車帶來的追尾風險。
- 追尾預防與保護(首次將大模型用于被追尾場景)
在0–150km/h 范圍內對后向潛在碰撞進行警示;當碰撞不可避免時,系統在500ms內完成從感知決策到制動建壓,最大可將被動前移距離降低93%,減少二次事故風險。
- 通用障礙物預警增強
在轉彎、變道靠邊等動作中,對抬桿/護墻/隔離柵/路沿等多類型障礙均可響應,減少低速靠邊剮蹭、車庫盤樓剮蹭等常見事故。
高速領航新增了ETC場景智能通行和“智能駕享模式”(行車風格更穩健,跟車/變道更平順、更強的防御性駕駛,必要時可自主閃燈/鳴笛提醒周邊車輛)。
城區點到點領航新增2大功能:
- 車位收藏:停車后可收藏畫線車位,下次出發或駛入時實現無間斷全域領航;若被占用,系統自動尋找臨近空位臨時泊入。
- 停車場自主尋路:無需地圖/導航/記憶路線,可聽懂自然語義指令、識別標識與文字,實現跨區/跨樓層尋找出口或樓棟門口。這是NWM認知—理解—推理能力在復雜微結構空間里的標志性落地。
智能泊車更新為全模型化泊車輔助,360°全向車位識別、車位顯示范圍×4,可在任意位置發起泊入指令并長距離漫游泊車,在不同車位間自動騰挪切換;只要不被墻體完全阻隔,就能實現“可見即可選、可選即可泊”。
NWM的成功量產以及對智駕功能的全面升級,體現了世界模型在車端巨大的潛力。
華為WEWA 架構
在圍繞世界模型的技術路線爭論中,作為國內智駕領域的”帶頭大哥“,華為給出的答案是“WA(World?Action)”——一種強調直接感知到控制的世界模型路線。
![]()
圖片來源:華為
華為智能汽車解決方案BU總裁靳玉志公開表示,公司不會追隨VLA的潮流,而是堅持以傳感器信號直接驅動動作的世界?行動模型。
在華為看來,VLA利用大語言模型將視頻轉化為“語言 token”再生成控制命令,看似是捷徑,實則不能提供真正的自主能力;只有跳過語言層,直接從視覺、聲音等多模態感知信息生成駕駛指令,才能在空間感知和實時性上滿足高級自動駕駛要求。
華為的ADS 4平臺基于WA原則進一步演化出 WEWA(World Engine + World Action)架構:
- World Engine(云端世界引擎)在云端通過海量仿真與實車數據訓練世界模型,并生成用于升級的模型參數。
- World Action(車端世界行動模型)在車輛側運行,將感知數據直接映射為控制動作,跳過語言解析過程。
WEWA省略了語言層避免了抽象化損失,并通過多顆激光雷達和高性能硬件確保模型獲得盡可能完整的環境信息。這樣雖然硬件成本更高,但靳玉志認為這是實現安全可靠自動駕駛的唯一道路。
華為強調,真正的世界模型不僅限于仿真,而是支撐車輛實時決策的核心。在WEWA架構中,云端的World Engine使用大量仿真和實車數據對模型進行“夢境訓練”,學習環境的演化規律并生成優化后的參數;這些參數通過OTA下發到車端的World Action模型,使車輛在物理一致的“世界表示”上直接規劃和控制。為了獲得盡可能完整的環境感知,華為在車端使用多顆激光雷達和高性能硬件,在最新的問界M9和尊界S800上,已經開始使用4個激光雷達的方案。
靳玉志強調,這條路線雖然成本更高,但能夠提供更強的空間理解和決策可靠性,是華為走向高級自動駕駛的唯一道路。
商湯絕影:“開悟”世界模型與生成式仿真平臺
商湯科技旗下的自動駕駛品牌絕影智駕推出了世界模型“開悟”并用于大規模仿真數據生成。2025年世界人工智能大會(WAIC)上,絕影發布了升級版的交互式世界模型產品平臺,以及業內最大規模的生成式駕駛數據集WorldSim?Drive。這一平臺基于先進世界模型技術,具備對物理規律的理解和對場景元素的控制能力,是面向車企和開發者開放試用的可交互產品。
![]()
圖片來源:商湯絕影
與蔚來的車端世界模型不同,絕影的“開悟”主要用于生成高保真仿真數據。開悟可在仿真場景中生成11個攝像頭視角的時空一致視頻,時長可達150秒,分辨率達到專業級1080p。用戶可以在平臺上自由編輯場景的道路布局、參與體、天氣和光照等元素,一鍵生成風險極高的場景或多樣化組合。當前,絕影正與上汽旗下的智己汽車合作,利用這個平臺構建端到端數據工廠,針對加塞、追尾等高價值場景批量生成訓練數據,并計劃推出覆蓋數百萬合成片段的場景庫。
在數據規模和效率方面,WorldSim?Drive數據集包含超過100萬段生成式駕駛片段,覆蓋50多種天氣與光照條件、200類交通標識和300種道路連接場景,是迄今最大的自動駕駛生成數據集之一。這些合成數據保持多視角時空一致性,時長可達數分鐘,畫質與真實數據一致。開悟的日生產能力僅用一塊A100 GPU就相當于10輛真實車輛或100臺道路測試車輛的數據采集能力。目前,絕影已有20%的訓練數據來自世界模型生成。
商湯絕影通過“開悟”世界模型搭建了數字世界到真實世界的橋梁:一方面在仿真平臺上支持文本或圖像提示,快速生成特定場景;另一方面與車企合作打造閉環數據工廠,用合成數據彌補長尾場景不足。
開悟的成功展示了世界模型在仿真數據生成中的力量,不僅降低數據采集成本,還能針對高風險場景進行定制化訓練,為自動駕駛提供可靠、安全的測試和訓練環境。
四、世界模型 VS VLA:自動駕駛終局路線之爭
隨著大模型時代的到來,以語言大模型LLM為核心的視覺-語言-行動(VLA)模型開始在自動駕駛領域嶄露頭角,理想、小米和元戎都是堅定的VLA路線擁護者,在今年7月理想已經開始率先推送量產的VLA版本。
VLA倡導將視覺輸入、自然語言理解與行動生成融為一個大模型,通過語言增強情境理解和推理能力。和世界模型相比存在顯著差異:
結構與表示
- 世界模型采用潛在時空表示,核心是一個可以隨時間演化的物理世界模擬器。它通過自監督壓縮器將感知數據編碼為潛在狀態,并依靠生成式預測模塊在該狀態上演化未來
- VLA模型則以 視覺—語言—行動統一架構為特征。它引入大型語言模型為大腦,將高維視覺感知映射為自然語言表述,并利用語言鏈式推理來生成決策或動作指令。VLA模型能夠在車輛控制前進行語言層面的推理和解釋,使系統兼具快速反射和慢速思考的雙系統。
推理路徑
- 世界模型的推理依賴動作條件的內在仿真:模型將候選動作注入潛在世界,生成不同未來場景,再用代價函數或風險評價選擇最佳動作。這種推理方式像是在腦海中做實驗,因此非常適合物理世界中的對抗和長期評估。
- VLA的推理則依賴語言鏈路:VLA利用大型語言模型的常識和邏輯推理能力,通過自然語言對觀察到的場景進行解釋、制定規則,然后輸出控制信號。這賦予系統更強的可解釋性,但其物理推理通常依賴外部模塊。。
能力與應用
- 世界模型著重于長時域、多主體和物理一致性。它可以生成復雜環境的長期演化,捕捉稀有事件、他車互動和路況變化,并在潛在空間中形成真實動作反饋。由于這種閉環特性,世界模型成為評估和優化自動駕駛策略的核心,如特斯拉的神經世界模擬器通過閉環仿真生成對抗場景、進行強化學習訓練。
- VLA模型更強調語義推理與高層交互。它通過語言接口理解自然語言指令、交通規則和場景描述,具備鏈式思考能力。VLA可以利用互聯網規模的語言數據注入常識,支持復雜推理和解釋。
“世界模型VS VLA”的路線之爭仍將持續。世界模型更貼近自動駕駛的物理本質,VLA則憑借通識能力在長尾場景上具優勢。最終的產業答案,很可能來自兩者的互補與融合。
最近AI領域的先驅李飛飛發表長文討論空間智能,她認為今天的大語言模型擅長抽象知識處理,但在物理世界上仍像“黑暗中的文字匠”,缺乏對三維環境、因果與動力學的扎實理解,難以安全地在現實世界中行動。通過想象、推理、創造與互動來理解世界,而非僅僅依賴語言描述,這正是空間智能的力量。
實現空間智能的答案是“世界模型”,能夠在語義、物理、幾何與動態等多重復雜世界(無論虛擬還是現實)中進行理解、推理、生成與交互。
她的觀點再次將世界模型推向AI領域的前沿,無論最終實現自動駕駛的技術路徑是什么,在通往終點的路上,世界模型一定會留下濃墨重彩的一筆。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.