網易首頁 > 網易號 > 正文申請入駐

世界模型，是自動駕駛的終極答案嗎？

2026-02-05 12:36:07　來源: 36氪

北京舉報

分享至

圖片來源：視覺中國

文｜肖漫

編輯｜李勤

過去兩三年，車企談智駕必提及各類新穎的技術名詞。

世界模型是繼端到端、 VLA 后，智駕領域最時髦的詞。不同公司還給它套上新的外殼——小鵬推出了“世界基座模型”、蔚來的叫“端到端世界模型”、華為的叫“世界行為模型”（WA）。除了他們，地平線、理想、元戎啟行、Momenta也在做世界模型。

但只看他們的發(fā)布會，很難分清它們口中的世界模型到底是不是同一種東西？它究竟解決什么問題，又被放進智能駕駛架構的哪一個位置？

把視角拉到更廣義的語境里，“世界模型”本質是在虛擬世界里再造真實世界，人工智能能像人一樣理解現(xiàn)實世界，認知物理規(guī)律、事物的因果關系和環(huán)境動態(tài)的技術。

世界模型被大部分科學家和科技公司視為“物理世界 AI”技術遠征的關鍵拼圖。斯坦福大學教授李飛飛曾指出，空間智能是AI的下一個十年，而世界模型是構建空間智能的關鍵技術。

走在行業(yè)前沿的科學家和科技公司還在探索當中，但中國汽車行業(yè)已經用各種新穎的概念名詞把位置占住。

實際上，智駕行業(yè)里今天談的“世界模型”也只是名詞差異，在技術路徑上并沒有太大差別。只是對行業(yè)原來的仿真工具進行技術范式升級，在還原度更高、顆粒度更高、場景更豐富、自由度更高的虛擬世界中，解決端到端模型測試、驗證問題，這一切都是為了訓練出效果更高、更加擬人的端到端智駕模型。

換句話說，智駕廠商和車企并非真正打造一個完整的數(shù)字物理世界，只是用世界模型的思路造仿真器。

也許各家對于世界模型的期待有所不同，但據(jù)我們了解，截至目前，智駕行業(yè)的世界模型只應用于云端，并沒有用到汽車上。

端到端普及，凸顯仿真器短板

過去兩三年，頭部梯隊的智駕方案從規(guī)則棧轉向AI驅動，在“形式上”完成了統(tǒng)一，感知、預測、規(guī)劃被盡可能揉進一張網絡里，外加更大的模型、更高的算力，用車企常在發(fā)布會上的話說“端到端之后的智駕更像人在開車”。

但在實際應用上卻出現(xiàn)了一個反直覺現(xiàn)象：端到端之后的新版本OTA并不一定變得更好，甚至可能“退步”。

問題的核心不是模型變差了，而是AI驅動讓評估和回歸變得困難。

當時許多智駕從業(yè)者認為，只要把前端訓練得足夠好，車就會開得足夠像人。這條路徑并非沒有效果，端到端的前期表現(xiàn)讓許多智駕從業(yè)者大為震撼，但端到端的“黑盒”形態(tài)也帶來的副作用，當模型出錯時，研發(fā)人員很難得知為什么犯錯？如何證明它在下一次不會再犯？

模型好不好不再只是“訓練得夠不夠大、數(shù)據(jù)夠不夠多”的問題，更取決于你如何發(fā)現(xiàn)問題、定義問題、驗證問題。廠商們逐漸意識到，需要一個更好的仿真器在模型驗證階段用來評估模型的表現(xiàn)。

頭部梯隊玩家大都打造世界模型作為仿真器應用。為了能夠讓理想VLA在仿真環(huán)境里進行強化學習，理想在2025年提出了一種包含自車和他車軌跡的駕駛世界模型，充當打分老師；小鵬盡管對外只說了“世界基座模型”這一本質上世界模型無關的技術名詞，但據(jù)36氪汽車了解，小鵬也在采用世界模型做仿真測試，評測新版本的模型算法能力。

端到端的普及暴露出傳統(tǒng)仿真器的短板。“以前端到端還不是這么普及的時候，大家驗證成本也沒那么高，還可以分段去驗證一下系統(tǒng)。現(xiàn)在端到端了以后，沒法分段驗證系統(tǒng)了，這個時候仿真器的問題就凸顯出來了。”一位業(yè)內研發(fā)人員說道。

在規(guī)則時代，車企做仿真往往服務于兩件事，一是半路接管的問題重現(xiàn)，把路測里出過事的片段拿回來回放；二是的使用仿真器增加corner case的數(shù)據(jù)豐富度，在模擬器里搭幾個典型路口、橫穿行人、加塞車輛的腳本場景，讓系統(tǒng)跑一遍。

當時的仿真器更多承擔“放大鏡”的角色，但端到端之后，模型很難再把責任拆開，且很難系統(tǒng)性地產生更細的、可控的 corner case，更難支撐端到端所需要的大規(guī)模閉環(huán)驗證——而這正是世界模型被引入的原因。

端到端時代，世界模型是智駕模型的“教練”

“目前國內車企世界模型的水平和特斯拉存在一定距離，不過僅相差了不到一年時間。”一位業(yè)內人士說道。

特斯拉并未使用“世界模型”的概念，而是采用了“世界模擬器”的說法（特斯拉自動駕駛副總裁Ashok Elluswamy在去年的ICCV上首次提及），該模擬器基于特斯拉自建的海量數(shù)據(jù)集進行訓練，根據(jù)當前狀態(tài)與下一步動作生成未來狀態(tài)。從而與車端的端到端基礎模型閉環(huán)，做真實效果的評估。

特斯拉神經網絡閉環(huán)仿真（圖片來源：

一位業(yè)內人士指出，特斯拉更像是在用神經網絡“擬合”世界，渲染過程是通過計算生成，盡量減少顯式的物理規(guī)則堆疊；素材庫也并非完全由人提前預定義，而是保留了某種概率權重與組合空間。而這么做的好處是，模型能夠具備更強的泛化能力。

國內車企走的多是另一條更“可控”的路。與36氪汽車交流的一家供應商表示，理想采用的是 3D 高斯重建——這也是目前大多數(shù)車企在采用的方式之一。

無論是哪種路線，世界模型在工程上最終都指向同一個位置：世界模型正在被車企當作端到端時代的“驗證與反證系統(tǒng)”，用來在云端重放、改寫、擴增現(xiàn)實駕駛中可能發(fā)生的情境，檢驗車端大模型的輸出是否穩(wěn)定、可復現(xiàn)，并把“哪里錯、為什么錯”重新變成可追蹤的證據(jù)鏈。

世界模型扮演的角色好比教練員，優(yōu)秀的教練員更能夠調教出優(yōu)秀的運動員。“隨著云端世界模型越來越強，理論上訓練出來端側模型能力就應該是越來越強。”一位研發(fā)人員說道。

世界模型核心能力主要有兩個方面：一是對物理世界的數(shù)字化建模和抽象；二是基于這樣的建模，產生對物理世界合理的想象和預測，例如通過給定的圖片預測未來世界將會如何變化。

世界模型的好壞取決于就是在云端能生成足夠真實、足夠多樣性的數(shù)據(jù)。“車企如果只是用采到的真實數(shù)據(jù)去做仿真，那顯然并不是在做世界模型，只是做一套回放數(shù)據(jù)的流程而已。”一位供應商產品經理說道。

世界模型需要從物理世界的數(shù)據(jù)中學習到世界的運行模式，因此世界模型的訓練數(shù)據(jù)質量會顯著影響模型生成的質量。極佳視界產品線負責人毛繼明提到，“對于世界模型這樣的生成模型，它的生成結果最終會對齊輸入數(shù)據(jù)的特征分布規(guī)律。在真實的世界模型商業(yè)化過程中我們發(fā)現(xiàn)，如果數(shù)據(jù)質量只有60分，基于此的世界模型的生成數(shù)據(jù)質量可能就只有55分。”

基于世界模型，車企在云端做仿真的時候，可以無限制的從各個維度去去生成需要的場景，能夠根據(jù)指令生成視頻作為訓練數(shù)據(jù)。“效率比真實采集后再去訓練高了不是一星半點，模型迭代速度也會是斷代式領先。”一位供應商研發(fā)人員說道。

但這些都是理想化的結果。“世界模型相對于智駕用的仿真器來說，或者說沒有仿真信息，只能用離線采的數(shù)據(jù)來做驗證已經是很大的升級了，但距離理想狀態(tài)的仿真器還差得多。”

世界模型算法還未成熟，還有很多“幻覺”

行業(yè)現(xiàn)在普遍處在“剛開始”的階段。

一位車企研發(fā)人員告訴36氪汽車，國內廠商基于世界模型最長能生成30-60秒視頻片段，但動態(tài)物體的一致性并不好，無論是時空的一致性還是多視角一致性都存在較大問題。

世界模型的底層是生成式模型，而生成式模型天生帶著“幻象”的風險。“世界模型目前最難的地方是怎么能保證生成的東西是真實的，如果是生成一個人，怎么保證他的行為、軌跡是在真實世界里可能發(fā)生的。”一位供應商產品經理說道。“如果世界模型生成錯亂，會導致模型學到的東西都是錯的，進而導致到部署到車端的模型效果非常差。”

一個極端的例子是，如果云端生成的車都是橫著走的，那模就會認為一個在左前方的車會瞬間移動到右前方，在實際開車的過程中，模型就可能做出剎車的行為。

一個仿真器如果無法逼近現(xiàn)實世界的關鍵因果關系，比如濕滑路面對制動距離的影響、逆光下對靜止物體的誤檢概率、并線時對方車輛的博弈策略等，它生成的“corner case”就可能是假的；你在假問題上優(yōu)化，等于把研發(fā)資源浪費在幻影上。

在很多人看來，世界模型的瓶頸在數(shù)據(jù)與算力，但前理想汽車輔助駕駛“端到端”模型負責人夏中譜更同意Lecun的觀點：“世界模型算法層面沒有大突破，圖像模型的自監(jiān)督訓練還沒有像語言那樣，找到一個比較順的范式。”

語言模型之所以能迅速規(guī)模化，一個原因是語言本身信息密度高，每個詞都攜帶明確的語義約束。而圖像信息密度低，對“駕駛決策”而言，有用信息只占極小部分。

例如，模型不需要預測正后方很遠那輛車的軌跡，也不需要預測遠處建筑物的變化，這些都是噪聲數(shù)據(jù)；但必須預測本車道前車是否會突然急剎、旁車是否會搶道、行人是否會突然橫穿，模型要先知道“該把注意力放在哪”。

“目前智駕算法提取不出足夠對駕駛有用的圖像信息。”夏中譜說道。一張圖像有可能有上百萬個像素點，但跟決策相關的就20多個像素點，其他的都是噪音，模型得先學會從噪聲里抓出那 1‰ 甚至 1? 的有效信號，再談得上如何把信號組織成可用于推理與預測的結構。

夏中譜看來，世界模型算法尚未突破，更談不上數(shù)據(jù)是否足夠、算力需要多少的問題。也正是世界模型現(xiàn)在基礎技術還沒看到明確突破，車企的投入更多是研究性質的，甚至部分車企老板對此都是迷茫。

如果世界模型做得足夠好，且在算力能夠支撐的情況下，是能夠放進車端。“國內現(xiàn)在基本把世界模型當仿真系統(tǒng)用，對智駕決策層面的技術理解程度還不夠。”夏中譜說道。

它也能解釋一個表面矛盾：為什么各家都在講世界模型，但用戶體感差異并不明顯——因為大多數(shù)人的世界模型仍停留在“用于訓練與驗證”的第一階段，而不是進入“能支撐決策規(guī)劃”的第二階段。

“端側部署世界模型是最難的。”夏中譜說道。

目前還沒有任何一家公司在端側應用世界模型。他同時指出，“使用大模型方法建模物理世界，通過自身與物理世界的交互預測世界發(fā)展變化，進而通過決策影響世界朝著對自身有利方向發(fā)展。如果世界模型做到這個層面，自動駕駛和機器人相關問題都是可以解決的。”

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.