![]()
圖片來源:視覺中國
文|肖漫
編輯|李勤
過去兩三年,車企談智駕必提及各類新穎的技術名詞。
世界模型是繼端到端、 VLA 后,智駕領域最時髦的詞。不同公司還給它套上新的外殼——小鵬推出了“世界基座模型”、蔚來的叫“端到端世界模型”、華為的叫“世界行為模型”(WA)。除了他們,地平線、理想、元戎啟行、Momenta也在做世界模型。
但只看他們的發(fā)布會,很難分清它們口中的世界模型到底是不是同一種東西?它究竟解決什么問題,又被放進智能駕駛架構的哪一個位置?
把視角拉到更廣義的語境里,“世界模型”本質是在虛擬世界里再造真實世界,人工智能能像人一樣理解現(xiàn)實世界,認知物理規(guī)律、事物的因果關系和環(huán)境動態(tài)的技術。
世界模型被大部分科學家和科技公司視為“物理世界 AI”技術遠征的關鍵拼圖。斯坦福大學教授李飛飛曾指出,空間智能是AI的下一個十年,而世界模型是構建空間智能的關鍵技術。
走在行業(yè)前沿的科學家和科技公司還在探索當中,但中國汽車行業(yè)已經用各種新穎的概念名詞把位置占住。
實際上,智駕行業(yè)里今天談的“世界模型”也只是名詞差異,在技術路徑上并沒有太大差別。只是對行業(yè)原來的仿真工具進行技術范式升級,在還原度更高、顆粒度更高、場景更豐富、自由度更高的虛擬世界中,解決端到端模型測試、驗證問題,這一切都是為了訓練出效果更高、更加擬人的端到端智駕模型。
換句話說,智駕廠商和車企并非真正打造一個完整的數(shù)字物理世界,只是用世界模型的思路造仿真器。
也許各家對于世界模型的期待有所不同,但據(jù)我們了解,截至目前,智駕行業(yè)的世界模型只應用于云端,并沒有用到汽車上。
端到端普及,凸顯仿真器短板
過去兩三年,頭部梯隊的智駕方案從規(guī)則棧轉向AI驅動,在“形式上”完成了統(tǒng)一,感知、預測、規(guī)劃被盡可能揉進一張網絡里,外加更大的模型、更高的算力,用車企常在發(fā)布會上的話說“端到端之后的智駕更像人在開車”。
但在實際應用上卻出現(xiàn)了一個反直覺現(xiàn)象:端到端之后的新版本OTA并不一定變得更好,甚至可能“退步”。
問題的核心不是模型變差了,而是AI驅動讓評估和回歸變得困難。
當時許多智駕從業(yè)者認為,只要把前端訓練得足夠好,車就會開得足夠像人。這條路徑并非沒有效果,端到端的前期表現(xiàn)讓許多智駕從業(yè)者大為震撼,但端到端的“黑盒”形態(tài)也帶來的副作用,當模型出錯時,研發(fā)人員很難得知為什么犯錯?如何證明它在下一次不會再犯?
模型好不好不再只是“訓練得夠不夠大、數(shù)據(jù)夠不夠多”的問題,更取決于你如何發(fā)現(xiàn)問題、定義問題、驗證問題。廠商們逐漸意識到,需要一個更好的仿真器在模型驗證階段用來評估模型的表現(xiàn)。
頭部梯隊玩家大都打造世界模型作為仿真器應用。為了能夠讓理想VLA在仿真環(huán)境里進行強化學習,理想在2025年提出了一種包含自車和他車軌跡的駕駛世界模型,充當打分老師;小鵬盡管對外只說了“世界基座模型”這一本質上世界模型無關的技術名詞,但據(jù)36氪汽車了解,小鵬也在采用世界模型做仿真測試,評測新版本的模型算法能力。
端到端的普及暴露出傳統(tǒng)仿真器的短板。“以前端到端還不是這么普及的時候,大家驗證成本也沒那么高,還可以分段去驗證一下系統(tǒng)。現(xiàn)在端到端了以后,沒法分段驗證系統(tǒng)了,這個時候仿真器的問題就凸顯出來了。”一位業(yè)內研發(fā)人員說道。
在規(guī)則時代,車企做仿真往往服務于兩件事,一是半路接管的問題重現(xiàn),把路測里出過事的片段拿回來回放;二是的使用仿真器增加corner case的數(shù)據(jù)豐富度,在模擬器里搭幾個典型路口、橫穿行人、加塞車輛的腳本場景,讓系統(tǒng)跑一遍。
當時的仿真器更多承擔“放大鏡”的角色,但端到端之后,模型很難再把責任拆開,且很難系統(tǒng)性地產生更細的、可控的 corner case,更難支撐端到端所需要的大規(guī)模閉環(huán)驗證——而這正是世界模型被引入的原因。
端到端時代,世界模型是智駕模型的“教練”
“目前國內車企世界模型的水平和特斯拉存在一定距離,不過僅相差了不到一年時間。”一位業(yè)內人士說道。
特斯拉并未使用“世界模型”的概念,而是采用了“世界模擬器”的說法(特斯拉自動駕駛副總裁Ashok Elluswamy在去年的ICCV上首次提及),該模擬器基于特斯拉自建的海量數(shù)據(jù)集進行訓練,根據(jù)當前狀態(tài)與下一步動作生成未來狀態(tài)。從而與車端的端到端基礎模型閉環(huán),做真實效果的評估。
![]()
特斯拉神經網絡閉環(huán)仿真(圖片來源:
一位業(yè)內人士指出,特斯拉更像是在用神經網絡“擬合”世界,渲染過程是通過計算生成,盡量減少顯式的物理規(guī)則堆疊;素材庫也并非完全由人提前預定義,而是保留了某種概率權重與組合空間。而這么做的好處是,模型能夠具備更強的泛化能力。
國內車企走的多是另一條更“可控”的路。與36氪汽車交流的一家供應商表示,理想采用的是 3D 高斯重建——這也是目前大多數(shù)車企在采用的方式之一。
無論是哪種路線,世界模型在工程上最終都指向同一個位置:世界模型正在被車企當作端到端時代的“驗證與反證系統(tǒng)”,用來在云端重放、改寫、擴增現(xiàn)實駕駛中可能發(fā)生的情境,檢驗車端大模型的輸出是否穩(wěn)定、可復現(xiàn),并把“哪里錯、為什么錯”重新變成可追蹤的證據(jù)鏈。
世界模型扮演的角色好比教練員,優(yōu)秀的教練員更能夠調教出優(yōu)秀的運動員。“隨著云端世界模型越來越強,理論上訓練出來端側模型能力就應該是越來越強。”一位研發(fā)人員說道。
世界模型核心能力主要有兩個方面:一是對物理世界的數(shù)字化建模和抽象;二是基于這樣的建模,產生對物理世界合理的想象和預測,例如通過給定的圖片預測未來世界將會如何變化。
世界模型的好壞取決于就是在云端能生成足夠真實、足夠多樣性的數(shù)據(jù)。“車企如果只是用采到的真實數(shù)據(jù)去做仿真,那顯然并不是在做世界模型,只是做一套回放數(shù)據(jù)的流程而已。”一位供應商產品經理說道。
世界模型需要從物理世界的數(shù)據(jù)中學習到世界的運行模式,因此世界模型的訓練數(shù)據(jù)質量會顯著影響模型生成的質量。極佳視界產品線負責人毛繼明提到,“對于世界模型這樣的生成模型,它的生成結果最終會對齊輸入數(shù)據(jù)的特征分布規(guī)律。在真實的世界模型商業(yè)化過程中我們發(fā)現(xiàn),如果數(shù)據(jù)質量只有60分,基于此的世界模型的生成數(shù)據(jù)質量可能就只有55分。”
基于世界模型,車企在云端做仿真的時候,可以無限制的從各個維度去去生成需要的場景,能夠根據(jù)指令生成視頻作為訓練數(shù)據(jù)。“效率比真實采集后再去訓練高了不是一星半點,模型迭代速度也會是斷代式領先。”一位供應商研發(fā)人員說道。
但這些都是理想化的結果。“世界模型相對于智駕用的仿真器來說,或者說沒有仿真信息,只能用離線采的數(shù)據(jù)來做驗證已經是很大的升級了,但距離理想狀態(tài)的仿真器還差得多。”
世界模型算法還未成熟,還有很多“幻覺”
行業(yè)現(xiàn)在普遍處在“剛開始”的階段。
一位車企研發(fā)人員告訴36氪汽車,國內廠商基于世界模型最長能生成30-60秒視頻片段,但動態(tài)物體的一致性并不好,無論是時空的一致性還是多視角一致性都存在較大問題。
世界模型的底層是生成式模型,而生成式模型天生帶著“幻象”的風險。“世界模型目前最難的地方是怎么能保證生成的東西是真實的,如果是生成一個人,怎么保證他的行為、軌跡是在真實世界里可能發(fā)生的。”一位供應商產品經理說道。“如果世界模型生成錯亂,會導致模型學到的東西都是錯的,進而導致到部署到車端的模型效果非常差。”
一個極端的例子是,如果云端生成的車都是橫著走的,那模就會認為一個在左前方的車會瞬間移動到右前方,在實際開車的過程中,模型就可能做出剎車的行為。
一個仿真器如果無法逼近現(xiàn)實世界的關鍵因果關系,比如濕滑路面對制動距離的影響、逆光下對靜止物體的誤檢概率、并線時對方車輛的博弈策略等,它生成的“corner case”就可能是假的;你在假問題上優(yōu)化,等于把研發(fā)資源浪費在幻影上。
在很多人看來,世界模型的瓶頸在數(shù)據(jù)與算力,但前理想汽車輔助駕駛“端到端”模型負責人夏中譜更同意Lecun的觀點:“世界模型算法層面沒有大突破,圖像模型的自監(jiān)督訓練還沒有像語言那樣,找到一個比較順的范式。”
語言模型之所以能迅速規(guī)模化,一個原因是語言本身信息密度高,每個詞都攜帶明確的語義約束。而圖像信息密度低,對“駕駛決策”而言,有用信息只占極小部分。
例如,模型不需要預測正后方很遠那輛車的軌跡,也不需要預測遠處建筑物的變化,這些都是噪聲數(shù)據(jù);但必須預測本車道前車是否會突然急剎、旁車是否會搶道、行人是否會突然橫穿,模型要先知道“該把注意力放在哪”。
“目前智駕算法提取不出足夠對駕駛有用的圖像信息。”夏中譜說道。一張圖像有可能有上百萬個像素點,但跟決策相關的就20多個像素點,其他的都是噪音,模型得先學會從噪聲里抓出那 1‰ 甚至 1? 的有效信號,再談得上如何把信號組織成可用于推理與預測的結構。
夏中譜看來,世界模型算法尚未突破,更談不上數(shù)據(jù)是否足夠、算力需要多少的問題。也正是世界模型現(xiàn)在基礎技術還沒看到明確突破,車企的投入更多是研究性質的,甚至部分車企老板對此都是迷茫。
如果世界模型做得足夠好,且在算力能夠支撐的情況下,是能夠放進車端。“國內現(xiàn)在基本把世界模型當仿真系統(tǒng)用,對智駕決策層面的技術理解程度還不夠。”夏中譜說道。
它也能解釋一個表面矛盾:為什么各家都在講世界模型,但用戶體感差異并不明顯——因為大多數(shù)人的世界模型仍停留在“用于訓練與驗證”的第一階段,而不是進入“能支撐決策規(guī)劃”的第二階段。
“端側部署世界模型是最難的。”夏中譜說道。
目前還沒有任何一家公司在端側應用世界模型。他同時指出,“使用大模型方法建模物理世界,通過自身與物理世界的交互預測世界發(fā)展變化,進而通過決策影響世界朝著對自身有利方向發(fā)展。如果世界模型做到這個層面,自動駕駛和機器人相關問題都是可以解決的。”
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.