導(dǎo)言
很多宣傳把世界模型講得像“車能理解世界”,聽上去仿佛系統(tǒng)突然長(zhǎng)了大腦。其實(shí)它更像一幅隨時(shí)更新的小地圖,把前后幾秒的變化連成一段,讓系統(tǒng)別被一幀畫面牽著走。這篇想把世界模型從神話里拉回來(lái),講清它到底在解決什么,又在哪些地方還做不到。
![]()
要理解世界模型,先得看清過(guò)去的系統(tǒng)是怎么“卡殼”的。只有知道舊鏈路里哪里不連貫,世界模型為何出現(xiàn)、能改變什么、又改不了什么才會(huì)變得清楚。
從反應(yīng)到連貫
早期自動(dòng)駕駛系統(tǒng)更像一臺(tái)忙個(gè)不停的反應(yīng)機(jī)。感知、決策、控制被拆成幾個(gè)模塊,攝像頭和雷達(dá)把畫面推上來(lái),系統(tǒng)根據(jù)當(dāng)前這一幀迅速給出動(dòng)作。每個(gè)模塊單看都不算慢,可數(shù)據(jù)在各個(gè)環(huán)節(jié)之間反復(fù)轉(zhuǎn)譯,細(xì)小的延遲疊在一起,最后就變成駕駛者能感到的那一點(diǎn)猶豫。方向盤輕輕晃一下,剎車比想象中更早點(diǎn)一下,很多時(shí)候都來(lái)自這種鏈路內(nèi)部的不連貫。
![]()
不同目標(biāo)的軌跡預(yù)測(cè)
后來(lái)端到端方法出現(xiàn),把這條鏈路拉直了。信息不再繞大圈,車輛動(dòng)作更干脆,很多人會(huì)據(jù)此覺(jué)得“系統(tǒng)聰明了”。工程師知道,它只是把路徑縮短了,模型仍然是盯著一幀一幀的畫面做映射。看到什么就做什么,靠的是反饋速度,而不是理解能力。問(wèn)題在于,人類駕駛從來(lái)不是一幀一幀地看,而是把整段路當(dāng)成一個(gè)有節(jié)奏的過(guò)程。我們會(huì)在前方氣氛變緊的時(shí)候提前松油,也會(huì)在某個(gè)行人突然停下腳步時(shí)多留一點(diǎn)距離。這種節(jié)奏感建立在“連續(xù)”之上,而不是一連串切開的畫面。
工程團(tuán)隊(duì)在海量道路數(shù)據(jù)里發(fā)現(xiàn),只要系統(tǒng)不被鎖死在“當(dāng)前這一下”,而是能把前后幾秒串起來(lái)看,動(dòng)作就會(huì)穩(wěn)定很多。世界模型正是這種需求下的產(chǎn)物,它試圖為系統(tǒng)搭一個(gè)內(nèi)部的連續(xù)環(huán)境,讓系統(tǒng)不再只對(duì)瞬間做出反應(yīng),而是基于一段過(guò)程作判斷。它不是讓車突然變聰明,而是給了它一點(diǎn)“連貫”的能力。
世界模型改變了什么
世界模型聽上去很科幻,實(shí)際上是一種新的學(xué)習(xí)方式。它讓系統(tǒng)在內(nèi)部搭建一個(gè)簡(jiǎn)化世界,把車道線、信號(hào)燈、行人和車輛軌跡重新組織成可以推演的場(chǎng)景。系統(tǒng)不只盯著現(xiàn)在這一幀,而是會(huì)順著前后的變化推一推,判斷“下一秒更可能出現(xiàn)哪幾種情況”。
![]()
規(guī)劃感知軌跡預(yù)測(cè)
比如,前車輕輕松油,人類司機(jī)往往能很快感到節(jié)奏變了,知道它可能在觀察路況或者準(zhǔn)備換道。傳統(tǒng)系統(tǒng)必須等到速度明顯變化才有所反應(yīng)。有了世界模型,系統(tǒng)可以在內(nèi)部試著推幾種可能的軌跡,估計(jì)對(duì)方是在整理節(jié)奏、遇到擁堵,還是準(zhǔn)備變道。動(dòng)作的提前量就來(lái)自這種內(nèi)部的小推演。
這種推演不是思考,它完全建立在海量數(shù)據(jù)上。邏輯有點(diǎn)像天氣預(yù)報(bào)根據(jù)歷史氣象數(shù)據(jù)預(yù)測(cè)降雨,只是這里換成了位置、速度和加速度。它不研究“為什么要這么做”,而是學(xué)會(huì)“在這種情況下大多數(shù)人通常這樣做”。外界看到的是“它好像會(huì)預(yù)判了”,工程師看到的是一堆損失曲線和訓(xùn)練樣本,它們?cè)诟嬖V系統(tǒng)“過(guò)去類似場(chǎng)景里,大致應(yīng)該怎么表現(xiàn)”。
![]()
軌跡預(yù)測(cè)模型
世界模型帶來(lái)的最大改變,并不是讓系統(tǒng)多出悟性,而是讓動(dòng)作少一點(diǎn)突然。它幫系統(tǒng)把很多本來(lái)會(huì)被當(dāng)成偶然的變化,變成可以提前準(zhǔn)備的趨勢(shì)。車輛在城市擁堵、高速并線、復(fù)雜路口這些場(chǎng)景里的表現(xiàn)會(huì)更平滑,少一點(diǎn)“突然踩一下”的感覺(jué)。這種順暢并不神秘,本質(zhì)上是系統(tǒng)在內(nèi)部多看了一眼前后因果。
理解世界不等于理解人
當(dāng)系統(tǒng)有了一個(gè)內(nèi)部世界,工程師很快意識(shí)到它仍然只能看到“結(jié)果”,很難觸及“原因”。它可以預(yù)測(cè)前車軌跡,但理解不了禮讓的意圖;可以識(shí)別行人的動(dòng)作,卻讀不懂那是不是一種“請(qǐng)先走”的示意。對(duì)系統(tǒng)來(lái)說(shuō),世界主要由速度、位置和方向構(gòu)成,人與人之間那些輕微而關(guān)鍵的溝通太難量化。
![]()
連續(xù)幀處理提取關(guān)鍵幀
真正的駕駛決策,有相當(dāng)一部分和物理量無(wú)關(guān)。十字路口一個(gè)小小的點(diǎn)頭,外賣車騎手突然加快幾步的節(jié)奏,孩子緊握大人手指的動(dòng)作,這些都在影響人類司機(jī)的判斷。我們會(huì)把過(guò)去的經(jīng)驗(yàn)、對(duì)他人處境的想象和當(dāng)下的風(fēng)險(xiǎn)評(píng)估揉在一起,做一個(gè)在當(dāng)下看來(lái)“合理”的選擇。系統(tǒng)沒(méi)有這層能力,它只能從圖像和軌跡里揣摩模式,無(wú)法理解其中的意圖和情緒。
即便工程師不斷往訓(xùn)練數(shù)據(jù)里塞進(jìn)更多姿態(tài)、表情和行為,模型也很難真正讀懂這些背后的含義。對(duì)它來(lái)說(shuō),這些只是更多需要擬合的模式。它所謂的“理解世界”,其實(shí)是在經(jīng)驗(yàn)范圍之內(nèi)找到一個(gè)穩(wěn)定動(dòng)作的能力。一旦遇到超出經(jīng)驗(yàn)之外的組合,它就會(huì)顯得陌生,表現(xiàn)得更保守或者更遲疑。
![]()
行人軌跡預(yù)測(cè)結(jié)果
從這個(gè)角度看,“世界模型讓車?yán)斫馐澜纭边@句話并不準(zhǔn)確。更貼切的說(shuō)法是,它讓系統(tǒng)在已知世界里少一些慌張,能以一種更連貫的方式處理變化。規(guī)則、意圖和情緒這些層面,仍然是明顯的空白。
工程現(xiàn)實(shí)比概念更硬
世界模型被講得越浪漫,工程現(xiàn)場(chǎng)就顯得越樸素。為了讓系統(tǒng)掌握足夠多的“世界”,測(cè)試車要在不同城市、不同天氣、不同時(shí)間反復(fù)跑,采集視頻、雷達(dá)和車輛狀態(tài)數(shù)據(jù)。采集回來(lái)的數(shù)據(jù)要被拆分、篩選、標(biāo)注,剔除噪聲和錯(cuò)誤,才有資格成為模型的“教材”。
![]()
訓(xùn)練往往需要持續(xù)數(shù)周,算力集群日夜不停地跑,工程師每天盯著損失函數(shù)的變化,觀察模型在新舊數(shù)據(jù)上的表現(xiàn)差異。訓(xùn)練看上去順利,并不代表可以立刻上路。雨夜、高速大彎道、擁堵路段這些場(chǎng)景,才是最容易暴露問(wèn)題的地方。一旦模型在某一種場(chǎng)景的表現(xiàn)不穩(wěn)定,就必須回到數(shù)據(jù)和結(jié)構(gòu)上重新檢查。
法規(guī)同樣給出了明確要求。《智能網(wǎng)聯(lián)汽車道路測(cè)試與示范應(yīng)用管理規(guī)范(試行)》強(qiáng)調(diào)自動(dòng)化決策必須具備可追溯能力,也就是系統(tǒng)的關(guān)鍵動(dòng)作都要能被還原。世界模型的結(jié)構(gòu)層級(jí)本來(lái)就多,一旦出現(xiàn)異常,工程師必須沿著內(nèi)部鏈路一層層追溯來(lái)源,這會(huì)在可還原的要求下顯著增加檢查成本。因此在模型之外,工程團(tuán)隊(duì)通常還要額外搭建審查鏈路,讓關(guān)鍵節(jié)點(diǎn)的判斷能夠被清晰復(fù)盤。
![]()
不同企業(yè)對(duì)架構(gòu)的選擇也各有取舍。有的押注集中式算力,希望通過(guò)統(tǒng)一平臺(tái)獲得穩(wěn)定的一致性;有的堅(jiān)持分布式控制,把部分權(quán)力交給各個(gè)控制單元,換取局部的靈活和冗余。兩條路都合理,本質(zhì)上是成本、安全和開發(fā)節(jié)奏之間的平衡。
從外面看,世界模型讓車更像“會(huì)預(yù)判”;從工程視角看,它每一點(diǎn)進(jìn)步,都是人類把細(xì)節(jié)一處處補(bǔ)齊之后的結(jié)果。它所謂的“理解”,大多是工程團(tuán)隊(duì)把碎片拼成體系,再讓模型在這個(gè)體系里穩(wěn)穩(wěn)運(yùn)行。
結(jié)語(yǔ)
界模型的價(jià)值,在于把“當(dāng)下這一幀”變成“前后幾秒的一段”,讓車輛行動(dòng)更連貫、更少突然。請(qǐng)對(duì)消費(fèi)者說(shuō)人話,它不是讓車長(zhǎng)出思考,而是讓系統(tǒng)把幾秒鐘連起來(lái)看,少做點(diǎn)盲算,多一點(diǎn)穩(wěn)妥。
![]()
歡迎線上購(gòu)買《汽車之友》雜志
北京時(shí)尚
成都雜志鋪
掃碼進(jìn)店,線上購(gòu)買,快遞到家
獲取更多圖文資訊,歡迎關(guān)注《汽車之友》微信公眾號(hào)
獲取更多視頻資訊,敬請(qǐng)關(guān)注《汽車之友》視頻號(hào)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.