網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

多模態(tài)——感官融合還是概念堆疊

2025-12-25 09:33:00　來(lái)源: 汽車(chē)之友

北京舉報(bào)

分享至

導(dǎo)言

多模態(tài)常被描述成“機(jī)器五感”，好像車(chē)能像人一樣同時(shí)看、聽(tīng)、感受?，F(xiàn)實(shí)遠(yuǎn)沒(méi)那么神秘，它的意義更像是在各種不完美的傳感器之間找一個(gè)最穩(wěn)的答案。理解它，不需要從華麗的術(shù)語(yǔ)開(kāi)始，而要從道路的混亂開(kāi)始。每一個(gè)傳感器都有短板，系統(tǒng)要在這些缺口之間撐起一致性。

要看懂多模態(tài)，必須先承認(rèn)一個(gè)現(xiàn)實(shí)：機(jī)器沒(méi)有感官，只有信號(hào)。多模態(tài)的出現(xiàn)不是為了讓系統(tǒng)像人，而是為了讓系統(tǒng)在復(fù)雜場(chǎng)景里少掉鏈子。把它拉回到這個(gè)原點(diǎn)，再看它能做什么、不能做什么，就清晰多了。

機(jī)器到底看見(jiàn)了什么

讓車(chē)輛識(shí)別周?chē)澜?，看上去需要?fù)雜算法，但最關(guān)鍵的一步其實(shí)是“信息有沒(méi)有偏”。攝像頭、雷達(dá)、麥克風(fēng)都在努力記錄世界，但它們看到的和我們看到的根本不是一回事。我們看到一個(gè)孩子站在馬路邊，會(huì)自然減一點(diǎn)油門(mén)，因?yàn)槲覀冎篮⒆涌赡芡蝗慌軇?dòng)。機(jī)器看到的只是亮度變化的像素點(diǎn)，在這些數(shù)字里讀不出“可能會(huì)跑”的含義。

BEV世界模型

天氣稍一變化，差距更明顯。下雨時(shí)鏡頭外沿會(huì)掛上水珠，車(chē)燈會(huì)被拉成長(zhǎng)條；烈日下路牌反光會(huì)把畫(huà)面局部點(diǎn)亮；夜晚的陰影可能突然吞掉某個(gè)關(guān)鍵細(xì)節(jié)。我們知道這是光線的惡作劇，而不是新出現(xiàn)的障礙物，但系統(tǒng)只能把這些“扭曲過(guò)的現(xiàn)實(shí)”當(dāng)成事實(shí)。它沒(méi)有情境，只能不斷對(duì)比前后幀的差異，努力猜哪一部分是重要的。

過(guò)去的系統(tǒng)把不同傳感器的數(shù)據(jù)分給不同模塊，各自判斷各自的內(nèi)容，再在末端拼成一個(gè)場(chǎng)景?？此魄逦?，實(shí)際稍有偏差就會(huì)讓整體猶豫。攝像頭感覺(jué)前車(chē)在減速，雷達(dá)覺(jué)得距離還夠，控制模塊就會(huì)在毫秒級(jí)別里反復(fù)確認(rèn)，而這段猶豫會(huì)傳到方向盤(pán)和油門(mén)上，讓動(dòng)作出現(xiàn)輕微滯后。

暴風(fēng)雨場(chǎng)景下傳感器噪音

多模態(tài)想解決的正是這種不穩(wěn)。它不是試圖讓機(jī)器模擬人類“直覺(jué)”，而是把不同來(lái)源的信息放在同一邏輯環(huán)境里分析。攝像頭看到紅燈的那一刻，系統(tǒng)能順帶考慮雷達(dá)的距離變化；光線變差時(shí)，也不會(huì)只盯著畫(huà)面變化，而忽略車(chē)身姿態(tài)的輕微調(diào)整。它追求的從來(lái)不是復(fù)雜，而是可靠。

融合沒(méi)那么簡(jiǎn)單

多模態(tài)這個(gè)詞很容易讓人以為不同信號(hào)被“合成”成一套統(tǒng)一理解，但在大量量產(chǎn)系統(tǒng)里，它離真正的融合仍有距離。攝像頭模型處理圖像，雷達(dá)模型看回波，語(yǔ)音模型識(shí)別指令，它們像并排辦公的同事，各自做各自的工作。最終系統(tǒng)要再做一次整合，判斷哪條信息更可信。

不同傳感器的強(qiáng)項(xiàng)

問(wèn)題是，道路場(chǎng)景本來(lái)就充滿不確定性，任何一個(gè)模態(tài)的小誤差都可能在整合時(shí)被放大。語(yǔ)音系統(tǒng)可能把駕駛者的一句“停車(chē)”聽(tīng)成“聽(tīng)歌”，攝像頭在雨夜可能突然失焦，雷達(dá)在低速可能忽略某些靜止物體。單看每個(gè)模塊都盡力完成任務(wù)，可湊在一起時(shí)，不確定性就會(huì)疊加。系統(tǒng)可能因此在關(guān)鍵瞬間謹(jǐn)慎過(guò)頭，或者在本該果斷的地方顯得拘謹(jǐn)。

真正意義上的多模態(tài)，需要在信息還沒(méi)被模塊化之前就找到共同表達(dá)。系統(tǒng)不再問(wèn)“視覺(jué)怎么說(shuō)”“雷達(dá)怎么看”，而是直接處理“這些信號(hào)放在一起像什么”。它理解的是場(chǎng)景，而不是模塊結(jié)果之間的投票。這樣，當(dāng)某一條信號(hào)受干擾時(shí)，不會(huì)把整條鏈路拖偏。

成像雷達(dá)與激光雷達(dá)點(diǎn)云對(duì)比

這與世界模型形成了某種呼應(yīng)。世界模型關(guān)心時(shí)間的連續(xù)性，讓系統(tǒng)提前看到趨勢(shì)；多模態(tài)關(guān)心感知的一致性，讓系統(tǒng)不被單一信號(hào)誤導(dǎo)。兩者疊在一起，可以讓車(chē)輛在復(fù)雜城市路況里表現(xiàn)更穩(wěn)定，不容易被某個(gè)異常瞬間拖住。

工程的真實(shí)樣子

多模態(tài)從實(shí)驗(yàn)室走入車(chē)輛，遇到的第一個(gè)難題是時(shí)間。不同傳感器的采樣頻率不同，攝像頭每秒幾十幀，雷達(dá)百余次，麥克風(fēng)更多。如果這些信號(hào)不能在幾十毫秒里對(duì)齊，剎車(chē)或轉(zhuǎn)向的時(shí)機(jī)就會(huì)被影響。普通人感受不到那零點(diǎn)幾秒的誤差，但在高速上，它意味著幾米的差距。

傳感器具體負(fù)責(zé)任務(wù)

算力限制同樣現(xiàn)實(shí)。多模態(tài)并不是簡(jiǎn)單疊加，而是要在同一瞬間處理多條輸入，再綜合成一個(gè)判斷。每多一個(gè)模態(tài)，推理負(fù)載都會(huì)顯著增加。車(chē)規(guī)級(jí)芯片必須在極短時(shí)間內(nèi)完成這些計(jì)算，還得把熱量壓住。模型越細(xì)致，延遲越可能增加；模型越粗糙，又可能漏掉關(guān)鍵細(xì)節(jié)。工程師常在這兩頭之間反復(fù)權(quán)衡。

驗(yàn)證是另一段漫長(zhǎng)過(guò)程。實(shí)驗(yàn)室可以反復(fù)調(diào)試每一幀，道路上的變量卻永遠(yuǎn)在變化。天氣、光照、道路材質(zhì)、駕駛者口音、車(chē)輛姿態(tài)……這些都可能讓模型表現(xiàn)產(chǎn)生波動(dòng)。法規(guī)對(duì)這種系統(tǒng)的要求也很明確：《智能網(wǎng)聯(lián)汽車(chē)道路測(cè)試與示范應(yīng)用管理規(guī)范（試行）》強(qiáng)調(diào)自動(dòng)化決策必須可復(fù)盤(pán)。多模態(tài)越復(fù)雜，拆解每一步原因就越費(fèi)時(shí)間。

多傳感器融合

外界看到的是“能聽(tīng)能看”，工程師在意的是“干擾來(lái)了能不能穩(wěn)住”“熱衰減時(shí)性能會(huì)不會(huì)掉”“日志能不能解釋每一步動(dòng)作”。這些內(nèi)容不會(huì)在發(fā)布會(huì)上出現(xiàn)，卻決定了系統(tǒng)是否可靠。

幻想之外的邊界

多模態(tài)容易被擬人化，因?yàn)椤跋裎甯幸粯庸ぷ鳌甭?tīng)上去比“把多條信號(hào)放一起算”更吸引人。宣傳里，車(chē)輛好像能聽(tīng)懂情緒、理解駕駛者習(xí)慣、讀懂復(fù)雜場(chǎng)景。然而機(jī)器沒(méi)有感受，只有信號(hào)。所謂“看懂”“聽(tīng)懂”，都是在做數(shù)學(xué)擬合；所謂“理解”，來(lái)自統(tǒng)計(jì)意義上的一致，而不是心領(lǐng)神會(huì)。

惡劣天氣下目標(biāo)檢測(cè)

多模態(tài)真正的意義，在于讓系統(tǒng)在混亂里更穩(wěn)，不在于讓它更像人。它不受疲勞影響，不會(huì)分心，也不會(huì)因?yàn)榫o張而誤判。只要輸入干凈、校準(zhǔn)到位，它就能重復(fù)做出一致的判斷。這種一致性，才是道路環(huán)境里最寶貴的品質(zhì)。

在越來(lái)越密集的技術(shù)名詞里，多模態(tài)之所以被誤解，是因?yàn)樗菀妆话b成某種“智能化”。但它的價(jià)值從來(lái)落在最不華麗的地方，就是讓車(chē)輛少看錯(cuò)、少猶豫、少受到環(huán)境波動(dòng)的影響。它擴(kuò)展了機(jī)器的感知邊界，卻不會(huì)讓機(jī)器擁有靈魂。

激光雷達(dá)與攝像頭融合估算距離

結(jié)語(yǔ)

多模態(tài)的意義，不是模仿人類五感，而是讓系統(tǒng)在復(fù)雜環(huán)境里更穩(wěn)、更一致。請(qǐng)對(duì)消費(fèi)者說(shuō)人話，多模態(tài)說(shuō)到底，就是把不同傳感器的信號(hào)放在一起核對(duì)一遍，讓車(chē)少看錯(cuò)、少慌張，而不是讓它變得更像人。

歡迎線上購(gòu)買(mǎi)《汽車(chē)之友》雜志

北京時(shí)尚

成都雜志鋪

掃碼進(jìn)店，線上購(gòu)買(mǎi)，快遞到家

獲取更多圖文資訊，歡迎關(guān)注《汽車(chē)之友》微信公眾號(hào)

獲取更多視頻資訊，敬請(qǐng)關(guān)注《汽車(chē)之友》視頻號(hào)

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.