網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Momenta不選VLA選世界模型，大眾首發(fā)！曹旭東：傳感器第三重要

2026-03-16 23:19:52　來(lái)源: 智能車(chē)參考

上海舉報(bào)

分享至

一凡發(fā)自副駕寺
智能車(chē)參考 | 公眾號(hào) AI4Auto

Momenta，也押注世界模型了。

就在剛剛，Momenta劇透下一代飛輪大模型R7，將世界模型引入強(qiáng)化學(xué)習(xí)，讓AI看懂物理世界，理解物理規(guī)律。

據(jù)說(shuō)引入世界模型后，R7性能暴漲，表現(xiàn)驚艷，以至于上汽大眾總經(jīng)理陶海龍親測(cè)R7后，直接給Momenta CEO曹旭東打電話：

必須我們首發(fā)

上汽大眾爭(zhēng)取首發(fā)R7的產(chǎn)品，名為ID.ERA 9X。這是上汽大眾的最新旗艦，一款車(chē)長(zhǎng)超5.2米的全尺寸增程SUV，集成了德系機(jī)械素質(zhì)和中國(guó)AI技術(shù)。

Momenta押注世界模型，劇透下一代R7大模型

在劇透世界模型前，曹旭東首先介紹了行業(yè)過(guò)去的技術(shù)瓶頸。曹旭東表示，業(yè)內(nèi)此前普遍采用模仿學(xué)習(xí)范式，這種范式通過(guò)模仿人類老司機(jī)軌跡來(lái)提升模型性能，無(wú)法超越人類老司機(jī)的駕駛水平。這就像咱們?cè)趯W(xué)校里亦步亦趨地跟著老師學(xué)習(xí)，當(dāng)然很難超越老師。

為了打破技術(shù)瓶頸，讓AI司機(jī)有希望超越人類司機(jī)，Momenta轉(zhuǎn)向了強(qiáng)化學(xué)習(xí)，Momenta認(rèn)為強(qiáng)化學(xué)習(xí)大模型有希望超越人，甚至大幅超越人，在去年推出了基于強(qiáng)化學(xué)習(xí)的一段式端到端大模型R6

R6能夠在開(kāi)放的環(huán)境中自主探索試錯(cuò)，不再只是簡(jiǎn)單地模仿人類軌跡，而是從綜合安全、舒適和效率等多個(gè)維度考慮，從多個(gè)可能軌跡中篩選出最好的那條。

R6代表著Momenta過(guò)去的技術(shù)探索，面向未來(lái)Momenta押注了世界模型，即將推出R7強(qiáng)化學(xué)習(xí)世界模型

這里簡(jiǎn)單解釋一下，關(guān)于世界模型的定義有很多種，目前大體可以分為兩類：

一類是生成世界模型，一般作為自動(dòng)駕駛和具身智能的“云端訓(xùn)練場(chǎng)”，訓(xùn)練端側(cè)算法。自動(dòng)駕駛行業(yè)目前基本對(duì)這條路線形成了共識(shí)，只有個(gè)別玩家還在堅(jiān)持真實(shí)數(shù)據(jù)為王。

另一類是表征世界模型，代表著車(chē)端真正驅(qū)動(dòng)車(chē)輛的AI算法，負(fù)責(zé)理解物理世界并進(jìn)行推理。目前行業(yè)在這條路線和VLA之間存在爭(zhēng)論，Momenta押注的正是這條路線，與Momenta同一陣營(yíng)的還有蔚來(lái)華為

為什么Momenta在此時(shí)轉(zhuǎn)向了世界模型？

曹旭東認(rèn)為，物理AI時(shí)代已經(jīng)到來(lái)，因此自動(dòng)駕駛技術(shù)必須要擁有對(duì)于物理世界的認(rèn)知能力，所以Momenta在強(qiáng)化學(xué)習(xí)的基礎(chǔ)上，引入了世界模型，讓AI能夠基于更完整的物理世界信息，做出更符合物理世界的預(yù)測(cè)和規(guī)劃。只有這樣大模型才有機(jī)會(huì)真正地理解物理規(guī)律，理解運(yùn)動(dòng)之間的因果關(guān)系，以及物體之間交互的潛在可能。

那為什么Momenta不選VLA？

“VLA好鋼沒(méi)用刀刃上，傳感器重要性排第三梯隊(duì)”

在發(fā)布會(huì)后，曹旭東還對(duì)話了智能車(chē)參考等媒體，在群訪中回答了很多問(wèn)題，最值得關(guān)注的是兩大路線之爭(zhēng)

第一大路線之爭(zhēng)圍繞VLA和世界模型之間展開(kāi)。

曹旭東從直覺(jué)和技術(shù)兩個(gè)角度，解釋了為什么Momenta不選VLA。

首先從直覺(jué)上來(lái)說(shuō)，曹旭東認(rèn)為雖然LLM現(xiàn)在什么都能干，比如會(huì)寫(xiě)代碼、寫(xiě)詩(shī)歌、解數(shù)學(xué)題，但這對(duì)開(kāi)車(chē)來(lái)說(shuō)幫助不大。類比人類司機(jī)，把車(chē)開(kāi)好不需要一個(gè)人會(huì)寫(xiě)代碼或者解數(shù)學(xué)題，只需要ta能理解物理世界的規(guī)律，在各種各樣的場(chǎng)景及時(shí)做出反應(yīng)，并做出安全的預(yù)判。

而只有世界模型才具有這樣的能力，能夠?qū)W習(xí)物理規(guī)律，并且可以通過(guò)強(qiáng)化學(xué)習(xí)收集到大量的長(zhǎng)尾場(chǎng)景，反復(fù)鍛煉“肌肉記憶”。

而從技術(shù)角度來(lái)看，曹旭東介紹稱VLA的訓(xùn)練側(cè)重點(diǎn)與自動(dòng)駕駛的需求有偏差。VLA訓(xùn)練起源于LLM，底座模型的參數(shù)量一般在100B左右，然后再通過(guò)視覺(jué)和語(yǔ)言對(duì)齊，最后用行動(dòng)去和視覺(jué)-語(yǔ)言組合對(duì)齊。這樣看來(lái)在VLA的訓(xùn)練過(guò)程中，語(yǔ)義的優(yōu)先級(jí)高于駕駛，很多參數(shù)也沒(méi)用于駕駛?cè)蝿?wù)，“好鋼沒(méi)用在刀刃上”。總結(jié)起來(lái)就是“VLA對(duì)自動(dòng)駕駛是錦上添花，很難雪中送炭”

VLA和世界模型，是軟件算法層面的爭(zhēng)議，而在底層硬件上，行業(yè)此前還一直存在著純視覺(jué)和多傳感器冗余（激光雷達(dá)）的爭(zhēng)論，但這已經(jīng)是過(guò)去時(shí)了

曹旭東認(rèn)為，傳感器選型的重要性只能排在第三位。前兩位是什么？

首先，Momenta最重視的是算法架構(gòu)、數(shù)據(jù)和體系能力

數(shù)據(jù)不必多說(shuō)，這是AI迭代的基石。先說(shuō)算法架構(gòu)，曹旭東表示單一算法本身的壁壘很低，更重要的是架構(gòu)，即把很多算法整合形成合力，并長(zhǎng)期積累的能力。

再往上層是研發(fā)體系能力，要像神經(jīng)網(wǎng)絡(luò)一樣可以反向傳播，就是識(shí)別到用戶高價(jià)值的任務(wù)，并將其傳播給產(chǎn)品和研發(fā)團(tuán)隊(duì)。這樣團(tuán)隊(duì)才能知道什么事情產(chǎn)出最高，在方案選型時(shí)選出提升用戶體驗(yàn)最快的方案。

曹旭東透露，數(shù)據(jù)、架構(gòu)和體系能力是Momenta內(nèi)部第一梯隊(duì)重要的事情，而緊隨其后的是芯片算力。因?yàn)樾酒懔χ苯記Q定模型能力上限。

在這些要素之后，排在第三梯隊(duì)的是傳感器。曹旭東認(rèn)為哪怕只用純視覺(jué)，即傳感器都用攝像頭，相比人類雙眼已經(jīng)是“超配”了。因?yàn)槿说碾p眼并不是360°環(huán)視的，攝像頭的覆蓋程度已經(jīng)非常全面，有足夠的冗余。

所以傳感器當(dāng)然是越多越好，但隨著數(shù)據(jù)、算法架構(gòu)和研發(fā)體系能力提升，堆傳感器數(shù)量、堆激光雷達(dá)的邊際效應(yīng)會(huì)減弱。

“這已經(jīng)逐漸成為行業(yè)共識(shí)了”

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.