一凡 發(fā)自 副駕寺
智能車(chē)參考 | 公眾號(hào) AI4Auto
Momenta,也押注世界模型了。
就在剛剛,Momenta劇透下一代飛輪大模型R7,將世界模型引入強(qiáng)化學(xué)習(xí),讓AI看懂物理世界,理解物理規(guī)律。
據(jù)說(shuō)引入世界模型后,R7性能暴漲,表現(xiàn)驚艷,以至于上汽大眾總經(jīng)理陶海龍親測(cè)R7后,直接給Momenta CEO曹旭東打電話:
- 必須我們首發(fā)
上汽大眾爭(zhēng)取首發(fā)R7的產(chǎn)品,名為ID.ERA 9X。這是上汽大眾的最新旗艦,一款車(chē)長(zhǎng)超5.2米的全尺寸增程SUV,集成了德系機(jī)械素質(zhì)和中國(guó)AI技術(shù)。
![]()
Momenta押注世界模型,劇透下一代R7大模型
在劇透世界模型前,曹旭東首先介紹了行業(yè)過(guò)去的技術(shù)瓶頸。曹旭東表示,業(yè)內(nèi)此前普遍采用模仿學(xué)習(xí)范式,這種范式通過(guò)模仿人類老司機(jī)軌跡來(lái)提升模型性能,無(wú)法超越人類老司機(jī)的駕駛水平。這就像咱們?cè)趯W(xué)校里亦步亦趨地跟著老師學(xué)習(xí),當(dāng)然很難超越老師。
為了打破技術(shù)瓶頸,讓AI司機(jī)有希望超越人類司機(jī),Momenta轉(zhuǎn)向了強(qiáng)化學(xué)習(xí),Momenta認(rèn)為強(qiáng)化學(xué)習(xí)大模型有希望超越人,甚至大幅超越人,在去年推出了基于強(qiáng)化學(xué)習(xí)的一段式端到端大模型R6
R6能夠在開(kāi)放的環(huán)境中自主探索試錯(cuò),不再只是簡(jiǎn)單地模仿人類軌跡,而是從綜合安全、舒適和效率等多個(gè)維度考慮,從多個(gè)可能軌跡中篩選出最好的那條。
R6代表著Momenta過(guò)去的技術(shù)探索,面向未來(lái)Momenta押注了世界模型,即將推出R7強(qiáng)化學(xué)習(xí)世界模型
這里簡(jiǎn)單解釋一下,關(guān)于世界模型的定義有很多種,目前大體可以分為兩類:
一類是生成世界模型,一般作為自動(dòng)駕駛和具身智能的“云端訓(xùn)練場(chǎng)”,訓(xùn)練端側(cè)算法。自動(dòng)駕駛行業(yè)目前基本對(duì)這條路線形成了共識(shí),只有個(gè)別玩家還在堅(jiān)持真實(shí)數(shù)據(jù)為王。
另一類是表征世界模型,代表著車(chē)端真正驅(qū)動(dòng)車(chē)輛的AI算法,負(fù)責(zé)理解物理世界并進(jìn)行推理。目前行業(yè)在這條路線和VLA之間存在爭(zhēng)論,Momenta押注的正是這條路線,與Momenta同一陣營(yíng)的還有蔚來(lái)華為
![]()
為什么Momenta在此時(shí)轉(zhuǎn)向了世界模型?
曹旭東認(rèn)為,物理AI時(shí)代已經(jīng)到來(lái),因此自動(dòng)駕駛技術(shù)必須要擁有對(duì)于物理世界的認(rèn)知能力,所以Momenta在強(qiáng)化學(xué)習(xí)的基礎(chǔ)上,引入了世界模型,讓AI能夠基于更完整的物理世界信息,做出更符合物理世界的預(yù)測(cè)和規(guī)劃。只有這樣大模型才有機(jī)會(huì)真正地理解物理規(guī)律,理解運(yùn)動(dòng)之間的因果關(guān)系,以及物體之間交互的潛在可能。
那為什么Momenta不選VLA?
“VLA好鋼沒(méi)用刀刃上,傳感器重要性排第三梯隊(duì)”
在發(fā)布會(huì)后,曹旭東還對(duì)話了智能車(chē)參考等媒體,在群訪中回答了很多問(wèn)題,最值得關(guān)注的是兩大路線之爭(zhēng)
第一大路線之爭(zhēng)圍繞VLA和世界模型之間展開(kāi)。
曹旭東從直覺(jué)和技術(shù)兩個(gè)角度,解釋了為什么Momenta不選VLA。
首先從直覺(jué)上來(lái)說(shuō),曹旭東認(rèn)為雖然LLM現(xiàn)在什么都能干,比如會(huì)寫(xiě)代碼、寫(xiě)詩(shī)歌、解數(shù)學(xué)題,但這對(duì)開(kāi)車(chē)來(lái)說(shuō)幫助不大。類比人類司機(jī),把車(chē)開(kāi)好不需要一個(gè)人會(huì)寫(xiě)代碼或者解數(shù)學(xué)題,只需要ta能理解物理世界的規(guī)律,在各種各樣的場(chǎng)景及時(shí)做出反應(yīng),并做出安全的預(yù)判。
而只有世界模型才具有這樣的能力,能夠?qū)W習(xí)物理規(guī)律,并且可以通過(guò)強(qiáng)化學(xué)習(xí)收集到大量的長(zhǎng)尾場(chǎng)景,反復(fù)鍛煉“肌肉記憶”。
而從技術(shù)角度來(lái)看,曹旭東介紹稱VLA的訓(xùn)練側(cè)重點(diǎn)與自動(dòng)駕駛的需求有偏差。VLA訓(xùn)練起源于LLM,底座模型的參數(shù)量一般在100B左右,然后再通過(guò)視覺(jué)和語(yǔ)言對(duì)齊,最后用行動(dòng)去和視覺(jué)-語(yǔ)言組合對(duì)齊。這樣看來(lái)在VLA的訓(xùn)練過(guò)程中,語(yǔ)義的優(yōu)先級(jí)高于駕駛,很多參數(shù)也沒(méi)用于駕駛?cè)蝿?wù),“好鋼沒(méi)用在刀刃上”。總結(jié)起來(lái)就是“VLA對(duì)自動(dòng)駕駛是錦上添花,很難雪中送炭”
![]()
VLA和世界模型,是軟件算法層面的爭(zhēng)議,而在底層硬件上,行業(yè)此前還一直存在著純視覺(jué)和多傳感器冗余(激光雷達(dá))的爭(zhēng)論,但這已經(jīng)是過(guò)去時(shí)了
曹旭東認(rèn)為,傳感器選型的重要性只能排在第三位。前兩位是什么?
首先,Momenta最重視的是算法架構(gòu)、數(shù)據(jù)和體系能力
數(shù)據(jù)不必多說(shuō),這是AI迭代的基石。先說(shuō)算法架構(gòu),曹旭東表示單一算法本身的壁壘很低,更重要的是架構(gòu),即把很多算法整合形成合力,并長(zhǎng)期積累的能力。
再往上層是研發(fā)體系能力,要像神經(jīng)網(wǎng)絡(luò)一樣可以反向傳播,就是識(shí)別到用戶高價(jià)值的任務(wù),并將其傳播給產(chǎn)品和研發(fā)團(tuán)隊(duì)。這樣團(tuán)隊(duì)才能知道什么事情產(chǎn)出最高,在方案選型時(shí)選出提升用戶體驗(yàn)最快的方案。
曹旭東透露,數(shù)據(jù)、架構(gòu)和體系能力是Momenta內(nèi)部第一梯隊(duì)重要的事情,而緊隨其后的是芯片算力。因?yàn)樾酒懔χ苯記Q定模型能力上限。
在這些要素之后,排在第三梯隊(duì)的是傳感器。曹旭東認(rèn)為哪怕只用純視覺(jué),即傳感器都用攝像頭,相比人類雙眼已經(jīng)是“超配”了。因?yàn)槿说碾p眼并不是360°環(huán)視的,攝像頭的覆蓋程度已經(jīng)非常全面,有足夠的冗余。
所以傳感器當(dāng)然是越多越好,但隨著數(shù)據(jù)、算法架構(gòu)和研發(fā)體系能力提升,堆傳感器數(shù)量、堆激光雷達(dá)的邊際效應(yīng)會(huì)減弱。
“這已經(jīng)逐漸成為行業(yè)共識(shí)了”
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.