<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      從L2到L3,VLA成為智能輔助駕駛“關(guān)鍵跳板”?

      0
      分享至

      當AI具備自主意識,也就實現(xiàn)了從“能干活”到“會做事”的轉(zhuǎn)變。

      近日,Gemini家族迎來一個新成員——Gemini Robotics On-Device。這是谷歌DeepMind首個可以直接部署在機器人上的視覺-語言-動作模型(Vision-Language-Action,VLA)。該模型運行時無需依賴數(shù)據(jù)網(wǎng)絡,可以完全在機器人設(shè)備本地離線運行,并在多種測試場景中實現(xiàn)了強大的視覺、語義和行為泛化能力,能理解自然語言指令,并完成拉開拉鏈、折疊衣物等高靈巧度任務。



      作為機器智能領(lǐng)域的關(guān)鍵新范式,VLA不僅讓機器人擁有了將語言意圖、視覺感知與物理動作編織成連續(xù)決策流的能力,也成為當下輔助駕駛提升智能化水平的重要技術(shù)之一。

      去年以來,谷歌、微軟、Figure AI等海外公司以及銀河通用、智元機器人、理想汽車、小鵬汽車等國內(nèi)具身智能和車企均發(fā)布了自己的VLA模型,這項技術(shù)成為具身智能和智能輔助駕駛領(lǐng)域的關(guān)鍵性研究之一。



      VLM走向VLA

      VLA模型最早由DeepMind提出并應用在機器人領(lǐng)域,旨在解決“視覺-語言-動作”三者協(xié)同的智能體控制問題。

      2023年7月,谷歌DeepMind推出了全球首個控制機器人的VLA模型——RT-2。相比傳統(tǒng)的機器人模型只能支持少數(shù)的特定指令,RT-2借助于大語言模型強大的語言理解能力,可以直接和用戶進行語言交互,并在接收攝像頭的原始數(shù)據(jù)和語言指令后,直接輸出控制信號,完成各種復雜的操作和各類任務。



      VLA在機器人領(lǐng)域的成功,很快也應用到了自動駕駛領(lǐng)域。2024年10月底,谷歌旗下自動駕駛公司W(wǎng)aymo推出了一個基于端到端的自動駕駛多模態(tài)模型——EMMA。

      EMMA建立在多模態(tài)大語言模型Gemini之上,將原始攝像頭傳感器數(shù)據(jù)直接映射到各種特定于駕駛的輸出中,包括規(guī)劃者軌跡、感知目標和道路圖元素,通過將所有非傳感器輸入(如導航指令和自車狀態(tài))和輸出(如軌跡和3D位置)表示為自然語言文本,最大限度地利用了預訓練的大型語言模型中的世界知識。

      從技術(shù)路徑看,VLA是繼VLM(視覺-語言模型)之后的進化形態(tài),被視為端到端大模型2.0——多模態(tài)機器學習模型。VLA融合視覺、語言和行動三種能力,將其統(tǒng)一在一個模型里,只輸入到機器就可執(zhí)行動作的端到端映射,從而賦予模型強大的3D空間理解、邏輯推理和行為生成能力,讓自動駕駛能夠感知、思考和適應環(huán)境。



      在智能輔助駕駛領(lǐng)域,感知技術(shù)通常由雷達、激光雷達、攝像頭等多種傳感器負責感知,感知結(jié)果經(jīng)過目標檢測、語義分割、軌跡預測、行為規(guī)劃等一系列模塊處理,最后由控制器下發(fā)方向盤和油門等動作指令。整個流程雖條理清晰,卻存在模塊間誤差累積、規(guī)則設(shè)計復雜且難以覆蓋所有極端場景的短板。

      VLA模型正是在此背景下應運而生,它舍棄了中間的手工設(shè)計算法,直接用統(tǒng)一的神經(jīng)網(wǎng)絡從多模態(tài)輸入中學習最優(yōu)控制策略,借助語言模型理解人類指令并生成可解釋的決策過程,最后將多模態(tài)信息轉(zhuǎn)化為具體的駕駛操作指令,從而簡化了系統(tǒng)架構(gòu),提高了數(shù)據(jù)利用效率。

      智能輔助駕駛關(guān)鍵跳板

      今年,汽車行業(yè)的智駕之戰(zhàn)明顯比往年來得更加猛烈。比亞迪的天神之眼、吉利的千里浩瀚、奇瑞的獵鷹智駕,以及廣汽的自動駕駛計劃,這些主流車企的動向都說明了,如今的車圈已經(jīng)是“得智駕者得天下”的時代了。

      自2023年以來,智駕行業(yè)掀起B(yǎng)EV、端到端技術(shù)浪潮后,車企們正逐步將AI神經(jīng)網(wǎng)絡融入感知、規(guī)劃、控制等環(huán)節(jié)。比起傳統(tǒng)基于規(guī)則的方案,基于AI、數(shù)據(jù)驅(qū)動的“端到端”擁有更高能力天花板。

      但在端到端模型之外,車企們還輔以了大語言模型、VLM模型等外掛,提供更強大的環(huán)境理解能力,從而提升智駕能力上限。

      與此同時,VLA正在成為重要的一環(huán)。VLA模型擁有更高的場景推理能力與泛化能力,對于智能輔助駕駛技術(shù)的演進意義重大。從長遠來看,在從L2級輔助駕駛向L4級自動駕駛的技術(shù)躍遷過程中,VLA有望成為關(guān)鍵跳板。

      在提升汽車智能化方面,新勢力車企最為激進。在NVIDIA GTC 2025大會上,理想汽車發(fā)布了新一代自動駕駛架構(gòu)——MindVLA。它通過整合空間智能、語言智能和行為智能,賦予自動駕駛系統(tǒng)以3D空間理解能力、邏輯推理能力和行為生成能力,并計劃于2026年量產(chǎn)應用。

      在VLA之前,“端到端+VLM”一直是智駕行業(yè)主流技術(shù)方案。因為駕駛時需要多模態(tài)的感知交互系統(tǒng),用戶的視覺、聽覺以及周圍環(huán)境的變化,甚至個人情感的波動,都與駕駛行為密切相關(guān),所以“端到端+VLM”的技術(shù)架構(gòu)中,端到端系統(tǒng)負責處理感知、決策和執(zhí)行的全過程,而VLM則作為輔助系統(tǒng),提供對復雜交通場景的理解和語義解析,但兩者相對獨立。



      比如理想“端到端+VLM”雙系統(tǒng)架構(gòu)方案,其基于丹尼爾·卡尼曼(Daniel Kahneman)在《思考,快與慢》中提出的人類兩套思維系統(tǒng)理論,將端到端系統(tǒng)(相當于系統(tǒng)1)與VLM模型(相當于系統(tǒng)2)融合應用于自動駕駛技術(shù)方案中,賦予車端模型更高的性能上限和發(fā)展?jié)摿Α?/p>



      其中,系統(tǒng)1即端到端模型,是一種直覺式、快速反應的機制,它直接從傳感器輸入(如攝像頭和激光雷達數(shù)據(jù))映射到行駛軌跡輸出,無需中間過程,是One Model一體化的模型。系統(tǒng)2則是由一個22億參數(shù)的VLM視覺語言大模型實現(xiàn),它的輸出給到系統(tǒng)1綜合形成最終的駕駛決策。



      而小鵬汽車將云端模型工廠劃分為四個車間,依次進行模型的預訓練、后訓練、模型蒸餾以及車端部署。理想則選擇了先進行視覺語言基座模型的預訓練,隨后進行模型蒸餾,最后通過駕駛場景數(shù)據(jù)進行后訓練和強化學習。兩種不同的技術(shù)路線帶來了不同的訓練成本與效率,正是這種差異使得兩家車企在市場上形成了強烈的對比。



      雖然“端到端+VLM”大幅提升了智駕水平,但仍有很多問題。比如,端到端和VLM要進行聯(lián)合訓練比較困難,此外還有對3D空間理解不夠、駕駛知識和內(nèi)存帶寬不足、難以處理人類駕駛的多模態(tài)性等問題。

      而VLA通過統(tǒng)一的大模型架構(gòu),將感知、決策、執(zhí)行無縫串聯(lián),形成“圖像輸入-語義理解-類人決策-動作輸出”的閉環(huán),可以同步提高智駕的上限和下限,實現(xiàn)空間、行為和語言的統(tǒng)一。

      在推理方面,VLA模型的能力要遠高于“端到端+VLM”。VLA整合了VLM的感知能力和端到端模型的決策能力,還引入了“思維鏈”技術(shù)。這使得它具備了全局上下文理解與類人推理能力,能夠在面對復雜的交通規(guī)則、潮汐車道、長時序推理等特殊場景時,像人類駕駛員一樣進行思考和判斷。

      例如,在推理時長方面,傳統(tǒng)的基于規(guī)則(rule-based)方案只能推理1秒鐘的路況信息并做出決策控制;端到端1.0階段的系統(tǒng)能夠推理未來7秒的路況,而VLA模型則能夠?qū)资氲穆窙r進行推理,顯著提升了智能輔助駕駛系統(tǒng)的決策能力和適應性。

      正因如此,VLA被業(yè)界認為是端到端2.0的主要技術(shù)形態(tài)。目前,VLA尚處于發(fā)展階段,除DeepMind的RT-2外,還包括OpenVLA模型、Waymo的EMMA、Wayve的LINGO-2、英偉達NaVILA等。這其中,Waymo的EMMA和Wayve的LINGO-2主要面向的是車載領(lǐng)域,RT-2、OpenVLA和NaVILA則主要面向機器人領(lǐng)域。

      下一代輔助駕駛技術(shù)基石

      VLA模型工作原理可以分為三個主要步驟:視覺感知、語言理解與決策生成、動作控制,并由多個關(guān)鍵模塊支撐上述步驟,包括視覺編碼器、語言編碼器、跨模態(tài)融合模塊和動作生成模塊。

      視覺編碼器負責從圖像或視頻中提取高層次視覺特征,語言編碼器則處理自然語言輸入,跨模態(tài)融合模塊將視覺和語言特征進行整合,而動作生成模塊則根據(jù)融合后的信息生成車輛的控制指令。

      在視覺感知階段,車輛的攝像頭、雷達等傳感器就像是VLA模型的“眼睛”,它們持續(xù)收集車輛周圍的視覺信息,包括道路狀況、交通標志、其他車輛和行人的位置等。這些原始數(shù)據(jù)被輸入到模型的視覺處理模塊,該模塊利用先進的深度學習算法,對圖像進行特征提取和分析,將復雜的視覺場景轉(zhuǎn)化為計算機能夠理解的特征向量。

      例如,它能夠識別出前方的紅色圓形交通信號燈,判斷出旁邊車輛的行駛速度和方向,以及檢測到路邊的行人正在靠近馬路。

      語言理解與決策生成階段是VLA模型的“大腦”核心運作部分。當視覺信息被處理后,模型會結(jié)合語言指令和自身的知識庫進行分析和推理。

      如果乘客發(fā)出“在前方路口右轉(zhuǎn)”的語音指令,VLA模型會首先理解這個語言信息,然后將其與當前的視覺感知信息進行融合。

      它會分析前方路口的交通狀況,如是否有車輛、行人,信號燈的狀態(tài)等,同時考慮交通規(guī)則和安全因素,運用“思維鏈”技術(shù)進行類人推理,最終生成合理的駕駛決策。在這個例子中,模型可能會決定在確保安全的情況下,提前減速,打開右轉(zhuǎn)向燈,并在合適的時機完成右轉(zhuǎn)動作。

      動作控制階段則是VLA模型將決策轉(zhuǎn)化為實際行動的過程。模型生成的駕駛決策,如加速、減速、轉(zhuǎn)向等指令,會被發(fā)送到車輛的執(zhí)行系統(tǒng),就像是給車輛的各個“器官”下達操作命令。

      執(zhí)行系統(tǒng)根據(jù)這些指令,精確控制車輛的油門、剎車、方向盤等部件,實現(xiàn)車輛的安全行駛。例如,當模型決定減速時,執(zhí)行系統(tǒng)會控制剎車系統(tǒng),逐漸降低車速;當需要轉(zhuǎn)向時,會精確調(diào)整方向盤的角度,確保車輛按照預定的軌跡行駛。

      以在城市復雜路況下的駕駛場景為例,VLA模型的工作過程更加清晰。當車輛行駛在擁擠的市區(qū)街道時,道路上可能同時存在各種車輛、行人、自行車,還有隨時變化的交通信號燈和復雜的交通標志。

      VLA模型通過攝像頭和雷達感知到這些信息后,會快速分析場景。如果遇到前方有行人正在過馬路,同時交通信號燈即將變紅,模型會理解這種復雜的情況,并根據(jù)語言指令和交通規(guī)則進行決策。它可能會決定立即減速停車,等待行人通過馬路并且信號燈變?yōu)榫G燈后,再繼續(xù)行駛。

      最重要的是,VLA的推理過程全程可求導,能夠通過車載顯示向用戶解釋駕駛邏輯,增強用戶信任感。

      有行業(yè)人士表示,VLA模型對智駕的演進意義重大,讓端到端理解世界的能力更強后,在L2輔助駕駛到L4自動駕駛的飛躍中,VLA可能會成為下一代智能輔助駕駛技術(shù)的基石。

      但短期內(nèi),VLA從“能用”到“好用”還面臨兩大難點。一是車端算力不足,比如理想車端雙Orin-X芯片運行“端到端+VLM”算力已經(jīng)比較吃緊。而VLA的模型結(jié)構(gòu)更復雜,參數(shù)也會進一步擴大,對硬件算力和數(shù)據(jù)閉環(huán)的迭代能力要求就更高。

      未來具備更強芯片整合能力和垂直整合能力的企業(yè),有望在VLA技術(shù)的競爭中占據(jù)先發(fā)優(yōu)勢。目前行業(yè)頭部競爭者如特斯拉、華為、小鵬、理想、Momenta等都在逐漸走向軟硬一體,針對自研模型定制化開發(fā)更匹配的智駕芯片,可以做到最大程度的優(yōu)化。

      另一大挑戰(zhàn)是如何將端到端與多模態(tài)大模型的數(shù)據(jù)與信息作深度融合。這考驗著智駕團隊的模型框架定義能力、模型快速迭代能力。

      為了解決上述問題,也正在探索多種技術(shù)路徑。如有通過引入可解釋性模塊或后驗可視化工具,對決策過程進行透明化;還有利用Diffusion模型對軌跡生成進行優(yōu)化,確保控制指令的平滑性與穩(wěn)定性。同時,將VLA與傳統(tǒng)規(guī)則引擎或模型預測控制(MPC)結(jié)合,以混合架構(gòu)提高安全冗余和系統(tǒng)魯棒性也成為熱門方向。

      隨著大模型技術(shù)、邊緣計算和車載硬件的持續(xù)進步,VLA有望在智能輔助駕駛領(lǐng)域扮演更加核心的角色,其不僅能為城市復雜道路提供更智能的駕駛方案,還可擴展至車隊協(xié)同、遠程遙控及人機交互等多種應用場景。

      VLA模型引發(fā)的技術(shù)變革正在重塑智能輔助駕駛產(chǎn)業(yè)格局,這場變革的終局或許不是某條技術(shù)路線的完勝,而是催生出分層市場。當然,VLA是否能成為智能輔助駕駛的“最終歸宿”目前尚難定論。從CNN到Transformer,再到VLM與VLA,技術(shù)迭代速度令人驚嘆,未來新的突破或許已在醞釀。當軟件定義汽車進入2.0時代,真正的較量才剛剛開始。

      聲明:個人原創(chuàng),僅供參考

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      海南封關(guān),十問十答!

      海南封關(guān),十問十答!

      環(huán)球網(wǎng)資訊
      2025-12-17 12:40:24
      泰國宣布禁止向柬埔寨 運輸石油及戰(zhàn)略物資

      泰國宣布禁止向柬埔寨 運輸石油及戰(zhàn)略物資

      每日經(jīng)濟新聞
      2025-12-17 13:17:22
      全網(wǎng)瘋傳的江門大瓜,年度最復雜的家庭倫理關(guān)系

      全網(wǎng)瘋傳的江門大瓜,年度最復雜的家庭倫理關(guān)系

      杭城村叔
      2025-12-17 21:01:23
      京東京造智能生態(tài)魚缸PRO預售,首發(fā)價259.9元

      京東京造智能生態(tài)魚缸PRO預售,首發(fā)價259.9元

      IT之家
      2025-12-16 16:09:11
      尹子維拍的徐冬冬,狀態(tài)不錯

      尹子維拍的徐冬冬,狀態(tài)不錯

      動物奇奇怪怪
      2025-12-16 15:41:43
      河南美女“大晨”去世,年僅28歲,日常開奧迪,一口能喝三兩白酒

      河南美女“大晨”去世,年僅28歲,日常開奧迪,一口能喝三兩白酒

      寶哥精彩賽事
      2025-12-16 08:40:55
      笑不活了!白巖松二次力挺張水華,自揭“遮羞布”,評論區(qū)太有梗

      笑不活了!白巖松二次力挺張水華,自揭“遮羞布”,評論區(qū)太有梗

      阿纂看事
      2025-12-16 09:35:12
      安宮牛黃丸為何成了中國最昂貴的假藥?

      安宮牛黃丸為何成了中國最昂貴的假藥?

      微評社
      2025-12-15 15:38:28
      人能活多久看頭發(fā)就能知道?專家:壽命長的人,頭發(fā)會有這些特征

      人能活多久看頭發(fā)就能知道?專家:壽命長的人,頭發(fā)會有這些特征

      小舟談歷史
      2025-10-11 09:16:14
      印度防務網(wǎng)站刊文:印軍在“辛杜爾行動”擊殺314km外巴基斯坦預警機

      印度防務網(wǎng)站刊文:印軍在“辛杜爾行動”擊殺314km外巴基斯坦預警機

      不掉線電波
      2025-12-17 10:24:40
      美媒表示:除非綁死歐日韓,否則單挑中國,美國肯定贏不了

      美媒表示:除非綁死歐日韓,否則單挑中國,美國肯定贏不了

      銳器
      2025-12-17 23:06:51
      凈虧4000萬!西媒:利物浦愿以1.1億歐元將維爾茨賣給皇馬

      凈虧4000萬!西媒:利物浦愿以1.1億歐元將維爾茨賣給皇馬

      球事百科吖
      2025-12-17 05:43:03
      盧秀燕在市議會答詢時叫囂:不管是哪個國籍,包括中國、美國……

      盧秀燕在市議會答詢時叫囂:不管是哪個國籍,包括中國、美國……

      南權(quán)先生
      2025-12-17 16:48:58
      美國首次宣布,如果俄羅斯再次襲擊烏克蘭,美國將作出軍事反應

      美國首次宣布,如果俄羅斯再次襲擊烏克蘭,美國將作出軍事反應

      清濱酒客
      2025-12-16 18:12:17
      禍從口出?這一次,再多的名和利也救不了,數(shù)典忘祖的張本智和

      禍從口出?這一次,再多的名和利也救不了,數(shù)典忘祖的張本智和

      史行途
      2025-12-17 12:53:34
      SpaceX據(jù)悉通知員工進入IPO前靜默期

      SpaceX據(jù)悉通知員工進入IPO前靜默期

      界面新聞
      2025-12-17 15:33:44
      當不成總統(tǒng)了?老美投票結(jié)果出爐,川普下令,希拉里遇上事兒了

      當不成總統(tǒng)了?老美投票結(jié)果出爐,川普下令,希拉里遇上事兒了

      大國紀錄
      2025-12-17 23:16:13
      圈子別硬擠!李湘帶王詩齡參加何超瓊的晚宴,格格不入,淪為笑話

      圈子別硬擠!李湘帶王詩齡參加何超瓊的晚宴,格格不入,淪為笑話

      笑飲孤鴻非
      2025-12-17 14:40:35
      廣東3消息!杜鋒難得聽勸,朱芳雨確定買斷王少杰,徐杰真男人

      廣東3消息!杜鋒難得聽勸,朱芳雨確定買斷王少杰,徐杰真男人

      多特體育說
      2025-12-17 23:02:23
      英相責令阿布解凍出售切爾西所得,否則將訴諸法律

      英相責令阿布解凍出售切爾西所得,否則將訴諸法律

      體壇周報
      2025-12-17 21:50:15
      2025-12-18 01:03:00
      極智GeeTech incentive-icons
      極智GeeTech
      釋放科技想象,探索數(shù)字未來。
      67文章數(shù) 11關(guān)注度
      往期回顧 全部

      科技要聞

      特斯拉值1.6萬億靠畫餅 Waymo值千億靠跑單

      頭條要聞

      捐贈博物館價值8800萬的名畫現(xiàn)身拍賣市場 捐贈方發(fā)聲

      頭條要聞

      捐贈博物館價值8800萬的名畫現(xiàn)身拍賣市場 捐贈方發(fā)聲

      體育要聞

      短短一年,從爭冠到0勝墊底...

      娛樂要聞

      狗仔曝熱播劇姐弟戀真談了???

      財經(jīng)要聞

      重磅信號!收入分配制度或迎重大突破

      汽車要聞

      一車多動力+雙姿態(tài) 長城歐拉5上市 限時9.18萬元起

      態(tài)度原創(chuàng)

      本地
      旅游
      手機
      數(shù)碼
      公開課

      本地新聞

      云游安徽|踏過戰(zhàn)壕與石板,讀一部活的淮北史

      旅游要聞

      泰山桃花峪游覽路調(diào)整開放時間

      手機要聞

      真我16 Pro系列外觀曝光,還有10000mAh±電池機型

      數(shù)碼要聞

      RGB-Mini LED迎來“跨年夜”,“光色同控”從電視走向桌面

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: AV无码人妻| 国产高清av首播原创麻豆| 天天弄天天模| 国模粉嫩小泬视频在线观看| 丁香五月激情综合| 黑水县| 无码一区二区三区免费| 亚洲精品一区中文字幕乱码| 丰满熟女人妻一区二区三| 日本新janpanese乱熟| 亚洲国产合集| 亚洲3P| 亚洲综合色成在线播放| 国产毛片欧美毛片久久久| 无码吃奶揉捏奶头高潮视频| 久久99老妇伦国产熟女| 人妻精品网站| 国产l精品国产亚洲区| 久久精品一本到99热免费| 无码?人妻?在线| 无码人妻AⅤ一区二区三区用会员| 午夜人成免费视频| 欧美 亚洲 日韩 在线综合| 精品人妻一区介绍| 人妻人人插| 中文字幕丝袜精品久久| 久久精品夜夜夜夜夜久久| 中文字幕欧美人妻精品一区蜜臀| 人妻中文字幕亚洲| 大香蕉资源网 | 国产成人精品三级麻豆| 日本另类αv欧美另类aⅴ| 国产一区二区三区小说| 日日夜干| 午夜国人精品av免费看| 亚洲国产成人精品女人久久久| 最新在线中文字幕| 香蕉社区| 羞羞影院午夜男女爽爽| 欧美精品一产区二产区| 日韩福利在线视频|