<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      英偉達(dá)拿出推理版VLA:Alpamayo-R1讓自動(dòng)駕駛AI更會(huì)動(dòng)腦子

      0
      分享至



      一、自動(dòng)駕駛的瓶頸:「看」得見(jiàn),卻「想」不明白

      當(dāng)今自動(dòng)駕駛模型越來(lái)越強(qiáng)大,攝像頭、雷達(dá)、Transformer 網(wǎng)絡(luò)一齊上陣,似乎什么都「看得見(jiàn)」。但真正的挑戰(zhàn)在于:模型能否像人一樣「想明白」為什么要這么開(kāi)?

      傳統(tǒng)的端到端(E2E)系統(tǒng)雖然能從感知到控制一氣呵成,卻常在「長(zhǎng)尾場(chǎng)景」翻車 —— 比如:

      • 迎面來(lái)車違規(guī)左轉(zhuǎn);
      • 行人突然闖入;
      • 臨時(shí)施工、交通標(biāo)志被遮擋。

      這些「極少數(shù)但容易發(fā)生事故」的場(chǎng)景正是當(dāng)前系統(tǒng)的盲點(diǎn)。

      二、Alpamayo-R1:給模型裝上「推理鏈條」

      NVIDIA Research 推出的Alpamayo-R1(AR1),是一種全新的帶有推理能力的視覺(jué) - 語(yǔ)言 - 行動(dòng)模型(Reasoning VLA),讓車輛不只是「執(zhí)行指令」,而是能在決策前「推理出因果關(guān)系」。



      圖 1:Alpamayo-R1 模型架構(gòu)(示意)

      AR1 的核心創(chuàng)新有三個(gè)方面:

      1. Chain of Causation(因果鏈)數(shù)據(jù)集

      AR1 引入了一套全新的數(shù)據(jù)標(biāo)注體系:每一段駕駛數(shù)據(jù)不僅有「做了什么」,還有 「為什么這樣做」。例如:「減速并左變道,是因?yàn)榍胺接兄鷦?dòng)車等紅燈,且左側(cè)車道空閑。」



      圖 2:因果鏈(CoC)標(biāo)注示例

      2. Diffusion-based Trajectory Decoder(擴(kuò)散式軌跡解碼器)

      AR1 引入了一種基于擴(kuò)散模型的軌跡解碼器,它能在實(shí)時(shí)約束下生成連續(xù)、動(dòng)態(tài)可行的駕駛軌跡。該模塊結(jié)合語(yǔ)言推理輸出與物理約束,實(shí)現(xiàn)從推理到控制的無(wú)縫銜接。

      3. Multi-Stage Training(多階段訓(xùn)練策略)

      AR1 是基于 NVIDIA 的 Cosmos Reason 模型,這是一種專為物理 AI(Physical AI)設(shè)計(jì)的推理視覺(jué)語(yǔ)言模型;并采用多階段訓(xùn)練策略:首先在大規(guī)模駕駛數(shù)據(jù)上做模態(tài)注入,學(xué)習(xí)從視覺(jué)到動(dòng)作的基本映射;第二階段在 CoC 因果鏈數(shù)據(jù)上做監(jiān)督微調(diào),顯式教會(huì)模型「先想清楚再開(kāi)」;最后通過(guò)強(qiáng)化學(xué)習(xí)(RL)進(jìn)一步優(yōu)化推理質(zhì)量、推理 - 行動(dòng)一致性和軌跡安全性。

      這種分階段、分目標(biāo)的訓(xùn)練流程,使得模型在開(kāi)放場(chǎng)景、長(zhǎng)尾危險(xiǎn)場(chǎng)景中都表現(xiàn)的更加穩(wěn)健。

      三、性能飛躍:更穩(wěn)、更準(zhǔn)、更懂你

      在實(shí)驗(yàn)中,AR1 為以下性能帶來(lái)了顯著提升:

      • 規(guī)劃精度提升 12%
      • 越界率降低 35%
      • 近碰率降低 25%
      • 推理 - 行動(dòng)一致性提升 37%
      • ? 實(shí)時(shí)性能:99 ms 端到端延遲

      更重要的是,這些提升主要體現(xiàn)在以往最容易出錯(cuò)的「長(zhǎng)尾場(chǎng)景」中 —— 也就是說(shuō),它更接近「真正會(huì)判斷的司機(jī)」。

      四、Vision Encoding:高效多相機(jī)時(shí)序感知

      AR1 的輸入由多相機(jī)、多時(shí)序觀測(cè)幀組成,同時(shí)可以選配高層語(yǔ)言輸入(如導(dǎo)航指令或駕駛目標(biāo))。所有輸入(包括歷史自車運(yùn)動(dòng))會(huì)被統(tǒng)一編碼成多模態(tài) token 序列,按時(shí)序和傳感器順序排列,再送入主干模型 Cosmos-Reason 進(jìn)行推理與預(yù)測(cè)。

      在這一過(guò)程中:

      • 每個(gè)相機(jī)視角先經(jīng)過(guò)輕量級(jí) CNN 與時(shí)間注意力模塊做特征壓縮與時(shí)序建模;
      • 多相機(jī)特征隨后融合為 BEV(鳥(niǎo)瞰圖)表征;
      • 所有模態(tài)(圖像、導(dǎo)航文本、自車狀態(tài))被 token 化后統(tǒng)一輸入 Transformer;
      • 模型的輸出包含三類 token:推理鏈(reasoning traces)、中層動(dòng)作(meta-actions)與未來(lái)軌跡預(yù)測(cè)(trajectories)。

      這種統(tǒng)一編碼方式讓模型具備了多模態(tài)語(yǔ)義理解與運(yùn)動(dòng)狀態(tài)感知的「一體化」能力。

      五、數(shù)據(jù)的靈魂:結(jié)構(gòu)化標(biāo)注的革命

      AR1 的 CoC 數(shù)據(jù)集采用「人機(jī)協(xié)同標(biāo)注」機(jī)制:

      • 人工部分:標(biāo)注關(guān)鍵幀、核心因果因素(如紅燈、行人、障礙物),并撰寫(xiě)推理鏈。
      • 自動(dòng)部分:通過(guò) GPT-5 等大模型自動(dòng)生成初版推理,再由人類審查。
      • 質(zhì)量審核:每條樣本通過(guò)因果覆蓋、因果正確性、近因優(yōu)先等四項(xiàng)規(guī)則嚴(yán)格把關(guān)。

      最終形成數(shù)十萬(wàn)條高質(zhì)量推理 - 行動(dòng)樣本,使 VLA 模型能真正「理解因果,而非記憶現(xiàn)象」。



      圖 3:CoC 數(shù)據(jù)標(biāo)注流程示意圖

      六、Multi-Stage Training:從常識(shí)推理到行為控制

      Alpamayo-R1 的訓(xùn)練分為三個(gè)階段,旨在讓模型從「看懂」到「會(huì)想」再到「能開(kāi)」。



      圖 4: AR1 訓(xùn)練流程示意圖

      1. 監(jiān)督微調(diào)(Supervised Fine-Tuning, SFT)

      基于 Cosmos-Reason 的預(yù)訓(xùn)練權(quán)重進(jìn)行微調(diào)。該主干模型原本在 370 萬(wàn)條 VQA 數(shù)據(jù)上后訓(xùn)練(post-training),其中包括 2.47 萬(wàn)條專為駕駛設(shè)計(jì)的視頻樣本,帶有場(chǎng)景描述、駕駛難度和推理軌跡標(biāo)注,幫助模型建立「物理常識(shí)」和 「因果直覺(jué)」。

      此外還構(gòu)建了額外的 10 萬(wàn)條駕駛樣本,標(biāo)注關(guān)鍵目標(biāo)、交通信號(hào)、因果行為解釋等信息,用于領(lǐng)域自適應(yīng)微調(diào)。

      2. 因果鏈監(jiān)督階段(CoC Supervision)

      引入 CoC 因果鏈數(shù)據(jù)集,顯式監(jiān)督模型的推理輸出,使其能回答「為什么要減速」、「為什么左轉(zhuǎn)」。這一階段通過(guò)人工 + 教師模型(如 GPT-5)生成高質(zhì)量推理樣本,使模型在策略學(xué)習(xí)前先獲得強(qiáng)大的語(yǔ)言 - 推理能力。

      3. 強(qiáng)化學(xué)習(xí)后訓(xùn)練優(yōu)化(Reinforcement Learning based Post-Training)。

      在最終階段,英偉達(dá)通過(guò)強(qiáng)化學(xué)習(xí)對(duì)模型進(jìn)行策略微調(diào),以進(jìn)一步提升其在推理精準(zhǔn)性、推理–行動(dòng)一致性、軌跡平滑性以及閉環(huán)控制穩(wěn)定性等方面的表現(xiàn)。

      Alpamayo-R1 引入了多維度獎(jiǎng)勵(lì)機(jī)制:包括由專家級(jí)推理模型提供的反饋信號(hào),用于評(píng)估并引導(dǎo)模型生成更具因果邏輯的推理;「推理–行動(dòng)一致性(Reasoning–Action Consistency)」獎(jiǎng)勵(lì),用于鼓勵(lì)模型依據(jù)自身推理合理執(zhí)行動(dòng)作;以及底層安全獎(jiǎng)勵(lì),用以促進(jìn)模型生成更加安全、平滑且可執(zhí)行的運(yùn)動(dòng)軌跡。

      七、未來(lái)展望:邁向可解釋的 L4 自動(dòng)駕駛

      AR1 的設(shè)計(jì)理念可以看作是自動(dòng)駕駛從「黑箱」到「白箱」的轉(zhuǎn)折點(diǎn)。

      它不再只是一個(gè)會(huì)開(kāi)車的 AI,而是一個(gè)能告訴你「為什么這樣開(kāi)」的駕駛員。

      ? 小結(jié):讓自動(dòng)駕駛「有理可講」

      Alpamayo-R1 的意義不止在性能提升,更在于:它讓 AI 的「推理鏈」與物理世界的「行動(dòng)鏈」形成真正的閉環(huán)。

      當(dāng)車輛能解釋自己的每一個(gè)決策時(shí),才能確保更加安全,信任與普及才會(huì)得以實(shí)現(xiàn)。

      一句話總結(jié):AR1 = 會(huì)開(kāi)車 + 會(huì)思考 + 會(huì)解釋的自動(dòng)駕駛模型。

      詳細(xì)內(nèi)容請(qǐng)查看:https://research.nvidia.com/publication/2025-10_alpamayo-r1

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      萬(wàn)億煙草市場(chǎng)正在漏水?你常買的煙可能已經(jīng)不值錢了!

      萬(wàn)億煙草市場(chǎng)正在漏水?你常買的煙可能已經(jīng)不值錢了!

      老特有話說(shuō)
      2026-03-07 16:09:02
      44歲范冰冰車內(nèi)趕場(chǎng)賣面膜!素顏發(fā)福變大媽,昔日頂流如今只剩奔波

      44歲范冰冰車內(nèi)趕場(chǎng)賣面膜!素顏發(fā)福變大媽,昔日頂流如今只剩奔波

      八卦王者
      2026-03-06 11:18:36
      伊朗發(fā)視頻嘲諷:500萬(wàn)美元導(dǎo)彈摧毀10美元假直升機(jī) 這就是所謂的“精準(zhǔn)勝利”

      伊朗發(fā)視頻嘲諷:500萬(wàn)美元導(dǎo)彈摧毀10美元假直升機(jī) 這就是所謂的“精準(zhǔn)勝利”

      閃電新聞
      2026-03-07 14:00:07
      崩了,公司全面停工停產(chǎn),全員待崗半年!

      崩了,公司全面停工停產(chǎn),全員待崗半年!

      黯泉
      2026-03-07 20:34:42
      1只都不行! 2019年, 四川村民干農(nóng)活時(shí)捉到2只, 回家養(yǎng)2個(gè)月麻煩

      1只都不行! 2019年, 四川村民干農(nóng)活時(shí)捉到2只, 回家養(yǎng)2個(gè)月麻煩

      妙知
      2026-03-07 17:35:05
      愛(ài)德華茲評(píng)NBA歷史首發(fā)五虎:現(xiàn)役三人在列包括自己 沒(méi)選詹姆斯

      愛(ài)德華茲評(píng)NBA歷史首發(fā)五虎:現(xiàn)役三人在列包括自己 沒(méi)選詹姆斯

      羅說(shuō)NBA
      2026-03-08 06:08:56
      擬明年1月開(kāi)業(yè)!廣州將迎巨無(wú)霸商業(yè)綜合體

      擬明年1月開(kāi)業(yè)!廣州將迎巨無(wú)霸商業(yè)綜合體

      羊城攻略
      2026-03-07 23:02:40
      以色列特種兵深夜突襲慘敗,伊朗系成功伏擊,遠(yuǎn)火轟擊F-35維修廠

      以色列特種兵深夜突襲慘敗,伊朗系成功伏擊,遠(yuǎn)火轟擊F-35維修廠

      軍機(jī)Talk
      2026-03-07 16:42:12
      偷往帽子倒螺螄粉湯的女子已經(jīng)社死,正面照遭網(wǎng)友Ai修復(fù)后瘋傳

      偷往帽子倒螺螄粉湯的女子已經(jīng)社死,正面照遭網(wǎng)友Ai修復(fù)后瘋傳

      映射生活的身影
      2026-03-08 02:42:07
      杰倫35+10+7!老鷹逆轉(zhuǎn)76人豪取6連勝 馬克西31分受傷

      杰倫35+10+7!老鷹逆轉(zhuǎn)76人豪取6連勝 馬克西31分受傷

      醉臥浮生
      2026-03-08 09:29:59
      財(cái)政部、人社部發(fā)布重要消息,2026年養(yǎng)老金確定上漲了嗎?來(lái)看看

      財(cái)政部、人社部發(fā)布重要消息,2026年養(yǎng)老金確定上漲了嗎?來(lái)看看

      云鵬敘事
      2026-03-08 08:56:49
      英國(guó)考慮向中東地區(qū)派遣航母后,特朗普再批斯塔默:英國(guó)沒(méi)有第一時(shí)間支持

      英國(guó)考慮向中東地區(qū)派遣航母后,特朗普再批斯塔默:英國(guó)沒(méi)有第一時(shí)間支持

      環(huán)球網(wǎng)資訊
      2026-03-08 09:09:07
      政協(xié)委員怒批:這種“坑人”制度早該廢除!打工人終于要熬出頭了

      政協(xié)委員怒批:這種“坑人”制度早該廢除!打工人終于要熬出頭了

      細(xì)說(shuō)職場(chǎng)
      2026-03-07 14:57:03
      爆火,有人說(shuō)幾天賺了26萬(wàn)!近千人在騰訊樓下排隊(duì),QQ最新宣布

      爆火,有人說(shuō)幾天賺了26萬(wàn)!近千人在騰訊樓下排隊(duì),QQ最新宣布

      都市快報(bào)橙柿互動(dòng)
      2026-03-08 08:11:30
      中國(guó)駐伊朗女記者:爆炸中躲進(jìn)衛(wèi)生間趕稿,不是最窘的事

      中國(guó)駐伊朗女記者:爆炸中躲進(jìn)衛(wèi)生間趕稿,不是最窘的事

      上觀新聞
      2026-03-07 15:07:07
      女人舒服了,果然比耶都隨意了!

      女人舒服了,果然比耶都隨意了!

      槽三刀
      2026-03-07 22:52:30
      擠走董卿、靠爹上位、央視“窮鬼”,龍洋私生活謠言有多離譜?

      擠走董卿、靠爹上位、央視“窮鬼”,龍洋私生活謠言有多離譜?

      歸客歷史
      2026-03-03 09:18:30
      究竟遜尼派與什葉派的區(qū)別是什么?

      究竟遜尼派與什葉派的區(qū)別是什么?

      難得君
      2026-03-07 09:53:43
      75歲有八個(gè)男朋友?凌晨在北京去世?劉曉慶身上的傳聞太離譜

      75歲有八個(gè)男朋友?凌晨在北京去世?劉曉慶身上的傳聞太離譜

      陌上桃花開(kāi)的
      2026-03-08 04:38:04
      B-52重返戰(zhàn)場(chǎng):當(dāng)美軍開(kāi)始用二戰(zhàn)式轟炸,戰(zhàn)爭(zhēng)其實(shí)已經(jīng)結(jié)束了一半

      B-52重返戰(zhàn)場(chǎng):當(dāng)美軍開(kāi)始用二戰(zhàn)式轟炸,戰(zhàn)爭(zhēng)其實(shí)已經(jīng)結(jié)束了一半

      斌聞天下
      2026-03-07 07:30:03
      2026-03-08 11:24:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12431文章數(shù) 142578關(guān)注度
      往期回顧 全部

      科技要聞

      OpenClaw最大的推手是閑魚(yú)和小紅書(shū)

      頭條要聞

      媒體:伊朗問(wèn)題要注意普京的動(dòng)向 其在向美以喊話

      頭條要聞

      媒體:伊朗問(wèn)題要注意普京的動(dòng)向 其在向美以喊話

      體育要聞

      塔圖姆298天走完這段路 只用27分鐘征服這座城

      娛樂(lè)要聞

      周迅新戀情曝光,李亞鵬等人已成過(guò)去

      財(cái)經(jīng)要聞

      油價(jià)要失控?

      汽車要聞

      華為乾崑全新激光雷達(dá)落地 鴻蒙智行同步技術(shù)升級(jí)

      態(tài)度原創(chuàng)

      藝術(shù)
      教育
      本地
      公開(kāi)課
      軍事航空

      藝術(shù)要聞

      他是二王書(shū)法的化身?米芾的秘密揭曉!

      教育要聞

      成長(zhǎng)路上的心靈迷霧:青春期女生常見(jiàn)心理

      本地新聞

      食味印象|一口入魂!康樂(lè)烤肉串起千年絲路香

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美第三個(gè)航母打擊群據(jù)稱準(zhǔn)備部署至中東

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版