猿力部落——汽車人的技術社區(qū)
據(jù)EurekAlert! AAAS報道,自動駕駛技術發(fā)展迅猛,已從基于規(guī)則的系統(tǒng)過渡到深度神經(jīng)網(wǎng)絡。然而,端到端模型仍面臨諸多缺陷:它們往往缺乏世界知識,難以應對罕見或模糊的場景,并且對其決策過程的洞察也十分有限。相比之下,大型語言模型(LLM)在推理、情境理解和解讀復雜指令方面表現(xiàn)出色。然而,LLM的輸出是語言性的而非可執(zhí)行的,這使得它們難以與實際車輛控制系統(tǒng)集成。這些差距凸顯了構建框架的必要性,該框架應將多模態(tài)感知與基于成熟駕駛邏輯的結構化、可操作的決策輸出相結合。應對這些挑戰(zhàn)需要對如何將多模態(tài)推理與自動駕駛規(guī)劃器相融合進行更深入的研究。
上海交通大學、上海人工智能實驗室、清華大學及合作機構的研究團隊開發(fā)了DriveMLM,這是一個用于閉環(huán)自動駕駛的多模態(tài)大型語言模型框架。該研究成果發(fā)表在《視覺智能》(Visual Intelligence)期刊上。DriveMLM整合了多視角攝像頭圖像、激光雷達點云、系統(tǒng)消息和用戶指令,生成對齊的行為規(guī)劃狀態(tài)。這些狀態(tài)可以直接接入現(xiàn)有的運動規(guī)劃模塊,從而實現(xiàn)實時駕駛控制,并為每個決策生成自然語言解釋。
DriveMLM解決了基于LLM的駕駛中的一個核心挑戰(zhàn):將語言推理轉化為可靠的控制行為。該框架將LLM的輸出與模塊化系統(tǒng)(例如Apollo)中使用的行為規(guī)劃狀態(tài)相匹配,涵蓋速度決策(保持、加速、減速、停止)和路徑?jīng)Q策(跟隨、左轉、右轉等)。
![]()
一種專門的多模態(tài)分詞器將多視角時序圖像、激光雷達數(shù)據(jù)、交通規(guī)則和用戶指令處理成統(tǒng)一的詞嵌入。然后,多模態(tài)邏輯學習模型預測合適的決策狀態(tài)并生成相應的解釋,從而確保可解釋性。
為了支持訓練,團隊創(chuàng)建了一個大規(guī)模數(shù)據(jù)引擎,該引擎在八張CARLA地圖和30個具有挑戰(zhàn)性的場景(包括罕見的安全關鍵事件)上生成了280小時的駕駛數(shù)據(jù)。該流程會自動標注速度和路徑?jīng)Q策,并結合人工修正和基于GPT的數(shù)據(jù)增強,生成豐富的解釋性標注。
在CARLA Town05 Long基準測試的閉環(huán)評估中,DriveMLM的駕駛得分達到76.1分,比Apollo基線系統(tǒng)高出4.7分,并且在所有對比系統(tǒng)中實現(xiàn)了最高的每次干預里程數(shù)(0.96英里)。DriveMLM還展現(xiàn)出強大的開環(huán)決策準確性、更高的解釋質量以及在自然語言指導下的穩(wěn)健性能——例如,在不同的交通狀況下,能夠避讓緊急車輛或理解“超車”等用戶指令。
研究團隊指出:“我們的研究表明,LLM一旦與結構化決策狀態(tài)相匹配,就能成為自動駕駛車輛強大的行為規(guī)劃器。DriveMLM超越了簡單的規(guī)則遵循。它能夠理解復雜的場景,推理運動規(guī)律,并用自然語言解釋其決策——這些能力對于安全性和公眾信任至關重要。DriveMLM將感知、規(guī)劃和人工指令整合到一個統(tǒng)一的框架中,為下一代自動駕駛系統(tǒng)提供了一個充滿希望的發(fā)展方向。”
DriveMLM展示了多模態(tài)邏輯邏輯模型如何提升自動駕駛的透明度、靈活性和安全性。其即插即用設計使其能夠無縫集成到Apollo或Autopilot等現(xiàn)有系統(tǒng)中,無需進行重大架構變更即可改進決策。解讀自然語言指令的能力拓展了交互式駕駛輔助和個性化車載AI副駕駛的可能性。更廣泛地說,DriveMLM為構建能夠理解復雜環(huán)境、預測風險并為其行為提供合理依據(jù)的推理驅動型自動駕駛系統(tǒng)指明了方向——這些都是在實際交通網(wǎng)絡中部署可信賴AI的關鍵能力。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.