<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      登上NeurIPS,Genesis開創無需OCC引導的多模態生成新范式

      0
      分享至



      由華中科技大學與小米汽車提出了業內首個無需 OCC 引導的多模態的圖像 - 點云聯合生成框架Genesis。該算法只需基于場景描述和布局(包括車道線和 3D 框),就可以生成逼真的圖像和點云視頻。



      • 論文題目:Genesis: Multimodal Driving Scene Generation with Spatio-Temporal and Cross-Modal Consistency
      • 論文鏈接:https://arxiv.org/abs/2506.07497
      • Github 鏈接:xiaomi-research/genesis

      Genesis 采用兩階段架構:第一階段基于透視圖投影的布局和場景描述等條件,利用基于 DiT 的擴散模型學習 3D 變分自編碼器編碼的環視圖特征; 第二階段將第一階段多視角視頻序列轉到鳥瞰圖的特征空間,并結合場景描述和布局等條件,學習 2D 自編碼器編碼的點云特征。

      為了以結構化語義引導生成過程,本文引入了 DataCrafter (一個基于 VLM 的數據標注模塊),可提供場景級與實例級的信息描述。在 nuScenes 基準數據集上的大量實驗表明,Genesis 在視頻與激光雷達指標上均達到了當前 SOTA 水平。



      本文的主要貢獻總結如下:

      • 統一的多模態生成架構。Genesis 采用統一的 pipeline,視頻和 LiDAR 分支都在共享相同的條件輸入,包括場景描述和布局等,這確保了生成的多模態數據的一致性。為進一步保證點云和圖像背景的信息一致性,我們將 RGB 透視圖轉到鳥瞰圖視角下的特征下,并把該特征作為條件輸入到基于點云擴散模型中,從而加強兩種模態的一致性,該過程無需依賴 occupancy 或體素等中間體。
      • 通過 DataCrafter 進行結構化語義信息提取。為了提高語義可控性,本文引入了 DataCrafter,這是一個基于視覺語言模型構建的 caption 數據處理模塊。它提取多視圖、場景級和實例級描述,這些描述融合到密集的語言引導式先驗中。這些 caption 數據為視頻和 LiDAR 生成器提供了詳細的語義指導,從而產生不僅逼真而且可解釋和可控的輸出。

      引言

      在自動駕駛技術向高階邁進的進程中,構建多樣化、高擬真度的駕駛場景數據集,已成為不可或缺的關鍵環節。合成數據因為其可編輯,易泛化的特點得到了廣泛的關注。現有研究雖在視頻生成、LiDAR 序列合成領域取得顯著進展,但如何實現視覺與幾何模態間的深度協同與一致性表達,仍屬亟待攻克的前沿課題。

      如圖 1,當前主流的駕駛場景生成方案,多聚焦于 RGB 視頻或 LiDAR 點云的單模態數據生成。這些方法雖極大推動了場景生成技術的發展,卻未能充分挖掘多模態融合的協同優勢。在處理 RGB 視頻與其他傳感器數據時,模態間的對齊精度不足,導致生成結果難以滿足實際應用需求。許多方法采用基于 BEV 地圖或 3D 框的 “布局 - 數據” 單步生成模式,這種依賴粗略空間先驗的架構,在捕捉復雜交通動態與精細語義細節時存在天然缺陷。

      盡管 UniScene 等研究嘗試引入占用網格實現多模態生成,但實際自動駕駛場景中 OCC 標簽的獲取是非常昂貴的,這嚴重限制了生成模型在工業界的應用。另外,現有多模態生成方案多依賴粗略標簽或通用標題模型提供語義標簽,未能有效利用現代視覺語言模型(VLM)的細粒度語義解析能力。這種語義標簽的缺失,直接影響生成場景的真實性、可控性,以及時空邏輯的連貫性。



      具體工作



      DataCrafter 模塊



      本文提出 DataCrafter, 一個專為多視角自動駕駛視頻設計的 Caption 數據生成模塊,旨在實現以下兩項核心功能:

      (1) 訓練階段數據篩選:借助預訓練視覺語言模型的圖像理解能力,對原始訓練片段進行評估,僅篩選高質量片段用于訓練。(2) 結構化語義提取:利用視覺語言模型對多視角視頻片段提取細粒度語義信息,為多模態生成任務提供豐富的結構化語義條件。







      評分體系涵蓋三類關鍵視覺屬性:(1) 圖像清晰度:如模糊、畸變、臟污等;(2) 結構合理性:如遮擋程度、結構混亂、場景完整性等;(3) 美學特性:如逆光、過暗過亮、曝光異常、色彩偏差等。







      視頻生成模型

      如圖 2 中 camera_branch,Genesis 的視頻生成模塊以 DiT 為骨干,引入 3D-VAE 編碼與結構化語義先驗,構建出具備時空一致性的生成架構。Camera 分支將場景布局信息與語言描述通過注意力機制深度耦合,使生成的視頻不僅具備視覺真實感,更能遵循語義邏輯。

      我們發現,目前自動駕駛場景視頻生成的疼點在于行人難以清晰地生成,為此,我們創新性地利用 YOLOv8x-Pose 檢測行人姿態并投影到各視角,以此增強動態場景的語義表達。

      具體實現上,我們首先構建包含車道段和 3D 邊界框的結構化場景布局,將其投影到各視角 2D 圖像平面形成語義控制圖,再通過 Control-DiT 模塊的交叉注意力機制在每個去噪時間步融入這些結構化先驗,實現對生成過程的引導。

      在隱空間編碼方面,借助 3D VAE 將多幀 BEV 圖壓縮為隱空間表示,解碼器從去噪詞元中重建 BEV 語義。訓練目標函數為:







      最后,模塊集成的語義對齊控制 Transformer 通過控制注意力將語義特征注入擴散塊早期階段,并結合空間自注意力、跨視角注意力和時間注意力機制,全面保障多視角視頻生成的時空連貫性與語義保真度。



      激光雷達生成模型

      如圖 2 中 lidar_branch,激光雷達生成模塊致力于生成幾何精確且時空連貫的點云序列,通過點云自動編碼器與時空擴散模塊的協同設計,結合跨模態語義條件實現多傳感器數據的一致性生成。

      如圖 4,首先,點云自動編碼器將稀疏點云體素化為 BEV 網格,利用 Swin Transformer 骨干網絡壓縮為隱空間特征,再通過 Swin 解碼器與 NeRF 渲染模塊重建點云,過程中采用空間跳躍算法減少空網格誤差,并通過深度 L1 損失、占用損失和表面正則化損失優化訓練,同時引入后處理過濾噪聲點。

      時空擴散模塊以自動編碼器的隱空間特征為基礎,采用雙 DiT 網絡結合 ControlNet 架構,集成場景描述、道路圖等語義條件,以及 3D 邊界框幾何條件;為保證跨模態一致,通過 LSS 算法將視頻分支的 RGB 圖像轉為 BEV 特征,與道路圖特征拼接后輸入 ControlNet。擴散過程中,隱空間詞元通過交叉注意力融合語義與幾何嵌入,交叉注意力操作的公式為:





      實驗結果

      視頻生成結果







      在無首幀條件設定下,本文的方法實現了 83.10 的多幀 FVD 和 14.90 的多幀 FID,優于 DriveDreamer-2 等先前的工作。在有首幀條件設定下,本文的方法進一步提升至 16.95 的 FVD 和 4.24 的 FID,與 MiLA 相比展現出具有競爭力的結果,同時保持了時間一致性和結構保真度。在有噪聲隱空間設定下,在 6019 個樣本上實現了 67.87 的 FVD 和 6.45 的 FID,超過了 UniScene 報告的先前最佳結果。

      LiDAR 生成結果



      表 2 展現了先前最先進的方法與本文提出的 Genesis 框架在激光雷達序列生成性能方面的定量比較。評估標準遵循 HERMES 的設定進行,在水平面 [?51.2, 51.2] 米以及高度 [?3, 5] 米的空間范圍內,使用 Chamfer distance 作為主要指標。在短期和長期預測方面,Genesis 始終優于現有方法。在預測時長為 1 秒時,它的 Chamfer distance 達到 0.611,比之前的最佳值(HERMES 的 0.78)高出 21%。在預測時長為 3 秒時,優勢擴大到相對減少 45%(從 1.17 降至 0.633)。

      下游任務實驗



      本文的方法在多個下游感知任務上評估了生成數據的效用。如表 5 所示,本文的方法在 BEVFormer 3D 目標檢測中取得了最佳的平均交并比(38.01)和平均精度均值(27.90)。如表 6 所示,本文評估了生成數據在 BEVFusion 3D 目標檢測框架上的有效性。在所有設置中,本文的方法都取得了一致的改進,mAP 從 66.87 提高到 67.78,NDS 從 69.65 提高到 71.13。攝像頭和激光雷達模態的聯合生成實現了的最高增益(+0.91 mAP / +1.48 NDS),證明了多模態生成的互補優勢。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      或高開低走?預售22.99萬起,新一代小米SU7上市日期定檔

      或高開低走?預售22.99萬起,新一代小米SU7上市日期定檔

      車矩陣更懂車
      2026-01-25 23:33:44
      國足0-4慘敗原因:安東尼奧分析,日本主帥言論更扎心

      國足0-4慘敗原因:安東尼奧分析,日本主帥言論更扎心

      照亮你的前行之路
      2026-01-25 19:34:26
      菲律賓在黃巖島劃禁飛區第2天遭飛來橫禍,中國的做法令其羞愧

      菲律賓在黃巖島劃禁飛區第2天遭飛來橫禍,中國的做法令其羞愧

      策前論
      2026-01-25 20:04:50
      毛主席的稿費到底有多少?2013年“管家”吳連登道出不為人知真相

      毛主席的稿費到底有多少?2013年“管家”吳連登道出不為人知真相

      浩舞默畫
      2026-01-25 07:20:03
      A股:周六上午傳來4個核彈級利空!下周很可能會迎史詩級別大調整?

      A股:周六上午傳來4個核彈級利空!下周很可能會迎史詩級別大調整?

      股市皆大事
      2026-01-25 09:05:05
      嫁大17歲資本巨鱷,40歲在云南秀恩愛的童瑤,早已讓張默高攀不起

      嫁大17歲資本巨鱷,40歲在云南秀恩愛的童瑤,早已讓張默高攀不起

      洲洲影視娛評
      2026-01-23 16:44:19
      雪豹咬傷后續!女游客很漂亮,已經毀容,知情人曝內幕,被咬不冤

      雪豹咬傷后續!女游客很漂亮,已經毀容,知情人曝內幕,被咬不冤

      椰青美食分享
      2026-01-25 13:58:06
      隨著上海82-85惜敗浙江,縱觀全場,這三人必須要為輸球負全責!

      隨著上海82-85惜敗浙江,縱觀全場,這三人必須要為輸球負全責!

      田先生籃球
      2026-01-25 23:15:14
      小雷:利物浦花了7分鐘才換下戈麥斯,這太業余了

      小雷:利物浦花了7分鐘才換下戈麥斯,這太業余了

      懂球帝
      2026-01-25 17:24:06
      安徽小伙在小國家創業,“享受”一夫多妻、開放生活的他如今怎樣

      安徽小伙在小國家創業,“享受”一夫多妻、開放生活的他如今怎樣

      牛牛叨史
      2026-01-06 12:59:43
      退休夫婦花10萬“郵輪養老”:船上住15年,包吃包打掃,環游世界4圈,比房租便宜得多!

      退休夫婦花10萬“郵輪養老”:船上住15年,包吃包打掃,環游世界4圈,比房租便宜得多!

      背包旅行
      2026-01-23 10:33:42
      當年舉報畢福劍的張清,落得何種結局?

      當年舉報畢福劍的張清,落得何種結局?

      深度報
      2026-01-22 23:29:58
      廣東男籃內線迎轉機?曝大中鋒或窗口期加盟,杜鋒沖冠迎最后拼圖

      廣東男籃內線迎轉機?曝大中鋒或窗口期加盟,杜鋒沖冠迎最后拼圖

      中山印象體育攝影師
      2026-01-25 17:59:45
      他是潛藏在軍隊里的大間諜,給國家造成永久損失,被注射死刑嚴懲

      他是潛藏在軍隊里的大間諜,給國家造成永久損失,被注射死刑嚴懲

      近史談
      2025-10-23 20:24:33
      人不是高達,拆了長不出來

      人不是高達,拆了長不出來

      平原公子
      2026-01-23 19:27:46
      CBA排名變天!山東力擒廣廈,北京上海輸球,遼寧連敗淪為弱旅

      CBA排名變天!山東力擒廣廈,北京上海輸球,遼寧連敗淪為弱旅

      中國籃壇快訊
      2026-01-26 00:03:09
      美軍“林肯”號航母打擊群已抵達印度洋,F-15E戰斗機、C-17運輸機正在集結!以色列也正伺機攻擊;伊朗軍方稱已做好迎戰敵人準備

      美軍“林肯”號航母打擊群已抵達印度洋,F-15E戰斗機、C-17運輸機正在集結!以色列也正伺機攻擊;伊朗軍方稱已做好迎戰敵人準備

      每日經濟新聞
      2026-01-25 10:18:46
      24歲單依純現身廣東機場,大厚嘴唇搶盡風頭,自帶大圓臉顯高級感

      24歲單依純現身廣東機場,大厚嘴唇搶盡風頭,自帶大圓臉顯高級感

      小徐講八卦
      2026-01-25 07:30:13
      袁家軍、胡衡華,共同為重慶兩江新區行政區揭牌

      袁家軍、胡衡華,共同為重慶兩江新區行政區揭牌

      新京報政事兒
      2026-01-25 12:56:14
      董潔在雪地直播賣羊絨大衣 全程沒吼沒催 只輕聲講設計 兩小時賣8億

      董潔在雪地直播賣羊絨大衣 全程沒吼沒催 只輕聲講設計 兩小時賣8億

      草莓解說體育
      2026-01-24 00:00:28
      2026-01-26 01:08:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12179文章數 142549關注度
      往期回顧 全部

      科技要聞

      黃仁勛在上海逛菜市場,可能惦記著三件事

      頭條要聞

      男孩打碎電視屏為"還債"在小區創業 不到2個月賺了6千

      頭條要聞

      男孩打碎電視屏為"還債"在小區創業 不到2個月賺了6千

      體育要聞

      中國足球不會一夜變強,但他們已經創造歷史

      娛樂要聞

      央八開播 楊紫胡歌主演的40集大劇來了

      財經要聞

      隋廣義等80人被公訴 千億騙局進入末路

      汽車要聞

      別克至境E7內飾圖曝光 新車將于一季度正式發布

      態度原創

      房產
      家居
      教育
      游戲
      時尚

      房產要聞

      正式官宣!三亞又一所名校要來了!

      家居要聞

      在家度假 160平南洋混搭宅

      教育要聞

      留學生的父母,有些話一直沒說!

      LCK春季賽:道心沒有破碎,KT找回狀態,三局戰勝BRO

      看了魯豫對章小蕙的采訪,最大感觸是這一點

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 另类天堂天堂av| 常宁市| 少妇伦子伦精品无吗| 制服中文字幕在线| AV天堂中文字幕| 日本夜爽爽一区二区三区| 精品视频在线观看免费无码| 中文字幕av无码不卡| 少妇xxxxx性开放| 欧美一区二区三区久久综合| 巍山| 国产96在线 | 亚洲| 熟女精品| 无码中文字幕网| 少妇人妻偷人精品免费| 婷婷色一区二区三区| 亚洲一区在线成人av| 97精品官网国产户外| 亚洲精品中文字幕二区| 日韩高清日韩一区二区三区四区| 亚洲AV无码国产永久播放蜜芽| 黄色污网站在线观看| 污污污www精品国产网站| 精品国偷自产在线视频99| 一 级做人爱全视频在线看| 柘城县| 丰满爆乳一区二区三区| 亚洲xxxxxx| av午夜久久蜜桃传媒软件| 亚洲av伊人久久青青草原| 成人大香蕉| 国产精品性爱| 成人性生交片无码免费看| 成人特黄特色毛片免费看 | 18禁黄无遮挡网站免费| 香蕉视频在线观看黄| 亚洲一区二区三区在线| 午夜成人精品福利网站在线观看| 亚洲国产成人字幕久久| 亚洲亚洲网站三级片在线| 国产做a爱免费视频在线观看|