<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      上交大提出LatentUM:UnifiedModel真正戰場在視覺推理與世界模型

      0
      分享至



      本文作者團隊來自上海交通大學 DENG Lab 與清華大學、加州大學圣地亞哥分校(UCSD)。該研究由博士生金佳純、準博士生周澤同共同完成,指導教師為鄧志杰、朱軍、劉鵬飛、張昊、楊嘯老師。DENG Lab 隸屬上海交通大學,致力于高效、跨模態生成模型的研究。

      過去一段時間,生成理解統一模型(Unified Model)經常被理解成一種「既能看懂圖、又能生成圖」的多模態通用系統。

      但如果統一模型的價值只停留在「會看會畫」,那它和把 VLM、T2I 簡單拼在一起并沒有本質區別。真正更值得追問的問題是:模型能不能把自己生成出的視覺內容直接納入推理閉環,讓圖像不只是輸出結果,而是推理、規劃乃至世界建模過程中的中間思維狀態?

      近期,上海交通大學 DENG Lab 提出的 LatentUM嘗試去回答上述問題。

      從結果上看,這條路線確實帶來了實際性能收益:LatentUM 在 GenEval 上最高達到 0.92,在 Visual Spatial Planning 任務上準確率最高達到 0.99,在導航世界模型任務上,LatentUM 在 NWM 評測上取得 ATE 1.34、RPE 0.34,超過近期 Transfusion-RAE 等統一世界模型基線。

      這說明,共享語義 latent space 并不只是一個更「統一」的建模方案,它確實有機會把視覺生成變成推理與建模過程中的有效中間變量。



      • 論文地址:https://arxiv.org/pdf/2604.02097
      • 代碼地址:https://github.com/SJTU-DENG-Lab/LatentUM
      • 模型倉庫:https://huggingface.co/collections/SJTU-DENG-Lab/latentum

      重新思考 Unified Model 的價值與存在的問題

      現有多數生成理解統一模型 (Unified Model) 的目標,仍然停留在打造一個「能看又能畫」的多模態六邊形戰士,但它們往往在理解和生成兩端都不及最好的 specific model。

      LatentUM 想推動大家重新思考這個方向的目標函數:Unified Model 的真正潛力,并不只是把視覺理解和視覺生成裝進同一個框架里,而是在模態交錯生成中把生成出的視覺內容真正納入 reasoning loop,形成 cross-modal chain-of-thought,進一步服務于復雜視覺推理、規劃乃至世界建模。

      換句話說,Unified Model 最值得做的事,是讓模型在推理過程中真的把圖像當作中間思維載體來使用,而不是把「會看會畫」本身當作終點。



      圖 1:LatentUM 在帶有自我反思的文生圖任務、視覺空間規劃任務、世界建模任務上都超越了基線模型。

      基于這一觀察,LatentUM 給出的核心思路是:不再讓視覺生成服務于像素空間,而是讓模型直接生成與語言共享語義空間的離散 visual semantic tokens。這樣一來,模型生成出來的視覺內容,就可以被模型自己直接讀取、繼續推理,而不必再經過「像素中轉」。

      換句話說,LatentUM 想實現的,不是一個簡單把理解和生成拼在一起的 Unified Model,而是一個真正基于 shared semantic latent space 運作的 latent-space unified model。

      當前大部分 Unified Model 通常把理解和生成建立在兩套不同的視覺表示上:理解側使用與語言對齊的語義特征,生成側使用面向像素重建的 VAE 特征。結果就是,模型一旦想基于自己生成的圖繼續思考,就不得不先把生成特征解碼成像素,再重新編碼回理解特征。這個過程不僅低效,也會引入額外的 codec bias,造成跨模態錯位,限制圖文交錯推理能力。

      也正因為如此,很多現有統一模型雖然「既能看又能畫」,但在真正需要視覺中間態參與推理的任務上,并沒有把 unified 的優勢發揮出來。

      LatentUM 的模型設計



      圖 2:LatentUM 架構的三個關鍵設計。

      圍繞這一目標,LatentUM 主要包含三個關鍵設計。

      首先是 Model Behavior Aligned Quantization(MBAQ)。由于連續語義特征維度高,難以直接進行生成建模。LatentUM 選擇先將其量化為可自回歸預測的離散 visual semantic tokens。傳統視覺離散化方法通常追求還原像素或原始特征,但對 Unified Model 來說,更關鍵的是量化后的 token 能否繼續支撐視覺理解與語言推理。

      因此,MBAQ 不是優化重建誤差,而是讓量化后的視覺特征盡可能保留原始視覺特征所對應的 VLM 的理解行為。

      這意味著量化器會優先保留那些真正影響視覺理解結果的語義信息,主動舍棄對預測貢獻有限的低層像素細節。相比關注特征還原,MBAQ 更關注量化后的 token 是否仍然能夠支持原有的視覺問答與語言推理能力。

      這對于 Unified Model 尤其關鍵,因為只有當生成出的 visual token 仍然能夠被模型自己穩定理解時,它們才能真正作為中間思維狀態參與后續的跨模態推理。

      第二是 Mixture-of-Modal Experts(MoME)。統一建模并不意味著所有模態都必須完全走同一套參數路徑。為降低視覺理解與視覺生成之間的訓練干擾,LatentUM 將理解和生成分成兩條并行分支,它們共享 self-attention,但在其余部分適度解耦。

      這樣既保留圖文之間的信息流動,也減少了不同目標之間的負遷移。雖然生成理解兩套參數解耦,但模型生成的視覺 token 可以重新被理解分支直接讀取并緩存進上下文,從而繼續參與后續推理。

      第三是 Decoupled Pixel Decoder。雖然 LatentUM 的離散語義特征不再圍繞像素重建來訓練,但作者們發現離散語義特征中仍然保有大部分的像素信息,可以通過一個獨立的 diffusion decoder 將其恢復成像素。

      這樣一來,像素空間在 LatentUM 中不再是內部推理的必經橋梁,而只是一個按需調用的可視化接口,從而避免模型為了像素保真而犧牲統一語義空間本身的表達能力。

      實驗結果

      基于上述設計,論文實現了 LatentUM-Base。模型以 InternVL3.5-4B 為初始化底座,直接繼承其成熟的視覺理解能力,并在圖文數據上進行訓練來補足視覺生成分支,總訓練成本大約是 6000 GPU hours。

      實驗結果首先驗證了這種 shared semantic latent space 不會顯著損害視覺理解能力。論文在多項理解基準上評估 LatentUM-Base,發現當輸入圖像被量化成離散語義 token 后,視覺理解的能力依舊在線。

      這說明MBAQ 學到的 token 并不是簡單壓縮結果,而是真的保留了足夠支撐視覺理解的語義結構。



      圖 3:LatentUM-Base 的視覺理解能力與基線方法的對比。

      在視覺生成方面,得益于視覺 token 的語義對齊,LatentUM-Base 同樣展現出了很強的 instruction-following 能力。在 GenEval 上,LatentUM-Base 達到 0.85,已經超過大多數已有 Unified Model,而且這一結果是在相對有限的數據規模下取得的。

      這說明共享語義空間讓模型更容易把文本條件中的語義約束真正落實到視覺 token 上。



      圖 4:LatentUM-Base 的文生圖樣例展示。

      除了基本的 text-to-image generation,LatentUM 還能利用自己的理解能力反過來提升生成。

      論文在 post-training 階段探索了 generate-then-reflect 的范式:先生成,再讓模型基于自己的理解分支對結果做「自檢」,并通過強化學習進一步優化。僅基于自我理解 reward,LatentUM-Vis-Gen 在 GenEval 上從 0.85 提升到 0.87;如果進一步使用外部 pixel-level reward,最終可以達到 0.92,在統一模型中取得新的最好結果。

      在更強調語義判斷穩健性的 GenEval2 上,LatentUM 也顯著領先已有 Unified Model。



      圖 5:LatentUM 在 GenEval bench 上超越了 Unified Model 的基線。

      為了驗證共享語義 latent space 是否真的能支撐復雜的圖文交錯推理,論文進一步在 Visual Spatial Planning 任務上做了系統評測。

      這個任務要求模型在迷宮環境中進行規劃,不僅要讀懂當前視覺狀態,還要在推理過程中基于采取的 action 持續更新下一個未來狀態。

      結果上,LatentUM-Vis-Plan 在粗粒度中間狀態的設定下平均準確率達到 0.85,在細粒度中間狀態的逐步交錯推理的設定下達到 0.99,顯著超過 ThinkMorph 等需要經過像素空間中轉的方法。

      這說明,如果視覺內容本身就處在統一語義空間里,那么「邊想邊看、邊看邊想」并不是概念展示,而是可以帶來性能增益的實際能力。



      LatentUM 在 VSP 任務上的 demo。



      圖 6:LatentUM 在 Visual Spatial Planning bench 上大幅超越了各類跨模態推理基線。

      最后,論文還進一步探索了 LatentUM 在 world modeling 中的潛力。

      在導航世界模型設定下,LatentUM-WM 在 NWM 評測上取得 ATE 1.34、RPE 0.34,超過了近期 Transfusion-RAE 這類統一世界模型基線。

      這說明shared semantic latent space 也許不僅是連接理解和生成的一種方法,也可能是連接推理與世界建模的一條自然路徑。



      LatentUM 在 navigation world modeling 任務上的 demo。

      從更大的角度看,LatentUM 想推動大家重新思考 Unified Model 的目標。它不應該只是把「看」和「畫」放進同一個模型里,而應該成為一個能夠在共享語義空間中進行交錯生成、反思、規劃與預測的通用多模態系統。

      對 Unified Model 來說,真正重要的,也許從來不是「既會看又會畫」,而是能不能在共享語義空間中用各種模態持續地生成、推理。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      比亞迪緊急回應

      比亞迪緊急回應

      中國基金報
      2026-04-14 10:15:25
      “真的投不下去了”,數十萬臺冰柜正在消失!2026年,冰柜怎么從銷量利器淪為費用黑洞了?

      “真的投不下去了”,數十萬臺冰柜正在消失!2026年,冰柜怎么從銷量利器淪為費用黑洞了?

      食品內參
      2026-04-13 10:39:07
      遲重瑞說,現在她走了,我74歲,一個人守著這偌大的家和博物館

      遲重瑞說,現在她走了,我74歲,一個人守著這偌大的家和博物館

      白淺娛樂聊
      2026-04-13 20:40:44
      雷軍曬小米員工運動會,被吐槽:“周末辦活動,占用休息時間”

      雷軍曬小米員工運動會,被吐槽:“周末辦活動,占用休息時間”

      歪歌社團
      2026-04-12 01:34:22
      最差局面出現,伊朗最想要的中國給了?不到24小時,美國喊話中國

      最差局面出現,伊朗最想要的中國給了?不到24小時,美國喊話中國

      流史歲月
      2026-04-13 15:00:08
      徹底談崩!特朗普對華施壓,禁止中伊簽協議,話音剛落中國鄰國出兵

      徹底談崩!特朗普對華施壓,禁止中伊簽協議,話音剛落中國鄰國出兵

      說歷史的老牢
      2026-04-13 10:09:42
      中國跳水隊公布世界杯總決賽名單:陳芋汐、陳藝文在列

      中國跳水隊公布世界杯總決賽名單:陳芋汐、陳藝文在列

      懂球帝
      2026-04-13 22:48:15
      鄭麗文談日本殖民、高市早苗謊言被戳穿!留給賴清德的時間不多了

      鄭麗文談日本殖民、高市早苗謊言被戳穿!留給賴清德的時間不多了

      野史日記
      2026-04-13 10:50:11
      醫生告誡:每天睡前玩手機的人,不用半年時間,睡眠或有這6變化

      醫生告誡:每天睡前玩手機的人,不用半年時間,睡眠或有這6變化

      白話電影院
      2026-04-05 15:34:47
      抵達上海,張繼科上任,體育局邀請,新崗位曝光,樊振東期待

      抵達上海,張繼科上任,體育局邀請,新崗位曝光,樊振東期待

      東球貓貓
      2026-04-14 10:14:02
      北約和多個國家支持美國封鎖霍爾木茲海峽

      北約和多個國家支持美國封鎖霍爾木茲海峽

      一種觀點
      2026-04-13 15:34:58
      退休新規:1980年后生的人面臨雙重壓力。

      退休新規:1980年后生的人面臨雙重壓力。

      歲月有情1314
      2026-04-08 08:02:19
      伊朗請求世界杯三場小組賽場地從美國更改為墨西哥,被FIFA拒絕;伊朗若無緣世界杯,誰會成為遞補?

      伊朗請求世界杯三場小組賽場地從美國更改為墨西哥,被FIFA拒絕;伊朗若無緣世界杯,誰會成為遞補?

      極目新聞
      2026-04-13 13:50:22
      文強死了以后,他家里人日子過得怎么樣?

      文強死了以后,他家里人日子過得怎么樣?

      鑒史錄
      2026-04-13 15:27:52
      美國后院起火,加拿大又掏出殺招,30國或跟進,北約要名存實亡?

      美國后院起火,加拿大又掏出殺招,30國或跟進,北約要名存實亡?

      軍機Talk
      2026-04-13 16:29:09
      反向預言!12年前索尼驚人廣告被挖出:從此不需要手機

      反向預言!12年前索尼驚人廣告被挖出:從此不需要手機

      游民星空
      2026-04-13 13:07:09
      伊朗繳獲美軍先進激光武器,美擔心:如果中俄拿到,恐遭破解!

      伊朗繳獲美軍先進激光武器,美擔心:如果中俄拿到,恐遭破解!

      阿龍聊軍事
      2026-04-13 16:42:45
      陪玩陪睡僅冰山一角,繼迪麗熱巴事件后,圈內人再揭內娛陰暗面

      陪玩陪睡僅冰山一角,繼迪麗熱巴事件后,圈內人再揭內娛陰暗面

      林輕吟
      2026-04-13 17:04:53
      湘南民宅翻修驚現毛主席80年前舊照,專家鑒定彌足珍貴可補史遺缺

      湘南民宅翻修驚現毛主席80年前舊照,專家鑒定彌足珍貴可補史遺缺

      云霄紀史觀
      2026-04-14 02:08:48
      老詹雙喜臨門!東契奇即將歸隊,里夫斯加速復出,火箭別小看湖人

      老詹雙喜臨門!東契奇即將歸隊,里夫斯加速復出,火箭別小看湖人

      世界體育圈
      2026-04-14 11:51:28
      2026-04-14 12:24:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12755文章數 142627關注度
      往期回顧 全部

      科技要聞

      離職同事"煉化"成AI?這屆公司不需要活人了

      頭條要聞

      24歲準新娘診所輸液昏迷近3個月未醒 涉事診所變超市

      頭條要聞

      24歲準新娘診所輸液昏迷近3個月未醒 涉事診所變超市

      體育要聞

      他做對了所有事,卻被整個職業網壇放逐了八年

      娛樂要聞

      宋祖兒劉宇寧戀情大反轉 正主火速辟謠

      財經要聞

      伊朗要求五個中東國家賠償戰爭損失

      汽車要聞

      長城歐拉5限定版純電版上市 限量99臺售價13.38萬元

      態度原創

      手機
      房產
      時尚
      旅游
      公開課

      手機要聞

      遠近都有戲:華為Pura 90 Pro Max手機搭載超大底2億長焦

      房產要聞

      改善標桿,1.5w+起橫掃國興!海口樓市,打出最猛一張牌!

      今年科切拉的風吹向了誰?

      旅游要聞

      東環公園:3000余株牡丹花開傾城

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版