<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      全圖與切片并非等價?LLaVA-UHD-v3揭示差異推出高效全圖建模方案

      0
      分享至



      隨著多模態大模型(MLLMs)在各類視覺語言任務中展現出強大的理解與交互能力,如何高效地處理原生高分辨率圖像以捕捉精細的視覺信息,已成為提升模型性能的關鍵方向。

      然而,主流的視覺編碼范式往往難以兼顧性能與效率:基于切片的編碼方法雖能降低計算開銷,卻犧牲了全局上下文感知能力;而全局原生分辨率編碼在提升整體性能的同時,又帶來了巨大的計算負擔。同時,現有的視覺壓縮策略與特征提取過程相對獨立,難以在編碼早期有效控制信息冗余,缺乏一個兼顧細粒度建模與計算效率的統一架構。

      針對如何在高清原生分辨率下,保持圖像全局理解能力的同時,還能快速推理這一核心問題,來自清華大學、中科院的研究團隊正式發布LLaVA-UHD v3!



      • 論文標題:LLAVA-UHD V3: PROGRESSIVE VISUAL COMPRESSION FOR EFFICIENT NATIVE-RESOLUTION ENCODING IN MLLMS
      • 論文鏈接:https://arxiv.org/abs/2511.21150
      • 代碼鏈接:https://github.com/thunlp/LLaVA-UHD
      • huggingface 鏈接:https://huggingface.co/Sishxo/LLaVA-UHD-v3

      LLaVA-UHD-v3 提出了全新的漸進式視覺壓縮框架 ——Progressive Visual Compression(PVC),由Refined Patch Embedding(RPE)與Windowed Token Compression(WTC)兩個核心組件構成。該框架在保持全局語義一致性的前提下,顯著減少視覺 Token 數量,從根本上提升原生高分辨率視覺編碼的效率。依托 PVC,LLaVA-UHD-v3 在性能上可與 Qwen2-VL 相媲美,同時實現1.9× 的 TTFT 加速,完整訓練僅需32 張 A100、約 300 小時即可完成。



      切片編碼 vs 全圖編碼深入分析

      為了公平對比兩種主流視覺編碼方式 —— 基于切片的編碼 (Slice-based Encoding, SBE) 與 全局原生分辨率編碼 (Global Native-Resolution Encoding, GNE) —— 團隊使用相同模型架構 + 相同訓練數據 + 相同評估 protocol。在此基礎上,既在通用多模態 benchmark 上測試,也專門構建了一個合成數據集 ShapeGrid 用于空間感知 / 定位能力分析。

      在 ShapeGrid (及其 “Sudoku-style” 子集) 上,GNE 相比 SBE 在空間感知 / 定位任務上的表現有明顯優勢:空間感知能力平均提升約11.0%。

      同時,在通用視覺 - 語言理解任務中,GNE 在語義理解表現上也略優于 SBE(平均提升約2.1%)。

      更重要的是,通過對比注意力熱圖、激活分布 (attention maps),研究發現 SBE 在空間定位任務中表現出系統性的方向、結構偏差 (例如水平、垂直方向不均衡) —— 也就是說 SBE 的切片機制破壞了圖像的空間連續性 (spatial continuity 、geometry),從而削弱了空間理解、定位的可靠性。

      因此,該對比實驗清晰地表明:盡管 SBE 在效率上有優勢,但從語義 + 空間 + 幾何一致性 (global context + spatial reasoning) 的角度,GNE 明顯更適合需要空間感知、高分辨率理解與推理的任務。



      全圖編碼的高效解決方案

      全局原生分辨率編碼帶來了較高的計算成本,這凸顯了迫切需要一種原生且高效的視覺編碼范式。因此,團隊提出了 LLaVA-UHD v3,一種配備了漸進式視覺壓縮(PVC)方法的多模態大模型(MLLM),用于高效的原生分辨率編碼。

      PVC 架構由兩個核心模塊組成:

      • 精細化 Patch 嵌入 (Refined Patch Embedding, RPE):通過將圖像劃分為更小尺寸的 patch,并用偽逆 (pseudo-inverse) 方法將預訓練模型原有 embedding 權重轉換為新的、更細粒度的 embedding。這樣,原本粗粒度 patch 的語義信息被近似保留,但實現了更豐富的視覺語義提取建模。
      • 窗口化 Token 壓縮 (Windowed Token Compression, WTC):在 ViT 的中間層,將空間上相鄰的多個 token(例如 2×2 區域)聚合為一個新 token,初期以均勻平均池化 (average pooling) 起步,并通過一個輕量級、零初始化的 MLP 模型學習內容自適應的池化權重,從而逐漸學會對更重要區域賦予更高權重。這樣,隨著網絡深度的推進,token 數量被大幅壓縮,而關鍵語義信息得以保留。

      這種 “先細粒度建模 + 再漸進壓縮” 的設計,使得 PVC 在兼顧全局語義 + 局部細節的同時,大幅降低計算量。



      實驗驗證:PVC 在推理效率提升的同時保留模型能力

      效率方面,在統一的 LLM(Qwen2-7B)框架下,本文提出的 ViT-UHD 編碼器相比 MoonViT 實現了2.4× 加速,相比 Qwen2.5-ViT 也快 1.9×。將其整合到完整的 MLLM 中后,LLaVA-UHD v3 的 TTFT 相較強大的 Qwen2-VL降低 49%(約快 1.9×),甚至比以高效著稱的切片編碼模型 MiniCPM-V2.6 仍然快約 10%。

      在性能方面,LLaVA-UHD v3 僅使用約 2000 萬對圖文數據完成訓練,遠低于 Qwen2-VL(約 7 億)和 MiniCPM-V-2.6(約 4.6 億)等商業模型的訓練規模。然而,其在多項視覺語言基準中依舊展現出高度競爭力。同時,它實現了64× 的視覺 Token 壓縮率,遠超對手(Qwen2-VL 約為 4×,MiniCPM-V2.6 為 16×),但在需要細粒度視覺信息的任務上 —— 包括 HallusionBench(幻覺檢測)、CV-Bench(空間推理)以及 OCR&Chart(文字與圖表識別)—— 依然取得了與 SOTA 模型相當甚至更優的表現。

      這些結果充分驗證了 PVC 框架的核心價值:在大幅減少視覺 Token 和推理開銷的同時,仍能穩健保留關鍵的細節感知與全局理解能力,實現真正意義上的 “高效而不降級”。





      展望

      基于對全圖編碼與切片編碼優劣的深入分析,LLaVA-UHD v3 提出了結合兩者優勢的漸進式視覺壓縮全圖編碼方案,在保證模型能力的前提下實現了顯著的推理效率提升,并展現出良好的遷移與泛化能力,為 MLLM 的高精度原生分辨率建模提供了可行路徑。

      不過,實驗分析表明,缺失了預對齊階段的 ViT-UHD 性能不佳,這表明引入 PVC 后的視覺編碼器能力仍未達到上限:僅靠當前 MLLM 的標準訓練流程,很難完全挖掘 ViT 的視覺表征潛力,其學習尚未飽和。此外,隨著 Token 數量增大,Transformer 的二次復雜度仍然會帶來成本瓶頸。

      未來,仍需要探索更適合多模態任務的視覺編碼預訓練策略,并逐步引入線性復雜度算子替代傳統的二次復雜度注意力機制,從而實現真正可擴展的高效多模態建模。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      WTT總決賽8強產生,國乒勝日本隊出局,12月12日賽程揭曉

      WTT總決賽8強產生,國乒勝日本隊出局,12月12日賽程揭曉

      老糿尾聲體育解說
      2025-12-12 08:29:59
      張韶涵的渣女站姿火了!腿縫幾乎沒有間距,看得人眼睛都直了

      張韶涵的渣女站姿火了!腿縫幾乎沒有間距,看得人眼睛都直了

      TVB的四小花
      2025-12-03 14:33:08
      邱淑貞和昆凌坐一起看張學友演唱會,邱淑貞扎高馬尾比昆凌漂亮!

      邱淑貞和昆凌坐一起看張學友演唱會,邱淑貞扎高馬尾比昆凌漂亮!

      小咪侃娛圈
      2025-12-12 09:36:34
      鄰居填了我爸挖的魚塘蓋別墅,我在上游種了菖蒲,兩年后別墅塌了

      鄰居填了我爸挖的魚塘蓋別墅,我在上游種了菖蒲,兩年后別墅塌了

      故事那點事
      2025-12-09 12:25:10
      官媒透露:即便是最差那批殲-20,在與外軍較量中,也一直占主動

      官媒透露:即便是最差那批殲-20,在與外軍較量中,也一直占主動

      近史博覽
      2025-12-11 14:22:32
      中國手機市場最新排名:華為被反超!

      中國手機市場最新排名:華為被反超!

      EETOP半導體社區
      2025-12-10 13:26:16
      1983年嚴打后,重刑犯都被遣送大西北,最終是什么結局?

      1983年嚴打后,重刑犯都被遣送大西北,最終是什么結局?

      觀史搜尋著
      2025-12-03 22:30:28
      這次痛哭流涕的張柏芝,撕碎謝霆鋒最后體面,看來向佐沒說謊

      這次痛哭流涕的張柏芝,撕碎謝霆鋒最后體面,看來向佐沒說謊

      白面書誏
      2025-12-10 16:27:13
      甲流離世的人飆升!醫生提醒:吃他汀謹記不要碰幾樣東西

      甲流離世的人飆升!醫生提醒:吃他汀謹記不要碰幾樣東西

      岐黃傳人孫大夫
      2025-12-11 14:20:03
      張水華已離職?醫院回應:沒這回事;她近50天4次參賽,獲得超20萬元獎金

      張水華已離職?醫院回應:沒這回事;她近50天4次參賽,獲得超20萬元獎金

      每日經濟新聞
      2025-12-11 20:18:05
      美媒寫了個統一方案,大陸攻臺得挑個好日子,第一個時機即將到來

      美媒寫了個統一方案,大陸攻臺得挑個好日子,第一個時機即將到來

      蘇浩
      2025-12-12 09:30:09
      黃金早參丨美國初請失業金人數大增,金價突破4300美元,創近一個月新高

      黃金早參丨美國初請失業金人數大增,金價突破4300美元,創近一個月新高

      每日經濟新聞
      2025-12-12 09:03:10
      月銷再破1萬臺,中國合資新能源冠軍出現,老勢力們終于蘇醒了

      月銷再破1萬臺,中國合資新能源冠軍出現,老勢力們終于蘇醒了

      柳先說
      2025-12-10 16:31:18
      香港再無董建華

      香港再無董建華

      華人星光
      2025-11-25 12:01:27
      澤連斯基同意選舉,被逼無奈還是以退為進?

      澤連斯基同意選舉,被逼無奈還是以退為進?

      史政先鋒
      2025-12-11 14:17:30
      董宇輝賣阿克蘇蘋果,旁邊有人說現摘現發,董宇輝生氣,直接不賣

      董宇輝賣阿克蘇蘋果,旁邊有人說現摘現發,董宇輝生氣,直接不賣

      丫頭舫
      2025-12-11 16:12:27
      烈士江姐兒子定居美國,記者問他為何不回國?他的回答很現實

      烈士江姐兒子定居美國,記者問他為何不回國?他的回答很現實

      忠于法紀
      2025-11-23 22:56:45
      楊小紅主任:12種適合糖尿病人吃的零食,營養、飽腹、還不升糖

      楊小紅主任:12種適合糖尿病人吃的零食,營養、飽腹、還不升糖

      蠟筆小小子
      2025-12-11 13:59:23
      3-0!歐冠最大奪冠熱門出爐:6戰全勝+5場零封!改寫歐冠70年歷史

      3-0!歐冠最大奪冠熱門出爐:6戰全勝+5場零封!改寫歐冠70年歷史

      小火箭愛體育
      2025-12-11 11:11:09
      中國第一監獄:關的幾乎全是高官,為防止泄密,牢房內有特殊布置

      中國第一監獄:關的幾乎全是高官,為防止泄密,牢房內有特殊布置

      古事尋蹤記
      2025-11-30 07:16:15
      2025-12-12 10:43:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11900文章數 142509關注度
      往期回顧 全部

      科技要聞

      凌晨突發!GPT-5.2上線,首批實測感受來了

      頭條要聞

      澤連斯基:已向美提交修訂后的和平計劃 更新五點信息

      頭條要聞

      澤連斯基:已向美提交修訂后的和平計劃 更新五點信息

      體育要聞

      你最看不上的人,關鍵時刻卻最想救你...

      娛樂要聞

      濮存昕外孫女演短劇遭吐槽

      財經要聞

      美國要組建C5,全世界大吃一驚

      汽車要聞

      限量90臺 保時捷911 GT3 90 F.A發布

      態度原創

      健康
      教育
      游戲
      家居
      數碼

      流感后咳不停?該治咳而非止咳

      教育要聞

      校長,干好工作有四個要素

      《數碼寶貝物語:時空異客》全球銷量突破百萬份

      家居要聞

      溫潤質感 打造干凈空間

      數碼要聞

      799元,微星1000W白金全模組電源開啟新品預約

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 免费A级毛片无码A∨蜜芽试看 | 精品久久久中文字幕人妻| 无码人妻一区二区三区三区| 国产乱码一区二区三区| 四虎影视在线永久免费观看| 韩国精品一区二区三区| 懂色av,蜜臀AV粉嫩av| 色色色资源| 爱做久久久久久| 亚洲成a人片在线观看www| 猫咪AV成人永久网站在线观看| 伊人福利导航| 三亚市| 国产色视频一区二区三区qq号 | av图片小说| 乱人伦人妻中文字幕无码| 日本中国内射bbxx| 国产精品毛片av999999| 538在线精品| 久久成人电影| 国产极品美女到高潮| 国产精品一二二区视在线| 2025中文无码| 亚洲人妻无码一区| 亚洲自国产拍揄拍| 一区二区三区放荡人妻| 曰韩三级无码久久探| 泗洪县| 国产又爽又大又黄a片| 国产AV一区二区三区| 免费av在线| 永济市| 久久久综合香蕉尹人综合网| 日本免费人成视频在线观看 | 欧美疯狂做受xxxx高潮小说| www.jizzjizzjizz| 湘乡市| 亚洲精品久久久久玩吗| 中文字幕无码视频手机免费看 | 桃花岛av| 亚洲の无码国产の无码步美|