<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      LLaVA-OneVision-1.5開源,8B模型預訓練只需4天、1.6萬美元

      0
      分享至



      LLaVA 于 2023 年提出,通過低成本對齊高效連接開源視覺編碼器與大語言模型,使「看圖 — 理解 — 對話」的多模態能力在開放生態中得以普及,明顯縮小了與頂級閉源模型的差距,標志著開源多模態范式的重要里程碑。



      LLaVA 用低成本對齊打通「視覺編碼器 + 大語言模型」起步,LLaVA?1.5 以更大更干凈的數據與高分辨率輸入強化理解,LLaVA?NeXT 拓展 OCR / 數理與多場景任務;隨后分支為 LLaVA?NeXT?Video 處理時序視頻、多幀推理,及 LLaVA-NeXT-Interleave 支持交替多圖文與跨圖聯推;最終在 LLaVA?OneVision 匯聚為統一接口,覆蓋圖像 / 文檔 / 圖表 / 多圖 / 視頻,兼顧效果與效率。

      盡管多模態對齊的接口與架構趨于收斂,真正「可復現」的開源路徑仍與「僅開放權重」存在間距。Qwen2.5?VL、InternVL3.5 在 OCR、文檔理解、數理與跨圖推理上樹立高基線,但完整的數據清單、清洗與混合比例,以及對齊 / 采樣與訓練日程多為部分披露,難以端到端重現。Molmo 以更干凈的數據流水線與精細化設計,在多項評測與偏好中逼近閉源強基線;Open?Qwen2VL 則表明在更高效范式下,即便原始多模態 token 占比較低亦能取得強對比性能。當前主要鴻溝在于 「配方與工程細節的可復現性」,而非單一的模型架構選擇。



      靈感實驗室團隊聯合 LMMs-Lab 圍繞「高性能 — 低成本 — 強復現」三大目標,在 LLaVA-OneVision 體系上推出完整開放的概念均衡 85M 預訓練數據集(LLaVA-OV-1.5-Mid-Training-85M)與精篩 22M 指令數據集(LLaVA-OV-1.5-Instruct-22M),并沿用緊湊的三階段流程(語言–圖像對齊 Stage?1、概念均衡與高質量知識注入 Stage?1.5、指令微調 Stage?2),結合離線并行數據打包(最高約 11× padding 壓縮)與 Megatron?LM + 分布式優化器,將 8B 規模 VL 模型的 Stage?1.5 預訓練在 128 張 A800 上控制在約 4 天內完成,預算控制在 1.6 萬美元。

      在此基礎上,我們提出LLaVA?OneVision?1.5,繼承并擴展 LLaVA 系列:引入 RICE?ViT 支持原生分辨率與區域級細粒度語義建模、強化圖表 / 文檔 / 結構化場景理解,延續緊湊三階段范式以避免冗長 curriculum,構建并強調「質量 — 覆蓋 — 均衡」的 85M 預訓練與 22M 指令集合,并真正意義上實現全鏈條透明開放(數據、訓練與打包工具鏈、配置腳本、日志與可復現評測命令及其構建與執行細節),以確保社區低成本復現與可驗證拓展。

      實驗結果顯示,LLaVA?OneVision 在多項公開多模態基準上較 Qwen2.5?VL 展現出競爭性乃至更優性能(詳見技術報告)。



      • 論文標題:LLaVA-OneVision-1.5: Fully Open Framework for Democratized Multimodal Training
      • 代碼地址:
      • https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-1.5
      • 技術報告地址:
      • https://arxiv.org/abs/2509.23661
      • 數據 / 模型地址:
      • https://huggingface.co/collections/lmms-lab/llava-onevision-15-68d385fe73b50bd22de23713
      • Demo:
      • https://huggingface.co/spaces/lmms-lab/LLaVA-OneVision-1.5

      數據構建要點



      用于通用視覺語言的預訓練集(85M)與指令微調數據集(22M)。其中 85M 預訓練數據融合 COYO-700M、Obelics、DataComp-1B、LAION-CN、ImageNet-21K、SAM-1B、MINT、Zero250M 等 8 大異構來源,形成約 2,000 萬中文與 6,500 萬英文圖文對。

      為破解長尾概念稀疏與原始 caption 噪聲 / 缺失問題,我們不再依賴原始文本詞頻,而是采用特征驅動的「概念均衡」策略:利用 MetaCLIP 編碼器將全部圖像與 50 萬規模概念詞嵌入共享向量空間,對每張圖像檢索 Top-K 最相似概念,統計概念頻次后按逆頻加權重采樣,抑制高頻背景類并提升罕見細粒度實體、屬性與場景占比,顯著平坦化長尾分布;隨后使用高質量 Captioner 生成對齊的中英文增強描述。系統實驗表明,在相同或更低 token 預算下,擴大高質量數據規模并結合概念均衡采樣,可在多模態理解、長尾識別與指令泛化等核心指標上獲得顯著且可復現的性能提升。



      指令數據 22M 覆蓋八大類別:Caption、Chart & Table、Code & Math、Domain-specific、General VQA、Grounding & Counting、OCR、Science。通過多源聚合、格式統一、指令重寫、雙語互轉、模板去同質化與安全篩除,保持類別與難度分布均衡。并且我們的指令數據疊加 FineVision 數據集之后,結果會繼續增加。



      訓練策略

      1. 視覺編碼器預訓練

      為了讓模型在 OCR、表格 / 文檔、區域理解與后續指令推理上具有更高的下限,我們在 LLaVA-OneVision-1.5 中采用自研的 MVT v1.5(RICE-ViT) 作為視覺主干。

      相較僅做全局對齊的 CLIP / SigLIP 類對比模型,RICE-ViT 針對「實例只用單一全局向量」這一結構性瓶頸,引入統一的 Region Cluster Discrimination 機制:在 4.5 億圖像與 24 億候選區域上訓練,利用區域聚類判別 + 區域感知注意力顯式建模局部實體 / 文本塊與上下文關系,并結合 2D 旋轉位置編碼(2D RoPE)實現多分辨率原生支持。

      與 SigLIP2 依賴多套專用損失(SILC、TIPS、LocCa 等)不同,我們用單一聚類判別范式同時強化通用語義、OCR 識別與定位能力,訓練與推理鏈路更簡潔、可維護性更高。在多模態融合階段,通過輕量投影與后續全參數聯合訓練,將這一細粒度語義底座無縫接入語言模型,減少冗余適配模塊并提升跨任務遷移效率。



      2. 三階段學習流程

      • Stage-1:語言–圖像對齊

      使用 LLaVA-1.5 558K 數據集訓練視覺投影層,將視覺編碼輸出映射到語言模型詞嵌入空間。此階段控制參數更新范圍以快速穩定收斂。

      • Stage-1.5:高質量知識中期預訓練

      在概念均衡的 85M 預訓練數據上進行全參數訓練,注入廣域視覺語義與世界知識,強調數據質量與覆蓋而非盲目擴張 token 規模。

      • Stage-2:視覺指令對齊

      基于 22M 指令數據與 FineVision 等多源視覺指令語料繼續全參數訓練,提升任務泛化、推理組織與響應格式控制能力。

      3. 離線并行數據打包

      為降低多模態樣本長度差異帶來的 padding 浪費、提升有效 token 利用率,我們采用離線并行數據打包:先按樣本長度或長度區間進行哈希桶聚類,減少全局排序與掃描成本;再在數據準備階段以多線程將多條短樣本拼接為接近目標長度的定長序列。該流程一次性處理全量語料,具備確定性與可復現性,避免在線動態打包引入的運行時不穩定與額外 CPU 開銷。

      在 85M 規模的預訓練樣本上,相比原始方案可實現最高約 11× 的 padding 有效壓縮(定義:原始方案總 padding token / 打包后總 padding token)。

      4. 混合并行與長上下文高效訓練,訓練端采用混合并行與長上下文優化

      張量并行(TP)+ 流水并行(PP)+ 序列 / 上下文并行(Sequence/Context Parallel)與分布式優化器協同,以在大規模集群中同時提升算力利用與顯存效率;同時采用原生分辨率策略,保留圖表、文檔與密集文本區域的結構細節,避免統一縮放帶來的信息損失。

      在 128×A800 集群上,8B 規模模型的 Stage?1.5(85M 樣本、原生分辨率)約 3.7 天完成,兼顧吞吐與成本。

      結論

      LLaVA-OneVision-1.5 證明:依托概念均衡的 85M 預訓練數據與高質量指令數據,結合 RICE?ViT 細粒度視覺底座和緊湊的三階段策略(對齊–高質量知識注入–指令泛化),再配合離線并行打包(最高約 11× padding 減少)與混合并行 / 原生分辨率等工程優化,8B 規模即可在更低 token 與算力成本下,對標乃至部分超越主流開源與部分閉源多模態模型,體現「高質量結構化數據 + 系統效率協同」相較單純堆量的優勢。

      這是一次非常簡單的復現工作:我們完整開放數據、工具鏈、腳本、配置、日志與評測配方,復現路徑清晰、依賴明確,無需復雜調參即可跑通。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      世界杯賽程公布!中國球迷不用熬夜:看巴西阿根廷葡萄牙6場比賽

      世界杯賽程公布!中國球迷不用熬夜:看巴西阿根廷葡萄牙6場比賽

      球場沒跑道
      2025-12-07 11:04:59
      打瘋了!快船壓制西部豪強:哈登8中6轟19分4斷,萊昂納德14分

      打瘋了!快船壓制西部豪強:哈登8中6轟19分4斷,萊昂納德14分

      體壇小李
      2025-12-07 10:19:18
      一頓操作猛如虎!頓頓直播間2700元羽絨服引爭議公益還是割韭菜?

      一頓操作猛如虎!頓頓直播間2700元羽絨服引爭議公益還是割韭菜?

      章眽八卦
      2025-12-06 11:50:25
      全家都端著,累不累?背后真實背景曝光 果然不簡單

      全家都端著,累不累?背后真實背景曝光 果然不簡單

      農村娛樂光哥
      2025-12-05 11:47:52
      西甲最新積分戰報 客場1分主場0分 皇馬5輪4場丟分無力追巴薩

      西甲最新積分戰報 客場1分主場0分 皇馬5輪4場丟分無力追巴薩

      狂言體育
      2025-12-08 06:55:07
      皇馬0-2塞爾塔,賽后評分:不是姆巴佩第一,塞爾塔19號排第一

      皇馬0-2塞爾塔,賽后評分:不是姆巴佩第一,塞爾塔19號排第一

      側身凌空斬
      2025-12-08 06:06:36
      大興機場被北漂睡成“洗浴中心”,揭開當下社會最體面的一幕

      大興機場被北漂睡成“洗浴中心”,揭開當下社會最體面的一幕

      王曉愛體彩
      2025-12-03 10:54:15
      買上海熏魚踩雷!明明是官方出品,回家發現味道不對,仔細一看,魚都變了

      買上海熏魚踩雷!明明是官方出品,回家發現味道不對,仔細一看,魚都變了

      上觀新聞
      2025-12-07 12:06:06
      央視怒批,國務院點名封殺!這幾位蒙騙老百姓的大網紅,徹底涼涼

      央視怒批,國務院點名封殺!這幾位蒙騙老百姓的大網紅,徹底涼涼

      大魚簡科
      2025-09-02 19:34:00
      洪灝:美元很可能在2026年不再是一個安全的貨幣 |和訊2025年會

      洪灝:美元很可能在2026年不再是一個安全的貨幣 |和訊2025年會

      和訊網
      2025-12-07 17:20:27
      《大生意人》古平原認出李萬堂!李欽與父決裂,蘇紫軒成最大贏家

      《大生意人》古平原認出李萬堂!李欽與父決裂,蘇紫軒成最大贏家

      小丸子的娛樂圈
      2025-12-07 22:49:53
      金融產品無法兌付!浙江知名企業回應:如果政府部門能介入,應該能解決;三家上市公司緊急公告:是股東的問題,和我們無關

      金融產品無法兌付!浙江知名企業回應:如果政府部門能介入,應該能解決;三家上市公司緊急公告:是股東的問題,和我們無關

      每日經濟新聞
      2025-12-07 20:25:05
      取代薩拉赫!曝皇馬失意球星愿加盟利物浦 轉會費超8000萬

      取代薩拉赫!曝皇馬失意球星愿加盟利物浦 轉會費超8000萬

      球事百科吖
      2025-12-08 02:13:13
      60歲男子自曝:瘋狂找年輕女人發生關系,有的下周結婚,刺激過癮

      60歲男子自曝:瘋狂找年輕女人發生關系,有的下周結婚,刺激過癮

      張牧之
      2025-12-07 11:20:09
      萬科!遭遇反對

      萬科!遭遇反對

      新浪財經
      2025-12-07 18:26:31
      Nice!勇士開竅了!曝將交易庫里接班人

      Nice!勇士開竅了!曝將交易庫里接班人

      籃球實戰寶典
      2025-12-07 16:19:52
      公考“槍手”替考89次斂財千萬,百余名考生通過作弊手段入職黨委、政府、公安、農村基層組織等部門,詳情披露

      公考“槍手”替考89次斂財千萬,百余名考生通過作弊手段入職黨委、政府、公安、農村基層組織等部門,詳情披露

      環球網資訊
      2025-12-06 19:05:08
      庭審對峙!張柏芝被干爹追討1200萬,謝霆鋒劃清界限,謝賢急了

      庭審對峙!張柏芝被干爹追討1200萬,謝霆鋒劃清界限,謝賢急了

      白面書誏
      2025-12-06 15:08:22
      俄地區不承保引發熱議,有網友以此來質疑當地不安全

      俄地區不承保引發熱議,有網友以此來質疑當地不安全

      映射生活的身影
      2025-12-07 11:27:16
      第八代五糧液開票價降至900元/瓶?公司:出廠價仍為1019元/瓶,所謂“降價”為補貼后的價格變化

      第八代五糧液開票價降至900元/瓶?公司:出廠價仍為1019元/瓶,所謂“降價”為補貼后的價格變化

      每日經濟新聞
      2025-12-07 10:11:04
      2025-12-08 07:56:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11862文章數 142510關注度
      往期回顧 全部

      科技要聞

      獨家|李笛再創業,炮轟大模型,再戰AI

      頭條要聞

      疑"東北雨姐"小號冒頭:偶爾聽到聲音 露臉畫面僅1秒

      頭條要聞

      疑"東北雨姐"小號冒頭:偶爾聽到聲音 露臉畫面僅1秒

      體育要聞

      梅開48度!2年半,這是梅西在邁阿密的一人一城

      娛樂要聞

      林俊杰AAA頒獎禮,韓娛愛豆均站起鞠躬

      財經要聞

      五糧液降價?回應來了

      汽車要聞

      傳奇超跑電動形態重生 雷克薩斯LFA純電概念車

      態度原創

      親子
      教育
      房產
      手機
      公開課

      親子要聞

      最近一次開懷大笑是因為什么? 網友分享: 必須給姑娘撐場子

      教育要聞

      最后7天只做這3件事真的能臨時抱佛腳啊!!

      房產要聞

      封關啟幕宜居新時代!觀嵐森嶼定義三亞旅居度假新范本

      手機要聞

      單打孔iPhone?iPhone 18系列屏下3D解鎖再曝

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产乱色国产精品免费视频| 欧美老熟妇色XXXXX性| 日韩精品人成在线播放| 妺妺窝人体色www看美女| 鹤庆县| 中文国产不卡一区二区| 97成人精品区在线播放| 亚洲AV网站| 亚洲欧美电影在线一区二区| 免费无码作爱视频| 国产精品1区2区3区在线观看| 精品亚洲网| a网站免费观看| 99视频在线精品免费观看6| 小婕子伦流澡到高潮h| 娄底市| 色wwwww| 囯产精品久久久久久久久久妞妞| 曰韩无码av一区二区免费 | 亚洲中文字幕伊人久久无码| 精品蜜臀av在线天堂| 亚洲一区人妻| 中文乱伦字幕| 九九久久自然熟的香蕉图片| 亚洲欧美一区二区三区图片| 国产偷v国产偷v亚洲高清| 97人妻天天摸天天爽天天| 婷婷综合久久| 五月香蕉网| 久久亚洲视频| 精品人伦一区二区三区蜜桃免费| 国外少妇视频网站| 国模在线视频| 亚洲精品国产AV| 久久综合亚洲色一区二区三区| 四川丰满妇女毛片四川话 | 欧美高清第6页| 人妻无码中文字幕| 国产做a爱免费视频在线观看| 亚洲色偷拍区另类无码专区| 亚洲成a人片在线观看无码|