<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Being-VL的視覺BPE路線:把「看」和「說」真正統一起來

      0
      分享至



      在多模態模型里,CLIP-style encoder往往把視覺表征過早地拉近到文本空間:對于抽象層面的問答,如總結圖片大致內容,這樣的表征其實是沒有什么問題的,但一旦追問與語言無強依賴的細節,模型就更易出現幻覺。根本原因之一,是在文本空間對齊之前,原生視覺結構已被不可逆地壓縮 / 丟失,而語言模型不得不「二次解碼」來自他模態的 embedding,導致對齊脆弱、推理鏈條變長。

      為此,北大、UC San Diego 和 BeingBeyond 聯合提出一種新的方法——Being-VL 的視覺 BPE 路線。Being-VL 的出發點是把這一步后置:先在純自監督、無 language condition的設定下,把圖像離散化并「分詞」,再與文本在同一詞表、同一序列中由同一 Transformer 統一建模,從源頭縮短跨模態鏈路并保留視覺結構先驗。

      Being-VL 的實現分為三步。首先用 VQ(如 VQ-GAN)把圖像量化為離散VQ tokens;隨后訓練一個視覺版 BPE,不只看共現頻次,還顯式度量空間一致性,以優先合并那些既常見又在不同圖像中相對位置穩定的 token 對,得到更具語義與結構的BPE tokens;最后把視覺 tokens 與文本 tokens 串成同一序列,進入同一個自回歸 LLM 統一建模,不再依賴額外 projector 或 CLIP 對齊。整個 BPE 詞表學習僅依賴圖像統計,不看文本,真正把「語言對齊」留到后續階段。





      • 論文鏈接:https://arxiv.org/abs/2506.23639
      • 項目主頁:
      • https://beingbeyond.github.io/Being-VL-0.5
      • GitHub:
      • https://github.com/beingbeyond/Being-VL-0.5

      與「把視覺直接投到文本空間」有何本質不同?

      傳統做法讓 LLM 去再解釋外部視覺 encoder 的連續 embedding;即便 encoder 學到了豐富模式,沒有對應解碼器,LLM也要額外學習如何「讀懂」其他模態,這會放大模態鴻溝并誘發幻覺。Being-VL 把視覺提前離散化為可組合的 tokens,并在序列里與文本統一建模,減少表征形態錯位,縮短跨模態因果鏈條,從而在保持感知細節與高層語義的同時,降低「想象成分」。


      針對視覺場景設計的 BPE tokenizer:頻次 × 空間一致性

      文本大模型中的 BPE 只看「誰和誰經常相鄰」。在視覺里,如果只按頻次去合并,容易破壞結構。Being-VL 因此提出Priority-Guided Encoding:基于 score P (a,b)=F (a,b)+α?S (a,b) 進行 BPE 詞表構建,其中 F 為鄰接頻次,S 衡量在不同圖像中的相對位置一致性,相似度用高斯核對齊。這樣得到的視覺詞表既覆蓋高頻模式,又保留空間結構。并且這個過程完全不依賴文本。

      三階段訓練:從 VQ/BPE embeddings 到 LLM backbone 的漸進解凍

      為了讓統一的離散表示平滑接入語言模型,Being-VL 采用三階段(3-stage)訓練并顯式控制解凍順序:

      • Stage-1 / Embedding Alignment:只訓練新擴展的視覺 token embeddings(包括 VQ 與 BPE 兩部分),其余參數全部凍結,完成基礎對齊而不擾動原有語言能力。
      • Stage-2 / Selective Fine-tuning:解凍 LLM 前若干層(默認約 25%),其余層繼續凍結,讓跨模態交互首先在底層表征中發生。
      • Stage-3 / Full Fine-tuning:全量解凍,在更復雜的 reasoning /instruction 數據上收尾,強化高級能力。

      與解凍節奏配套,數據采用curriculum:從基礎 caption 與屬性識別,逐步過渡到視覺問答與多輪指令,顯式對齊 BPE 的「由局部到整體」的層級特性。消融表明:漸進解凍 + curriculum明顯優于單階段訓練;只用其中任一也不如兩者合用。



      實驗與分析

      Being-VL 的一系列對照實驗給出一個清晰結論:把圖像先離散化并做視覺 BPE,再與文本在同一序列里統一建模,既穩又有效。相較傳統「先拉到文本空間」的做法,這種統一的離散表示更少丟失原生視覺信息,因而在細節敏感的問答與抗幻覺上更可靠;而一旦移除 BPE,性能與穩健性都會整體下降,說明增益主要來自于把「常見且空間關系穩定」 的視覺模式合成更有語義的 tokens,讓 LLM 在更合適的粒度上推理。

      訓練與規模選擇方面也有明確「可執行」的答案。三階段漸進解凍 + curriculum是默認策略:先只對齊VQ/BPE embeddings,再解凍一部分LLM backbone,最后全量微調,能在不擾動語言能力的前提下穩步提升跨模態理解。

      Visual BPE Token 激活機制可視化




      Embedding 權重的可視化揭示了詞表設計對跨模態表征的影響:在不使用 visual BPE 的基線模型(上圖)中,文本與視覺 token 的權重呈現顯著偏置與分離,體現出明顯的模態隔閡;而引入不同詞表大小的 visual BPE(中、下圖)后,兩類 token 的權重分布趨于均衡與同構,說明 BPE 在更細粒度上對齊了子詞 / 子片段層面的統計與表征空間。由此帶來的直接效應是跨模態注意力的共享基準更一致、梯度信號更可比,從而降低模態間的分布漂移與共現偏差。

      詞表大小對訓練效率與擴展潛力的影響




      研究進一步考察了 BPE 詞表規模的作用。可視化結果顯示:在訓練資源受限的情形下,與 VQ 等規模的碼本在表達能力與訓練效率之間取得了更佳平衡,處于「甜點區」。當詞表繼續增大(≥16K)時,會出現大量低利用率、呈稀疏分布的 token,導致單位算力的收益下降。不過,這也預示著在數據規模擴張時存在更強的上限潛力。論文提出的方法可在更大的詞表與更多數據的配合下,釋放這部分擴展空間,進一步提升模型表現。

      發展與小結(Being-VL-0 → Being-VL-0.5)

      Being-VL-0 (ICLR 2025)

      • Being-VL-0 給出的是視覺離散化 + BPE 的可行性與動機:從理論分析與 toy 實驗出發,得出結論 BPE-style 合并能把必要的結構先驗灌注進 token,使 Transformer 更易學習;并初步探索了兩階段訓練(PT→SFT)、文本 embedding 凍結策略與數據 scaling 帶來的穩健增益。
      • 項目地址:
      • https://github.com/BeingBeyond/Being-VL-0

      Being-VL-0.5 (ICCV 2025 highlight)

      • Being-VL-0.5 則把這一路線進一步優化為一個統一建模框架:頻次與空間一致性聯合的 Priority-Guided Encoding、VQ/BPE/LLM 三階段漸進解凍、以及配套的 curriculum 數據策略。
      • 項目地址:
      • https://beingbeyond.github.io/Being-VL-0.5

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      駱家輝警告中國,最好不要自主生產尖端芯片,這不是美國想看到的

      駱家輝警告中國,最好不要自主生產尖端芯片,這不是美國想看到的

      鐵錘妹妹是只貓
      2026-03-22 02:57:54
      快扔掉!戴一天,輻射量相當于拍117次胸片

      快扔掉!戴一天,輻射量相當于拍117次胸片

      FM93浙江交通之聲
      2025-10-28 00:01:43
      醫生發現愛吃花生人,糖尿病、冠心病、全因死亡率,比同齡人低?

      醫生發現愛吃花生人,糖尿病、冠心病、全因死亡率,比同齡人低?

      荊醫生科普
      2026-03-07 14:52:10
      臺軍收到噩耗,軍火已被扣!大陸更改賴清德稱呼,鄭麗文即將離臺

      臺軍收到噩耗,軍火已被扣!大陸更改賴清德稱呼,鄭麗文即將離臺

      安安說
      2026-03-21 10:47:34
      宅基地確權最后沖刺:今年不把名字改成兒子的,以后可能就改不了

      宅基地確權最后沖刺:今年不把名字改成兒子的,以后可能就改不了

      混沌錄
      2026-03-19 21:59:03
      江蘇省政府副秘書長邱志強、楊新忠,擬任省級機關正職

      江蘇省政府副秘書長邱志強、楊新忠,擬任省級機關正職

      娛樂圈的筆娛君
      2026-03-21 19:22:22
      比馬奎爾更拉胯!13 次丟球 + 全場隱身,卡里克必須棄用曼聯水貨

      比馬奎爾更拉胯!13 次丟球 + 全場隱身,卡里克必須棄用曼聯水貨

      奶蓋熊本熊
      2026-03-22 01:54:26
      一男子失業拿了50萬賠償回村里,逢人說欠了30萬外債,誰料第二天叔伯兄弟,都上門來“送溫暖”了

      一男子失業拿了50萬賠償回村里,逢人說欠了30萬外債,誰料第二天叔伯兄弟,都上門來“送溫暖”了

      不二大叔
      2026-03-19 21:29:20
      江蘇省委組織部最新公告

      江蘇省委組織部最新公告

      飛鶴傳媒
      2026-03-21 20:35:17
      秒空、售罄!二手市場被炒到8100元,票務方工作人員回應

      秒空、售罄!二手市場被炒到8100元,票務方工作人員回應

      都市快報橙柿互動
      2026-03-21 13:17:25
      遼寧惜敗10分上海狂勝40分!山西險勝2分浙江贏25分,積分榜大變

      遼寧惜敗10分上海狂勝40分!山西險勝2分浙江贏25分,積分榜大變

      老吳說體育
      2026-03-21 21:49:40
      一塊饅頭勝過十瓶保健品,中國人吃了幾千年的秘密

      一塊饅頭勝過十瓶保健品,中國人吃了幾千年的秘密

      富貴說
      2026-03-18 13:57:01
      朝鮮造潛艇被擊沉!

      朝鮮造潛艇被擊沉!

      烽火觀天下
      2026-03-20 11:41:26
      續航2000km!奇瑞官宣:3月25日,新車正式預售

      續航2000km!奇瑞官宣:3月25日,新車正式預售

      高科技愛好者
      2026-03-21 23:07:41
      2026年交警正式更名交管!不止換稱呼,罰單、停車、換駕照全變了

      2026年交警正式更名交管!不止換稱呼,罰單、停車、換駕照全變了

      混沌錄
      2026-03-20 21:00:04
      被判20年徒刑,第一個要救黎智英的人出現,身份特殊,29國發難

      被判20年徒刑,第一個要救黎智英的人出現,身份特殊,29國發難

      董董歷史燴
      2026-03-20 21:29:25
      3月21日:特朗普宣布戰爭接近尾聲!

      3月21日:特朗普宣布戰爭接近尾聲!

      Nee看
      2026-03-21 11:10:43
      課本上猛夸的4個歷史人物,長大后卻發現:他們壞到骨子里

      課本上猛夸的4個歷史人物,長大后卻發現:他們壞到骨子里

      長風文史
      2026-03-19 14:01:22
      一個沒寫過代碼的工程師,用ClaudeCode干掉一個估算團隊的工作量

      一個沒寫過代碼的工程師,用ClaudeCode干掉一個估算團隊的工作量

      DeepTech深科技
      2026-03-19 18:03:20
      全國人大代表建議: 公務員退休年齡延長至70歲

      全國人大代表建議: 公務員退休年齡延長至70歲

      互聯網大觀
      2026-03-19 18:51:34
      2026-03-22 04:16:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12555文章數 142589關注度
      往期回顧 全部

      科技要聞

      宇樹招股書拆解,人形機器人出貨量第一!

      頭條要聞

      伊朗發射3800公里射程的導彈 最令美軍戰栗的細節披露

      頭條要聞

      伊朗發射3800公里射程的導彈 最令美軍戰栗的細節披露

      體育要聞

      誰在決定字母哥未來?

      娛樂要聞

      田栩寧終于涼了?出軌風波影響惡劣

      財經要聞

      通脹警報拉響,加息潮要來了?

      汽車要聞

      小鵬汽車2025年Q4盈利凈賺3.8億 全年營收767億

      態度原創

      藝術
      旅游
      本地
      房產
      公開課

      藝術要聞

      斯托揚畫作:她們的眼神能勾動你的心!

      旅游要聞

      【花Young貴陽】春日限定!十里河灘海棠花盛開引客來

      本地新聞

      春色滿城關不住|紹興春日頂流,這片櫻花海藏不住了

      房產要聞

      全城狂送1000杯咖啡!網易房產【早C計劃】,即刻啟動!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版