<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Being-VL的視覺BPE路線:把「看」和「說」真正統一起來

      0
      分享至



      在多模態模型里,CLIP-style encoder往往把視覺表征過早地拉近到文本空間:對于抽象層面的問答,如總結圖片大致內容,這樣的表征其實是沒有什么問題的,但一旦追問與語言無強依賴的細節,模型就更易出現幻覺。根本原因之一,是在文本空間對齊之前,原生視覺結構已被不可逆地壓縮 / 丟失,而語言模型不得不「二次解碼」來自他模態的 embedding,導致對齊脆弱、推理鏈條變長。

      為此,北大、UC San Diego 和 BeingBeyond 聯合提出一種新的方法——Being-VL 的視覺 BPE 路線。Being-VL 的出發點是把這一步后置:先在純自監督、無 language condition的設定下,把圖像離散化并「分詞」,再與文本在同一詞表、同一序列中由同一 Transformer 統一建模,從源頭縮短跨模態鏈路并保留視覺結構先驗。

      Being-VL 的實現分為三步。首先用 VQ(如 VQ-GAN)把圖像量化為離散VQ tokens;隨后訓練一個視覺版 BPE,不只看共現頻次,還顯式度量空間一致性,以優先合并那些既常見又在不同圖像中相對位置穩定的 token 對,得到更具語義與結構的BPE tokens;最后把視覺 tokens 與文本 tokens 串成同一序列,進入同一個自回歸 LLM 統一建模,不再依賴額外 projector 或 CLIP 對齊。整個 BPE 詞表學習僅依賴圖像統計,不看文本,真正把「語言對齊」留到后續階段。





      • 論文鏈接:https://arxiv.org/abs/2506.23639
      • 項目主頁:
      • https://beingbeyond.github.io/Being-VL-0.5
      • GitHub:
      • https://github.com/beingbeyond/Being-VL-0.5

      與「把視覺直接投到文本空間」有何本質不同?

      傳統做法讓 LLM 去再解釋外部視覺 encoder 的連續 embedding;即便 encoder 學到了豐富模式,沒有對應解碼器,LLM也要額外學習如何「讀懂」其他模態,這會放大模態鴻溝并誘發幻覺。Being-VL 把視覺提前離散化為可組合的 tokens,并在序列里與文本統一建模,減少表征形態錯位,縮短跨模態因果鏈條,從而在保持感知細節與高層語義的同時,降低「想象成分」。


      針對視覺場景設計的 BPE tokenizer:頻次 × 空間一致性

      文本大模型中的 BPE 只看「誰和誰經常相鄰」。在視覺里,如果只按頻次去合并,容易破壞結構。Being-VL 因此提出Priority-Guided Encoding:基于 score P (a,b)=F (a,b)+α?S (a,b) 進行 BPE 詞表構建,其中 F 為鄰接頻次,S 衡量在不同圖像中的相對位置一致性,相似度用高斯核對齊。這樣得到的視覺詞表既覆蓋高頻模式,又保留空間結構。并且這個過程完全不依賴文本。

      三階段訓練:從 VQ/BPE embeddings 到 LLM backbone 的漸進解凍

      為了讓統一的離散表示平滑接入語言模型,Being-VL 采用三階段(3-stage)訓練并顯式控制解凍順序:

      • Stage-1 / Embedding Alignment:只訓練新擴展的視覺 token embeddings(包括 VQ 與 BPE 兩部分),其余參數全部凍結,完成基礎對齊而不擾動原有語言能力。
      • Stage-2 / Selective Fine-tuning:解凍 LLM 前若干層(默認約 25%),其余層繼續凍結,讓跨模態交互首先在底層表征中發生。
      • Stage-3 / Full Fine-tuning:全量解凍,在更復雜的 reasoning /instruction 數據上收尾,強化高級能力。

      與解凍節奏配套,數據采用curriculum:從基礎 caption 與屬性識別,逐步過渡到視覺問答與多輪指令,顯式對齊 BPE 的「由局部到整體」的層級特性。消融表明:漸進解凍 + curriculum明顯優于單階段訓練;只用其中任一也不如兩者合用。



      實驗與分析

      Being-VL 的一系列對照實驗給出一個清晰結論:把圖像先離散化并做視覺 BPE,再與文本在同一序列里統一建模,既穩又有效。相較傳統「先拉到文本空間」的做法,這種統一的離散表示更少丟失原生視覺信息,因而在細節敏感的問答與抗幻覺上更可靠;而一旦移除 BPE,性能與穩健性都會整體下降,說明增益主要來自于把「常見且空間關系穩定」 的視覺模式合成更有語義的 tokens,讓 LLM 在更合適的粒度上推理。

      訓練與規模選擇方面也有明確「可執行」的答案。三階段漸進解凍 + curriculum是默認策略:先只對齊VQ/BPE embeddings,再解凍一部分LLM backbone,最后全量微調,能在不擾動語言能力的前提下穩步提升跨模態理解。

      Visual BPE Token 激活機制可視化




      Embedding 權重的可視化揭示了詞表設計對跨模態表征的影響:在不使用 visual BPE 的基線模型(上圖)中,文本與視覺 token 的權重呈現顯著偏置與分離,體現出明顯的模態隔閡;而引入不同詞表大小的 visual BPE(中、下圖)后,兩類 token 的權重分布趨于均衡與同構,說明 BPE 在更細粒度上對齊了子詞 / 子片段層面的統計與表征空間。由此帶來的直接效應是跨模態注意力的共享基準更一致、梯度信號更可比,從而降低模態間的分布漂移與共現偏差。

      詞表大小對訓練效率與擴展潛力的影響




      研究進一步考察了 BPE 詞表規模的作用。可視化結果顯示:在訓練資源受限的情形下,與 VQ 等規模的碼本在表達能力與訓練效率之間取得了更佳平衡,處于「甜點區」。當詞表繼續增大(≥16K)時,會出現大量低利用率、呈稀疏分布的 token,導致單位算力的收益下降。不過,這也預示著在數據規模擴張時存在更強的上限潛力。論文提出的方法可在更大的詞表與更多數據的配合下,釋放這部分擴展空間,進一步提升模型表現。

      發展與小結(Being-VL-0 → Being-VL-0.5)

      Being-VL-0 (ICLR 2025)

      • Being-VL-0 給出的是視覺離散化 + BPE 的可行性與動機:從理論分析與 toy 實驗出發,得出結論 BPE-style 合并能把必要的結構先驗灌注進 token,使 Transformer 更易學習;并初步探索了兩階段訓練(PT→SFT)、文本 embedding 凍結策略與數據 scaling 帶來的穩健增益。
      • 項目地址:
      • https://github.com/BeingBeyond/Being-VL-0

      Being-VL-0.5 (ICCV 2025 highlight)

      • Being-VL-0.5 則把這一路線進一步優化為一個統一建??蚣埽侯l次與空間一致性聯合的 Priority-Guided Encoding、VQ/BPE/LLM 三階段漸進解凍、以及配套的 curriculum 數據策略。
      • 項目地址:
      • https://beingbeyond.github.io/Being-VL-0.5

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      重慶一小學禁止“二手房”業主孩子入讀,當地:孩子多學校容量小,已調研后期可能調整

      重慶一小學禁止“二手房”業主孩子入讀,當地:孩子多學校容量小,已調研后期可能調整

      瀟湘晨報
      2025-12-08 16:29:25
      道歉!下架!第一個遭遇反噬的電動車廠商來了

      道歉!下架!第一個遭遇反噬的電動車廠商來了

      數字財經智庫
      2025-12-07 10:51:38
      40歲,想結婚,被網暴

      40歲,想結婚,被網暴

      南風窗
      2025-12-08 14:56:09
      受賄2.36億余元,十四屆全國政協原常委茍仲文一審被判死緩

      受賄2.36億余元,十四屆全國政協原常委茍仲文一審被判死緩

      界面新聞
      2025-12-08 17:01:51
      蘋果iPhone 18系列全新曝光,等等黨有福了!

      蘋果iPhone 18系列全新曝光,等等黨有福了!

      科技堡壘
      2025-12-08 11:15:49
      今后3天河南晴朗持續!11日起大風雨雪強降溫“組團”上線

      今后3天河南晴朗持續!11日起大風雨雪強降溫“組團”上線

      大象新聞
      2025-12-08 13:30:12
      現代朝鮮底層驚人的食量:一頓能吃下一斤多主食

      現代朝鮮底層驚人的食量:一頓能吃下一斤多主食

      百姓聞世界
      2025-12-04 18:14:06
      周星馳《鹿鼎記》票房慘淡首日僅18萬:情懷牌為何突然失靈?

      周星馳《鹿鼎記》票房慘淡首日僅18萬:情懷牌為何突然失靈?

      城市鄉村
      2025-12-08 10:13:29
      朝鮮宣布:糧食大豐收

      朝鮮宣布:糧食大豐收

      IN朝鮮
      2025-12-07 13:13:06
      被拐30年兒子認親14小時就走,全程冷臉,網友:窮家標簽太刺眼

      被拐30年兒子認親14小時就走,全程冷臉,網友:窮家標簽太刺眼

      老特有話說
      2025-12-06 17:31:27
      新加坡華裔男生被評“全球最丑”?本地網友怒懟:這鍋不背!

      新加坡華裔男生被評“全球最丑”?本地網友怒懟:這鍋不背!

      新加坡萬事通
      2025-12-07 20:55:03
      30歲的賀子珍在蘇聯莫斯科的真實容貌 并非演員扮演 貨真價實的照片

      30歲的賀子珍在蘇聯莫斯科的真實容貌 并非演員扮演 貨真價實的照片

      動物奇奇怪怪
      2025-12-08 13:26:50
      “新冠疫苗之父”落馬,榮譽清零!打過三針的網友慌了

      “新冠疫苗之父”落馬,榮譽清零!打過三針的網友慌了

      胡嚴亂語
      2025-12-07 15:51:07
      最新民調出來后,盧秀燕傻眼了,賴清德樂不出來,鄭麗文贏面大增

      最新民調出來后,盧秀燕傻眼了,賴清德樂不出來,鄭麗文贏面大增

      落雪聽梅a
      2025-12-08 13:58:40
      王迅老師不幸逝世,官網已變黑白

      王迅老師不幸逝世,官網已變黑白

      wuhu派
      2025-12-08 08:47:33
      一片嘩然,馬克龍回國就變臉,竟然向中方發出威脅

      一片嘩然,馬克龍回國就變臉,竟然向中方發出威脅

      艾米手工作品
      2025-12-08 07:21:13
      -4℃到-5℃!這個冬天比以往來得更晚些

      -4℃到-5℃!這個冬天比以往來得更晚些

      上觀新聞
      2025-12-08 16:57:06
      入選《金融時報》“2025年影響力人物榜” 黃仁勛坦言:怕公司倒閉,我一周工作7天

      入選《金融時報》“2025年影響力人物榜” 黃仁勛坦言:怕公司倒閉,我一周工作7天

      紅星新聞
      2025-12-08 15:35:14
      存在不當影射行為,郭德綱被約談!

      存在不當影射行為,郭德綱被約談!

      微微熱評
      2025-12-08 00:51:45
      它是止咳第一名,放到鍋中蒸一蒸,輕松排出黃痰,做法真的很簡單

      它是止咳第一名,放到鍋中蒸一蒸,輕松排出黃痰,做法真的很簡單

      墜入二次元的海洋
      2025-12-08 05:50:41
      2025-12-08 19:07:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11873文章數 142510關注度
      往期回顧 全部

      科技要聞

      外面有人挖,家里有人跑:蘋果亂成了一鍋粥

      頭條要聞

      臺學者:殲-15開射控雷達照射F-15 反而是日本撿到寶

      頭條要聞

      臺學者:殲-15開射控雷達照射F-15 反而是日本撿到寶

      體育要聞

      一位大學美術生,如何用4年成為頂級跑者?

      娛樂要聞

      章子怡被說拜高踩低 主動和卡梅隆熱聊

      財經要聞

      重磅!政治局會議定調明年經濟工作

      汽車要聞

      純電全尺寸大六座 凱迪拉克"小凱雷德"申報圖曝光

      態度原創

      教育
      本地
      房產
      旅游
      時尚

      教育要聞

      2025中國百強中學出爐!山東4所學校上榜!

      本地新聞

      云游安徽|七千年敘事,第一章寫在蚌埠

      房產要聞

      碧桂園,開始甩賣??诩业祝?/h3>

      旅游要聞

      “趣唱、趣跑、趣逛” 豐富游園體驗,世紀公園持續探索“公園+”

      除了大衣,今年最火的外套一定就是它了!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产男女猛烈无遮挡免费网站| 国产精品69毛片高清亚洲| 依兰县| 99精品国产一区二区三区2021| 天堂网www在线资源网| 老司机aⅴ在线精品导航| 乱中年女人伦av三区| 2025精品视频| 怀安县| 超碰8| 亚洲中文字幕日产乱码| 国产精品久久久久影院嫩草| 北条麻妃一区二区三区av高清| 精品一区二区三区无码免费直播| 1精品啪国产在线观看免费牛牛| 青青草乱人| 亚洲AV成人片| 丁香婷婷综合激情五月色| 久久久中日ab精品综合| 精品无码国产日韩制服丝袜| 中文字幕少妇人妻| 人妻窝窝| 超碰碰97| 99久久久精品免费观看国产 | 欧洲一区二区三区| 少妇人妻邻居| 欧美猛少妇色xxxxx猛叫| 亚洲图片另类| 亚洲AV第二区国产精品| 在线观看视频一区二区三区| 久久久久香蕉国产线看观看伊| 九九国产在线观看| 97香蕉碰碰人妻国产欧美| 中文字幕日产av| 蜜桃av在线| 欧美18videosex性欧美tube1080| 俺来也俺去啦最新在线| yy111111少妇无码影院| 张家港市| 国产免费AV电影| 通海县|