網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Being-VL的視覺(jué)BPE路線：把「看」和「說(shuō)」真正統(tǒng)一起來(lái)

2025-10-09 10:59:57　來(lái)源: 機(jī)器之心Pro

北京舉報(bào)

分享至

在多模態(tài)模型里，CLIP-style encoder往往把視覺(jué)表征過(guò)早地拉近到文本空間：對(duì)于抽象層面的問(wèn)答，如總結(jié)圖片大致內(nèi)容，這樣的表征其實(shí)是沒(méi)有什么問(wèn)題的，但一旦追問(wèn)與語(yǔ)言無(wú)強(qiáng)依賴的細(xì)節(jié)，模型就更易出現(xiàn)幻覺(jué)。根本原因之一，是在文本空間對(duì)齊之前，原生視覺(jué)結(jié)構(gòu)已被不可逆地壓縮 / 丟失，而語(yǔ)言模型不得不「二次解碼」來(lái)自他模態(tài)的 embedding，導(dǎo)致對(duì)齊脆弱、推理鏈條變長(zhǎng)。

為此，北大、UC San Diego 和 BeingBeyond 聯(lián)合提出一種新的方法——Being-VL 的視覺(jué) BPE 路線。Being-VL 的出發(fā)點(diǎn)是把這一步后置：先在純自監(jiān)督、無(wú) language condition的設(shè)定下，把圖像離散化并「分詞」，再與文本在同一詞表、同一序列中由同一 Transformer 統(tǒng)一建模，從源頭縮短跨模態(tài)鏈路并保留視覺(jué)結(jié)構(gòu)先驗(yàn)。

Being-VL 的實(shí)現(xiàn)分為三步。首先用 VQ（如 VQ-GAN）把圖像量化為離散VQ tokens；隨后訓(xùn)練一個(gè)視覺(jué)版 BPE，不只看共現(xiàn)頻次，還顯式度量空間一致性，以優(yōu)先合并那些既常見(jiàn)又在不同圖像中相對(duì)位置穩(wěn)定的 token 對(duì)，得到更具語(yǔ)義與結(jié)構(gòu)的BPE tokens；最后把視覺(jué) tokens 與文本 tokens 串成同一序列，進(jìn)入同一個(gè)自回歸 LLM 統(tǒng)一建模，不再依賴額外 projector 或 CLIP 對(duì)齊。整個(gè) BPE 詞表學(xué)習(xí)僅依賴圖像統(tǒng)計(jì)，不看文本，真正把「語(yǔ)言對(duì)齊」留到后續(xù)階段。

論文鏈接：https://arxiv.org/abs/2506.23639
項(xiàng)目主頁(yè)：
https://beingbeyond.github.io/Being-VL-0.5
GitHub：
https://github.com/beingbeyond/Being-VL-0.5

與「把視覺(jué)直接投到文本空間」有何本質(zhì)不同？

傳統(tǒng)做法讓 LLM 去再解釋外部視覺(jué) encoder 的連續(xù) embedding；即便 encoder 學(xué)到了豐富模式，沒(méi)有對(duì)應(yīng)解碼器，LLM也要額外學(xué)習(xí)如何「讀懂」其他模態(tài)，這會(huì)放大模態(tài)鴻溝并誘發(fā)幻覺(jué)。Being-VL 把視覺(jué)提前離散化為可組合的 tokens，并在序列里與文本統(tǒng)一建模，減少表征形態(tài)錯(cuò)位，縮短跨模態(tài)因果鏈條，從而在保持感知細(xì)節(jié)與高層語(yǔ)義的同時(shí)，降低「想象成分」。

針對(duì)視覺(jué)場(chǎng)景設(shè)計(jì)的 BPE tokenizer：頻次 × 空間一致性

文本大模型中的 BPE 只看「誰(shuí)和誰(shuí)經(jīng)常相鄰」。在視覺(jué)里，如果只按頻次去合并，容易破壞結(jié)構(gòu)。Being-VL 因此提出Priority-Guided Encoding：基于 score P (a,b)=F (a,b)+α?S (a,b) 進(jìn)行 BPE 詞表構(gòu)建，其中 F 為鄰接頻次，S 衡量在不同圖像中的相對(duì)位置一致性，相似度用高斯核對(duì)齊。這樣得到的視覺(jué)詞表既覆蓋高頻模式，又保留空間結(jié)構(gòu)。并且這個(gè)過(guò)程完全不依賴文本。

三階段訓(xùn)練：從 VQ/BPE embeddings 到 LLM backbone 的漸進(jìn)解凍

為了讓統(tǒng)一的離散表示平滑接入語(yǔ)言模型，Being-VL 采用三階段（3-stage）訓(xùn)練并顯式控制解凍順序：

Stage-1 / Embedding Alignment：只訓(xùn)練新擴(kuò)展的視覺(jué) token embeddings（包括 VQ 與 BPE 兩部分），其余參數(shù)全部?jī)鼋Y(jié)，完成基礎(chǔ)對(duì)齊而不擾動(dòng)原有語(yǔ)言能力。
Stage-2 / Selective Fine-tuning：解凍 LLM 前若干層（默認(rèn)約 25%），其余層繼續(xù)凍結(jié)，讓跨模態(tài)交互首先在底層表征中發(fā)生。
Stage-3 / Full Fine-tuning：全量解凍，在更復(fù)雜的 reasoning /instruction 數(shù)據(jù)上收尾，強(qiáng)化高級(jí)能力。

與解凍節(jié)奏配套，數(shù)據(jù)采用curriculum：從基礎(chǔ) caption 與屬性識(shí)別，逐步過(guò)渡到視覺(jué)問(wèn)答與多輪指令，顯式對(duì)齊 BPE 的「由局部到整體」的層級(jí)特性。消融表明：漸進(jìn)解凍 + curriculum明顯優(yōu)于單階段訓(xùn)練；只用其中任一也不如兩者合用。

實(shí)驗(yàn)與分析

Being-VL 的一系列對(duì)照實(shí)驗(yàn)給出一個(gè)清晰結(jié)論：把圖像先離散化并做視覺(jué) BPE，再與文本在同一序列里統(tǒng)一建模，既穩(wěn)又有效。相較傳統(tǒng)「先拉到文本空間」的做法，這種統(tǒng)一的離散表示更少丟失原生視覺(jué)信息，因而在細(xì)節(jié)敏感的問(wèn)答與抗幻覺(jué)上更可靠；而一旦移除 BPE，性能與穩(wěn)健性都會(huì)整體下降，說(shuō)明增益主要來(lái)自于把「常見(jiàn)且空間關(guān)系穩(wěn)定」的視覺(jué)模式合成更有語(yǔ)義的 tokens，讓 LLM 在更合適的粒度上推理。

訓(xùn)練與規(guī)模選擇方面也有明確「可執(zhí)行」的答案。三階段漸進(jìn)解凍 + curriculum是默認(rèn)策略：先只對(duì)齊VQ/BPE embeddings，再解凍一部分LLM backbone，最后全量微調(diào)，能在不擾動(dòng)語(yǔ)言能力的前提下穩(wěn)步提升跨模態(tài)理解。

Visual BPE Token 激活機(jī)制可視化

Embedding 權(quán)重的可視化揭示了詞表設(shè)計(jì)對(duì)跨模態(tài)表征的影響：在不使用 visual BPE 的基線模型（上圖）中，文本與視覺(jué) token 的權(quán)重呈現(xiàn)顯著偏置與分離，體現(xiàn)出明顯的模態(tài)隔閡；而引入不同詞表大小的 visual BPE（中、下圖）后，兩類 token 的權(quán)重分布趨于均衡與同構(gòu)，說(shuō)明 BPE 在更細(xì)粒度上對(duì)齊了子詞 / 子片段層面的統(tǒng)計(jì)與表征空間。由此帶來(lái)的直接效應(yīng)是跨模態(tài)注意力的共享基準(zhǔn)更一致、梯度信號(hào)更可比，從而降低模態(tài)間的分布漂移與共現(xiàn)偏差。

詞表大小對(duì)訓(xùn)練效率與擴(kuò)展?jié)摿Φ挠绊?/p>

研究進(jìn)一步考察了 BPE 詞表規(guī)模的作用。可視化結(jié)果顯示：在訓(xùn)練資源受限的情形下，與 VQ 等規(guī)模的碼本在表達(dá)能力與訓(xùn)練效率之間取得了更佳平衡，處于「甜點(diǎn)區(qū)」。當(dāng)詞表繼續(xù)增大（≥16K）時(shí)，會(huì)出現(xiàn)大量低利用率、呈稀疏分布的 token，導(dǎo)致單位算力的收益下降。不過(guò)，這也預(yù)示著在數(shù)據(jù)規(guī)模擴(kuò)張時(shí)存在更強(qiáng)的上限潛力。論文提出的方法可在更大的詞表與更多數(shù)據(jù)的配合下，釋放這部分?jǐn)U展空間，進(jìn)一步提升模型表現(xiàn)。

發(fā)展與小結(jié)（Being-VL-0 → Being-VL-0.5）

Being-VL-0 (ICLR 2025)

Being-VL-0 給出的是視覺(jué)離散化 + BPE 的可行性與動(dòng)機(jī)：從理論分析與 toy 實(shí)驗(yàn)出發(fā)，得出結(jié)論 BPE-style 合并能把必要的結(jié)構(gòu)先驗(yàn)灌注進(jìn) token，使 Transformer 更易學(xué)習(xí)；并初步探索了兩階段訓(xùn)練（PT→SFT）、文本 embedding 凍結(jié)策略與數(shù)據(jù) scaling 帶來(lái)的穩(wěn)健增益。
項(xiàng)目地址：
https://github.com/BeingBeyond/Being-VL-0

Being-VL-0.5 (ICCV 2025 highlight)

Being-VL-0.5 則把這一路線進(jìn)一步優(yōu)化為一個(gè)統(tǒng)一建模框架：頻次與空間一致性聯(lián)合的 Priority-Guided Encoding、VQ/BPE/LLM 三階段漸進(jìn)解凍、以及配套的 curriculum 數(shù)據(jù)策略。
項(xiàng)目地址：
https://beingbeyond.github.io/Being-VL-0.5

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.