<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      Being-VL的視覺(jué)BPE路線:把「看」和「說(shuō)」真正統(tǒng)一起來(lái)

      0
      分享至



      在多模態(tài)模型里,CLIP-style encoder往往把視覺(jué)表征過(guò)早地拉近到文本空間:對(duì)于抽象層面的問(wèn)答,如總結(jié)圖片大致內(nèi)容,這樣的表征其實(shí)是沒(méi)有什么問(wèn)題的,但一旦追問(wèn)與語(yǔ)言無(wú)強(qiáng)依賴的細(xì)節(jié),模型就更易出現(xiàn)幻覺(jué)。根本原因之一,是在文本空間對(duì)齊之前,原生視覺(jué)結(jié)構(gòu)已被不可逆地壓縮 / 丟失,而語(yǔ)言模型不得不「二次解碼」來(lái)自他模態(tài)的 embedding,導(dǎo)致對(duì)齊脆弱、推理鏈條變長(zhǎng)。

      為此,北大、UC San Diego 和 BeingBeyond 聯(lián)合提出一種新的方法——Being-VL 的視覺(jué) BPE 路線。Being-VL 的出發(fā)點(diǎn)是把這一步后置:先在純自監(jiān)督、無(wú) language condition的設(shè)定下,把圖像離散化并「分詞」,再與文本在同一詞表、同一序列中由同一 Transformer 統(tǒng)一建模,從源頭縮短跨模態(tài)鏈路并保留視覺(jué)結(jié)構(gòu)先驗(yàn)。

      Being-VL 的實(shí)現(xiàn)分為三步。首先用 VQ(如 VQ-GAN)把圖像量化為離散VQ tokens;隨后訓(xùn)練一個(gè)視覺(jué)版 BPE,不只看共現(xiàn)頻次,還顯式度量空間一致性,以優(yōu)先合并那些既常見(jiàn)又在不同圖像中相對(duì)位置穩(wěn)定的 token 對(duì),得到更具語(yǔ)義與結(jié)構(gòu)的BPE tokens;最后把視覺(jué) tokens 與文本 tokens 串成同一序列,進(jìn)入同一個(gè)自回歸 LLM 統(tǒng)一建模,不再依賴額外 projector 或 CLIP 對(duì)齊。整個(gè) BPE 詞表學(xué)習(xí)僅依賴圖像統(tǒng)計(jì),不看文本,真正把「語(yǔ)言對(duì)齊」留到后續(xù)階段。





      • 論文鏈接:https://arxiv.org/abs/2506.23639
      • 項(xiàng)目主頁(yè):
      • https://beingbeyond.github.io/Being-VL-0.5
      • GitHub:
      • https://github.com/beingbeyond/Being-VL-0.5

      與「把視覺(jué)直接投到文本空間」有何本質(zhì)不同?

      傳統(tǒng)做法讓 LLM 去再解釋外部視覺(jué) encoder 的連續(xù) embedding;即便 encoder 學(xué)到了豐富模式,沒(méi)有對(duì)應(yīng)解碼器,LLM也要額外學(xué)習(xí)如何「讀懂」其他模態(tài),這會(huì)放大模態(tài)鴻溝并誘發(fā)幻覺(jué)。Being-VL 把視覺(jué)提前離散化為可組合的 tokens,并在序列里與文本統(tǒng)一建模,減少表征形態(tài)錯(cuò)位,縮短跨模態(tài)因果鏈條,從而在保持感知細(xì)節(jié)與高層語(yǔ)義的同時(shí),降低「想象成分」。


      針對(duì)視覺(jué)場(chǎng)景設(shè)計(jì)的 BPE tokenizer:頻次 × 空間一致性

      文本大模型中的 BPE 只看「誰(shuí)和誰(shuí)經(jīng)常相鄰」。在視覺(jué)里,如果只按頻次去合并,容易破壞結(jié)構(gòu)。Being-VL 因此提出Priority-Guided Encoding:基于 score P (a,b)=F (a,b)+α?S (a,b) 進(jìn)行 BPE 詞表構(gòu)建,其中 F 為鄰接頻次,S 衡量在不同圖像中的相對(duì)位置一致性,相似度用高斯核對(duì)齊。這樣得到的視覺(jué)詞表既覆蓋高頻模式,又保留空間結(jié)構(gòu)。并且這個(gè)過(guò)程完全不依賴文本。

      三階段訓(xùn)練:從 VQ/BPE embeddings 到 LLM backbone 的漸進(jìn)解凍

      為了讓統(tǒng)一的離散表示平滑接入語(yǔ)言模型,Being-VL 采用三階段(3-stage)訓(xùn)練并顯式控制解凍順序:

      • Stage-1 / Embedding Alignment:只訓(xùn)練新擴(kuò)展的視覺(jué) token embeddings(包括 VQ 與 BPE 兩部分),其余參數(shù)全部?jī)鼋Y(jié),完成基礎(chǔ)對(duì)齊而不擾動(dòng)原有語(yǔ)言能力。
      • Stage-2 / Selective Fine-tuning:解凍 LLM 前若干層(默認(rèn)約 25%),其余層繼續(xù)凍結(jié),讓跨模態(tài)交互首先在底層表征中發(fā)生。
      • Stage-3 / Full Fine-tuning:全量解凍,在更復(fù)雜的 reasoning /instruction 數(shù)據(jù)上收尾,強(qiáng)化高級(jí)能力。

      與解凍節(jié)奏配套,數(shù)據(jù)采用curriculum:從基礎(chǔ) caption 與屬性識(shí)別,逐步過(guò)渡到視覺(jué)問(wèn)答與多輪指令,顯式對(duì)齊 BPE 的「由局部到整體」的層級(jí)特性。消融表明:漸進(jìn)解凍 + curriculum明顯優(yōu)于單階段訓(xùn)練;只用其中任一也不如兩者合用。



      實(shí)驗(yàn)與分析

      Being-VL 的一系列對(duì)照實(shí)驗(yàn)給出一個(gè)清晰結(jié)論:把圖像先離散化并做視覺(jué) BPE,再與文本在同一序列里統(tǒng)一建模,既穩(wěn)又有效。相較傳統(tǒng)「先拉到文本空間」的做法,這種統(tǒng)一的離散表示更少丟失原生視覺(jué)信息,因而在細(xì)節(jié)敏感的問(wèn)答與抗幻覺(jué)上更可靠;而一旦移除 BPE,性能與穩(wěn)健性都會(huì)整體下降,說(shuō)明增益主要來(lái)自于把「常見(jiàn)且空間關(guān)系穩(wěn)定」 的視覺(jué)模式合成更有語(yǔ)義的 tokens,讓 LLM 在更合適的粒度上推理。

      訓(xùn)練與規(guī)模選擇方面也有明確「可執(zhí)行」的答案。三階段漸進(jìn)解凍 + curriculum是默認(rèn)策略:先只對(duì)齊VQ/BPE embeddings,再解凍一部分LLM backbone,最后全量微調(diào),能在不擾動(dòng)語(yǔ)言能力的前提下穩(wěn)步提升跨模態(tài)理解。

      Visual BPE Token 激活機(jī)制可視化




      Embedding 權(quán)重的可視化揭示了詞表設(shè)計(jì)對(duì)跨模態(tài)表征的影響:在不使用 visual BPE 的基線模型(上圖)中,文本與視覺(jué) token 的權(quán)重呈現(xiàn)顯著偏置與分離,體現(xiàn)出明顯的模態(tài)隔閡;而引入不同詞表大小的 visual BPE(中、下圖)后,兩類 token 的權(quán)重分布趨于均衡與同構(gòu),說(shuō)明 BPE 在更細(xì)粒度上對(duì)齊了子詞 / 子片段層面的統(tǒng)計(jì)與表征空間。由此帶來(lái)的直接效應(yīng)是跨模態(tài)注意力的共享基準(zhǔn)更一致、梯度信號(hào)更可比,從而降低模態(tài)間的分布漂移與共現(xiàn)偏差。

      詞表大小對(duì)訓(xùn)練效率與擴(kuò)展?jié)摿Φ挠绊?/p>




      研究進(jìn)一步考察了 BPE 詞表規(guī)模的作用。可視化結(jié)果顯示:在訓(xùn)練資源受限的情形下,與 VQ 等規(guī)模的碼本在表達(dá)能力與訓(xùn)練效率之間取得了更佳平衡,處于「甜點(diǎn)區(qū)」。當(dāng)詞表繼續(xù)增大(≥16K)時(shí),會(huì)出現(xiàn)大量低利用率、呈稀疏分布的 token,導(dǎo)致單位算力的收益下降。不過(guò),這也預(yù)示著在數(shù)據(jù)規(guī)模擴(kuò)張時(shí)存在更強(qiáng)的上限潛力。論文提出的方法可在更大的詞表與更多數(shù)據(jù)的配合下,釋放這部分?jǐn)U展空間,進(jìn)一步提升模型表現(xiàn)。

      發(fā)展與小結(jié)(Being-VL-0 → Being-VL-0.5)

      Being-VL-0 (ICLR 2025)

      • Being-VL-0 給出的是視覺(jué)離散化 + BPE 的可行性與動(dòng)機(jī):從理論分析與 toy 實(shí)驗(yàn)出發(fā),得出結(jié)論 BPE-style 合并能把必要的結(jié)構(gòu)先驗(yàn)灌注進(jìn) token,使 Transformer 更易學(xué)習(xí);并初步探索了兩階段訓(xùn)練(PT→SFT)、文本 embedding 凍結(jié)策略與數(shù)據(jù) scaling 帶來(lái)的穩(wěn)健增益。
      • 項(xiàng)目地址:
      • https://github.com/BeingBeyond/Being-VL-0

      Being-VL-0.5 (ICCV 2025 highlight)

      • Being-VL-0.5 則把這一路線進(jìn)一步優(yōu)化為一個(gè)統(tǒng)一建模框架:頻次與空間一致性聯(lián)合的 Priority-Guided Encoding、VQ/BPE/LLM 三階段漸進(jìn)解凍、以及配套的 curriculum 數(shù)據(jù)策略。
      • 項(xiàng)目地址:
      • https://beingbeyond.github.io/Being-VL-0.5

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      安徽多地紀(jì)委監(jiān)委通報(bào):1人主動(dòng)投案,9人被查處!

      安徽多地紀(jì)委監(jiān)委通報(bào):1人主動(dòng)投案,9人被查處!

      鳳凰網(wǎng)安徽
      2026-01-24 17:20:27
      用頓巴斯換8000億美元?特朗普驚嘆:烏克蘭在零下20度環(huán)境里生活

      用頓巴斯換8000億美元?特朗普驚嘆:烏克蘭在零下20度環(huán)境里生活

      鷹眼Defence
      2026-01-24 17:47:39
      聶衛(wèi)平女徒弟只有初段,卻是“第一美女棋手”,嫁富商后如今怎樣

      聶衛(wèi)平女徒弟只有初段,卻是“第一美女棋手”,嫁富商后如今怎樣

      一娛三分地
      2026-01-24 16:28:10
      整天開(kāi)會(huì)有啥必要啊?

      整天開(kāi)會(huì)有啥必要啊?

      北京老付
      2026-01-20 10:59:33
      iPhone 天氣App預(yù)報(bào)被批離譜 95%從業(yè)者盼它消失

      iPhone 天氣App預(yù)報(bào)被批離譜 95%從業(yè)者盼它消失

      3DM游戲
      2026-01-23 11:28:49
      科學(xué)家讓一對(duì)情侶在核磁共振里實(shí)戰(zhàn),才發(fā)現(xiàn)人體驚人真相!

      科學(xué)家讓一對(duì)情侶在核磁共振里實(shí)戰(zhàn),才發(fā)現(xiàn)人體驚人真相!

      徐德文科學(xué)頻道
      2026-01-06 19:51:55
      503票贊成9票反對(duì),歐洲通過(guò)決議,要求釋放黎智英,中方反將一軍

      503票贊成9票反對(duì),歐洲通過(guò)決議,要求釋放黎智英,中方反將一軍

      科普100克克
      2026-01-23 17:52:43
      北京下了死命令,2027年底前,所有中小學(xué)必須告別“校外配餐”

      北京下了死命令,2027年底前,所有中小學(xué)必須告別“校外配餐”

      近史博覽
      2026-01-19 15:32:32
      李湘被質(zhì)疑利用王詩(shī)齡洗錢,其畫成為她工具,與大和尚黑歷史被挖

      李湘被質(zhì)疑利用王詩(shī)齡洗錢,其畫成為她工具,與大和尚黑歷史被挖

      花哥扒娛樂(lè)
      2026-01-19 20:15:26
      一夜之間全黑了!上海多家商鋪報(bào)警!網(wǎng)友目瞪口呆:真實(shí)的商戰(zhàn)……

      一夜之間全黑了!上海多家商鋪報(bào)警!網(wǎng)友目瞪口呆:真實(shí)的商戰(zhàn)……

      環(huán)球網(wǎng)資訊
      2026-01-24 07:05:16
      央視不直播!今晚7:35,CBA焦點(diǎn)大戰(zhàn),杜鋒力拼雙殺,謹(jǐn)防被爆冷

      央視不直播!今晚7:35,CBA焦點(diǎn)大戰(zhàn),杜鋒力拼雙殺,謹(jǐn)防被爆冷

      萌蘭聊個(gè)球
      2026-01-24 13:21:26
      1940年炊事員在朱德飯里下毒,槍斃之時(shí),楊奇清提出:重審此案

      1940年炊事員在朱德飯里下毒,槍斃之時(shí),楊奇清提出:重審此案

      鶴羽說(shuō)個(gè)事
      2026-01-24 15:14:20
      周總理逝世21年后,中國(guó)銀行核查賬目時(shí)發(fā)現(xiàn)他名下存有巨額存款,一番調(diào)查后揭開(kāi)了背后的真相

      周總理逝世21年后,中國(guó)銀行核查賬目時(shí)發(fā)現(xiàn)他名下存有巨額存款,一番調(diào)查后揭開(kāi)了背后的真相

      寄史言志
      2026-01-17 16:37:15
      張又俠、劉振立涉嫌嚴(yán)重違紀(jì)違法被立案審查調(diào)查

      張又俠、劉振立涉嫌嚴(yán)重違紀(jì)違法被立案審查調(diào)查

      東部戰(zhàn)區(qū)
      2026-01-24 15:32:22
      貝克漢姆次子在家族風(fēng)波后首露面,帶著哥哥布魯克林的“前女友”

      貝克漢姆次子在家族風(fēng)波后首露面,帶著哥哥布魯克林的“前女友”

      譯言
      2026-01-21 21:34:08
      中國(guó)拒絕日本入常,日代表竟公開(kāi)反駁?轉(zhuǎn)頭發(fā)現(xiàn),中方又加碼反制

      中國(guó)拒絕日本入常,日代表竟公開(kāi)反駁?轉(zhuǎn)頭發(fā)現(xiàn),中方又加碼反制

      通文知史
      2026-01-23 13:45:03
      和平委員會(huì)剛宣布就生變?不到兩天有國(guó)家退出,特朗普急發(fā)撤銷令

      和平委員會(huì)剛宣布就生變?不到兩天有國(guó)家退出,特朗普急發(fā)撤銷令

      風(fēng)信子的花
      2026-01-24 16:25:13
      iPhone Air天貓店降價(jià)2000元:國(guó)補(bǔ)后5499元起,限量1.3萬(wàn)臺(tái)

      iPhone Air天貓店降價(jià)2000元:國(guó)補(bǔ)后5499元起,限量1.3萬(wàn)臺(tái)

      識(shí)礁Farsight
      2026-01-24 00:03:12
      俄國(guó)跌倒,中國(guó)吃飽?若俄羅斯二次解體,中國(guó)能得到哪些利益?

      俄國(guó)跌倒,中國(guó)吃飽?若俄羅斯二次解體,中國(guó)能得到哪些利益?

      青途歷史
      2026-01-22 21:24:27
      氣溫驟跌預(yù)警高掛!河南新一輪雨雪上線!

      氣溫驟跌預(yù)警高掛!河南新一輪雨雪上線!

      大象新聞
      2026-01-24 18:49:03
      2026-01-24 20:12:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12179文章數(shù) 142549關(guān)注度
      往期回顧 全部

      科技要聞

      特斯拉Cybercrab即將落地 每公里不到1塊錢

      頭條要聞

      胖東來(lái)金飾每克便宜200元被搶爆 有人拖著行李箱去買

      頭條要聞

      胖東來(lái)金飾每克便宜200元被搶爆 有人拖著行李箱去買

      體育要聞

      當(dāng)家球星打替補(bǔ),他們?cè)诠室鈹[爛?

      娛樂(lè)要聞

      李微漪更新:狼王格林去世,3字淚目

      財(cái)經(jīng)要聞

      “百年老字號(hào)”張小泉遭60億債務(wù)壓頂

      汽車要聞

      有增程和純電版可選 日產(chǎn)NX8或于3-4月間上市

      態(tài)度原創(chuàng)

      游戲
      教育
      藝術(shù)
      親子
      本地

      《光環(huán)2》重制版?zhèn)髀勂毓猓簾o(wú)多人模式 新增沖刺機(jī)制

      教育要聞

      父母越嘮叨 家里就越旺

      藝術(shù)要聞

      最偉大的照片:《入侵布拉格1968》

      親子要聞

      親愛(ài)滴告訴你,我有許多小淘氣

      本地新聞

      云游中國(guó)|格爾木的四季朋友圈,張張值得你點(diǎn)贊

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 亚洲码欧美码一区二区三区| 国产美女久久久亚洲综合| 德阳市| 少妇被粗大猛进进出出| 亚洲图片视频丝袜| 成人综合色图| 亚洲人妻一区二区精品| 亚洲中文无码手机永久| 欧美肥妇多毛bbw| 国产一区丝袜高跟鞋| 新版资源天堂中文| 融水| 欧美xxxxx在线观看| 白人无码| 亚洲无码天堂| 亚洲av中文| 亚洲综合色吧| 动漫AV纯肉无码AV电影网| 色猫咪av在线观看| 婷婷伊人綜合中文字幕| 成年大片免费视频播放手机不卡| 欧美最猛性xxxxx大叫| 北海市| 推油少妇久久99久久99久久 | 全部免费a级毛片| 天天综合天天做天天综合| 无码日日模日日碰夜夜爽| 国内精品伊人久久久久777| 夏河县| 精品人妻大屁股白浆无码| 精久视频| 亚洲欧美日韩国产手机在线| 国产激情久久久久成熟影院苍井空| 99re66| 亚洲日本天堂| 白嫩人妻成人精品久久| 亚洲国产午夜精品福利| 人人妻人人爽人人澡欧美一区| 最新的国产成人精品2022 | 午夜拍拍| 亚洲国产精品ⅴa在线观看|