<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      Monet:賦予多模態(tài)大模型如人類一般的抽象視覺思考能力

      0
      分享至



      “Think with images”范式,即通過工具調(diào)用或代碼生成等方法來在思考過程的中間步引入輔助圖像(如裁剪、標(biāo)定、作輔助線等),已經(jīng)成為增強多模態(tài)大語言模型(MLLMs)視覺推理能力的重要范式。這類方案雖然取得了不錯的效果,但其對外部工具的依賴性也導(dǎo)致了幾個局限性:

      • 訓(xùn)練和推理復(fù)雜度高:訓(xùn)練時模型需要額外地學(xué)習(xí)各種工具和函數(shù)接口的使用方式,引入了額外的訓(xùn)練難度;同時,多輪的交互式推理增加了推理延遲。
      • 操作類型受限:模型的能力受限于工具類型,難以泛化到簡單工具無法應(yīng)對的復(fù)雜任務(wù)上。
      • 難以擴展為通用能力:每增加一類工具,就要重新標(biāo)注數(shù)據(jù)、設(shè)計接口,模型更像“工具調(diào)度中心”,而不是在真正“理解和想象”。

      Monet實現(xiàn)了一種訓(xùn)練MLLM直接在連續(xù)的隱空間思考的 Think with image 方法,不再依賴外部工具或代碼,而是通過生成連續(xù)的“隱式視覺嵌入”(latent visual embeddings),像人一樣在腦海中“打草稿、畫草圖、做空間想象”,再給出答案,從而將視覺思考能力真正內(nèi)化。團隊核心成員包括北京大學(xué)博士生王啟迅、史陽以及來自Amazon AGI SF Lab的王一飛。指導(dǎo)老師包括來自快手可靈團隊的張遠行和北京大學(xué)的英向華、王奕森。該工作已被 CVPR 2026 錄用。



      • 論文標(biāo)題:Monet: Reasoning in Latent Visual Space Beyond Images and Language
      • 論文鏈接:https://arxiv.org/abs/2511.21395
      • 代碼鏈接:https://github.com/NOVAglow646/Monet
      • 模型鏈接:https://huggingface.co/NOVAglow646/Monet-7B
      • 數(shù)據(jù)集鏈接:https://huggingface.co/datasets/NOVAglow646/Monet-SFT-125K

      訓(xùn)練多模態(tài)模型進行隱式視覺推理的挑戰(zhàn)

      多模態(tài)模型的隱式推理的訓(xùn)練存在兩大難點:

      一、隱式嵌入(latent embedding)的監(jiān)督信號難以獲取。一種直觀的思路是直接對齊模型生成的隱式嵌入(即模型最后一層的表示)和中間步輔助圖像的表示,來讓隱式嵌入編碼輔助圖像信息(如近期的幾項工作[1-2])。然而,輔助圖像的token數(shù)量往往成百上千,直接對齊會引入高昂的計算和存儲開銷,因此現(xiàn)有工作選擇壓縮圖像token為10個左右,或只取關(guān)鍵區(qū)域的少數(shù)token進行對齊。這進一步導(dǎo)致了細(xì)粒度視覺信息丟失、只能編碼裁剪區(qū)域的視覺信息而無法編碼全圖操作的信息。

      二、隱式嵌入難以被真正優(yōu)化。監(jiān)督微調(diào)(SFT)過程中,常規(guī)的“預(yù)測下一個詞”(next-token-prediction)的目標(biāo)很容易通過“記住”訓(xùn)練數(shù)據(jù)實現(xiàn),從而繞過對隱式嵌入的優(yōu)化;此外,強化學(xué)習(xí)(RL)過程中,常規(guī)的GRPO只能在文本token上計算損失,導(dǎo)致了獎勵信號難以直接施加到隱式嵌入上。

      方法概覽:

      監(jiān)督微調(diào) + 強化學(xué)習(xí)激發(fā)隱式視覺推理能力

      為了讓模型學(xué)會在隱空間進行視覺思考,作者提出了一個監(jiān)督微調(diào)(SFT)+強化學(xué)習(xí)(RL)的訓(xùn)練框架,以Qwen2.5-VL-7B為基模型進行訓(xùn)練。訓(xùn)練后的模型Monet-7B能在推理過程中自主決定何時啟動隱式思考,并生成一個特殊標(biāo)記(如“

      ”),此后輸出的若干向量,不再對應(yīng)可讀文字,而是被視作一段隱式的視覺嵌入插入思維鏈中。當(dāng)隱式嵌入達到預(yù)設(shè)的長度后,將回到語言推理模式。上述過程可在一次推理中交替進行。



      圖1左圖:Monet的推理過程示意。右圖:Monet的三階段SFT和RL(VLPO為作者提出的全新強化學(xué)習(xí)算法)過程示意。

      SFT數(shù)據(jù)集構(gòu)建:Monet-SFT-125K

      雖然目前已有不少公開的圖文交錯的思維鏈數(shù)據(jù)集[3-6],但它們存在如下的局限性:

      1.某些輔助圖像缺乏必要性:問題簡單,不用輔助圖像就能做對;

      2.某些輔助圖像不準(zhǔn)確:比如裁剪區(qū)域與答案無關(guān);

      3.缺少對于真正有價值的token的標(biāo)注:比如與答案最相關(guān)的少數(shù)關(guān)鍵token等。

      為了解決上述缺陷,作者提出了一個多階段的數(shù)據(jù)集校正流程。如下圖所示,從現(xiàn)有的圖文交錯CoT第一階段選出在只給出問題和輸入圖像時Qwen2.5-VL-7B回答錯誤的樣本以保證使用輔助圖像的必要性;

      第二階段在第一輪得到的樣本中,篩選出僅給出問題和輔助圖像(沒有問題圖像)時較強模型(Qwen2.5-VL-72B)能回答對的樣本,以確保輔助圖像的準(zhǔn)確性;

      第三階段,使用了閉源模型將對應(yīng)于輔助圖像中的關(guān)鍵視覺信息的文本token標(biāo)注出來,以作為后續(xù)訓(xùn)練的監(jiān)督信號。

      最終得到的Monet-SFT-125K包含多種類型的視覺操作(裁剪、標(biāo)定、做輔助線、生成新的視覺狀態(tài))和任務(wù)(以真實世界、圖表、OCR任務(wù)為主)。



      圖2Monet-SFT-125K數(shù)據(jù)集的構(gòu)建流程

      監(jiān)督微調(diào):

      讓模型自主將輔助圖像中的有價值信息編碼進隱式嵌入

      SFT分成三個階段。

      SFT第一階段:預(yù)熱。先在構(gòu)建的Monet-SFT-125K上進行預(yù)熱(warm-up)微調(diào),這一步是為了讓模型適應(yīng)圖文交錯的推理模式。若沒有這一過程,模型將容易忽略思維鏈中間的輔助圖像,如圖3所示。該步獲取的模型權(quán)重將用于后續(xù)階段。



      圖3 預(yù)熱微調(diào)過程中模型對于訓(xùn)練數(shù)據(jù)中對應(yīng)于關(guān)鍵觀察的token的預(yù)測準(zhǔn)確性。藍色:給出輔助圖像。灰色虛線:移除輔助圖像。綠色:二者準(zhǔn)確率差值。隨著預(yù)熱的進行,使用輔助圖像相比不使用時準(zhǔn)確率的提升越來越大,說明模型逐步學(xué)會利用中間步圖像。

      SFT第二階段:獲取高質(zhì)量的隱式嵌入。這一階段是為了獲取產(chǎn)生高質(zhì)量的隱式嵌入來作為第三階段的對齊目標(biāo)。為了避免直接對齊隱式嵌入和輔助圖像嵌入所帶來的高額開銷,作者提出了使用兩種監(jiān)督信號來指導(dǎo)隱式嵌入的生成。首先,為了使隱式嵌入能發(fā)揮與輔助圖像相似的效果,作者提出對齊給定輔助圖像和給定隱式嵌入時后續(xù)關(guān)鍵token的模型中間層表示(分別對應(yīng)于圖4中的“Teacher CoT”和“Student CoT”),即,采用如下的對齊損失:





      另外,為了使對齊損失確確實實是通過調(diào)整隱式嵌入而不是被“走捷徑”優(yōu)化的,作者提出讓對齊損失的梯度僅能通過隱式嵌入流向模型參數(shù)。實現(xiàn)細(xì)節(jié)可見原文。





      圖4 SFT第二階段示意。包含對齊損失和next-token-prediction損失兩部分。其中Teacher CoT為包含輔助圖像的圖文交錯CoT;Student CoT中輔助圖像后為生成的隱式嵌入,且輔助圖像能且僅能被隱式嵌入可見。

      SFT第三階段:讓模型學(xué)會“從零開始”隱式思考。由于上一階段隱式嵌入的產(chǎn)生是在隱式嵌入直接可見輔助圖像的情況下的,這與實際應(yīng)用時存在差異。

      為此,在第三階段中,作者將第二階段訓(xùn)練后模型產(chǎn)生的高質(zhì)量隱式嵌入作為目標(biāo),讓模型在不可見輔助圖像情況時產(chǎn)生的隱式嵌入與之對齊,如圖5所示。

      同時這一階段仍包含next-token-prediction損失,以讓隱式嵌入幫助后續(xù)推理。



      圖5 SFT第三階段示意。這一階段的目標(biāo)為對齊無輔助圖像時產(chǎn)生的隱式嵌入和來自第二階段的高質(zhì)量目標(biāo)隱式嵌入。VLPO:專為隱式思考設(shè)計的強化學(xué)習(xí)



      為此,作者提出了VLPO(Visual-latent policy optimization),通過估計隱式嵌入的生成概率來將其納入損失函數(shù)的計算之中。







      Monet帶來了分布內(nèi)和分布外視覺推理能力的提升



      圖6 分布內(nèi)的感知和推理任務(wù)上的性能(真實世界、圖表、OCR任務(wù))



      圖7 分布外視覺推理任務(wù)上的性能(抽象視覺推理任務(wù))

      主要結(jié)果:作者在分布內(nèi)任務(wù)(真實世界、圖表、OCR)和分布外任務(wù)(抽象視覺推理)上測試了Monet-7B。

      結(jié)果如圖6和圖7所示,Monet超過了SFT、SFT+GRPO以及現(xiàn)有的think with images和隱式視覺推理的基線。相比基模型,在分布內(nèi)和分布外任務(wù)分別取得了3%~9.75%和2.31%的提升。



      圖8 消融實驗。“Latent-only” BP為SFT階段二中讓對齊損失的梯度僅流向隱式嵌入的設(shè)計;“auxiliary img”為SFT階段二中在student COT中引入輔助圖像的操作。

      消融實驗:作者通過全面的消融實驗驗證了SFT階段各組件的必要性,以及提出的VLPO在SFT模型(Monet-SFT)基礎(chǔ)上帶來的進一步提升。

      值得注意的是,在Monet-SFT基礎(chǔ)上進一步進行GRPO并不能帶來穩(wěn)定的提升,印證了GRPO的局限性。

      探究隱式嵌入數(shù)量對性能的影響



      圖9 橫軸:測試時隱式嵌入數(shù)量。縱軸:測試準(zhǔn)確率。三條綠色線為Monet-SFT模型,訓(xùn)練時隱式嵌入數(shù)量分別為8、10、12;藍色為SFT(K=8)+VLPO(K=10);粉色為SFT(K=8)+GRPO.

      作者探究了不同的訓(xùn)練時和測試時隱式嵌入數(shù)量K對性能的影響。核心觀察總結(jié)如下:

      • 對于分布內(nèi)任務(wù),使用隱式思考確實相比純文本思考能帶來提升;對于分布外任務(wù),只有經(jīng)過VLPO訓(xùn)練的模型的隱式思考能相比純文本帶來額外提升。
      • 對于分布內(nèi)任務(wù),Monet-SFT模型展現(xiàn)出了測試時的縮放定律(test-time scaling law):測試時隨著隱式嵌入數(shù)量(甚至遠超訓(xùn)練時所見到的長度)增加性能上升;對于分布外任務(wù),只有VLPO展現(xiàn)出了這一趨勢;
      • GRPO主要提升非隱式思考的性能(測試時latent size=0),而對于隱式思考(測試時latent size>0)提升不明顯。

      更多細(xì)節(jié)請參考原文。

      參考文獻:

      [1] Zeyuan Yang, Xueyang Yu, Delin Chen, Maohao Shen, and Chuang Gan. Machine mental imagery: Empower multimodal reasoning with latent visual tokens. arXiv preprint arXiv:2506.17218, 2025.

      [2] Bangzheng Li, Ximeng Sun, Jiang Liu, Ze Wang, Jialian Wu, Xiaodong Yu, Hao Chen, Emad Barsoum, Muhao Chen, and Zicheng Liu. Latent visual reasoning. arXiv preprint arXiv:2509.24251, 2025.

      [3] Hao Shao, Shengju Qian, Han Xiao, Guanglu Song, Zhuofan Zong, Letian Wang, Yu Liu, and Hongsheng Li. Visual cot: Unleashing chain-of-thought reasoning in multi-modal language models. CoRR, 2024

      [4] Ang Li, Charles Wang, Kaiyu Yue, Zikui Cai, Ollie Liu, Deqing Fu, Peng Guo, Wang Bill Zhu, Vatsal Sharan, Robin Jia, et al. Zebra-cot: A dataset for interleaved vision language reasoning. arXiv preprint arXiv:2507.16746, 2025.

      [5] Xingyu Fu, Minqian Liu, Zhengyuan Yang, John Corring, Yijuan Lu, Jianwei Yang, Dan Roth, Dinei Florencio, and Cha Zhang. Refocus: Visual editing as a chain of thought for structured image understanding. In ICML, 2025

      [6] Ji Qi, Ming Ding, Weihan Wang, Yushi Bai, Qingsong Lv, Wenyi Hong, Bin Xu, Lei Hou, Juanzi Li, Yuxiao Dong, et al. Cogcom: A visual language model with chain-ofmanipulations reasoning. In ICLR, 2025.

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      61歲何智麗現(xiàn)狀:從日本回老家上海,與老友聚餐,面色紅潤沒發(fā)福

      61歲何智麗現(xiàn)狀:從日本回老家上海,與老友聚餐,面色紅潤沒發(fā)福

      以茶帶書
      2026-04-14 14:09:22
      太瘆人!男子曬小區(qū)電梯圖,網(wǎng)友調(diào)侃豪華火化爐,評論區(qū)毛骨悚然

      太瘆人!男子曬小區(qū)電梯圖,網(wǎng)友調(diào)侃豪華火化爐,評論區(qū)毛骨悚然

      譚談社會
      2026-04-23 01:58:02
      西甲懸念終結(jié) 皇馬遭絕平+4輪僅1勝 巴薩或11分領(lǐng)跑 最快下輪奪冠

      西甲懸念終結(jié) 皇馬遭絕平+4輪僅1勝 巴薩或11分領(lǐng)跑 最快下輪奪冠

      我愛英超
      2026-04-25 06:15:13
      《新聞聯(lián)播》大換血!康輝李梓萌退居幕后,四代接班人已悄然就位

      《新聞聯(lián)播》大換血!康輝李梓萌退居幕后,四代接班人已悄然就位

      橙星文娛
      2026-04-25 08:21:22
      2026年,如果你的家庭存款突破100萬,會發(fā)現(xiàn)一個驚人的真相!

      2026年,如果你的家庭存款突破100萬,會發(fā)現(xiàn)一個驚人的真相!

      藍色海邊
      2026-04-24 17:11:02
      臺球皇帝亨得利:丁俊暉碰上趙心童就打雞血,但他防守壓力太大了

      臺球皇帝亨得利:丁俊暉碰上趙心童就打雞血,但他防守壓力太大了

      楊華評論
      2026-04-25 01:56:27
      大鬧亞航的假空姐社會性死亡!“底褲”被扒,正臉流出,十級美顏

      大鬧亞航的假空姐社會性死亡!“底褲”被扒,正臉流出,十級美顏

      翰飛觀事
      2026-04-24 19:39:03
      女大學(xué)生泰國旅游被高價轉(zhuǎn)賣緬甸園區(qū),照片流出長這么好看被折磨太慘

      女大學(xué)生泰國旅游被高價轉(zhuǎn)賣緬甸園區(qū),照片流出長這么好看被折磨太慘

      不二表姐
      2026-04-24 22:41:14
      “騙走美國公民數(shù)十億美元!”美方摧毀緬甸大型電詐窩點,2名經(jīng)理被起訴

      “騙走美國公民數(shù)十億美元!”美方摧毀緬甸大型電詐窩點,2名經(jīng)理被起訴

      緬甸中文網(wǎng)
      2026-04-24 13:19:27
      72歲王健林,被逼到崩潰邊緣......

      72歲王健林,被逼到崩潰邊緣......

      酷溫coolwin
      2026-04-24 16:46:47
      31人搶一輛嚴(yán)重受損8400元起拍的小鵬汽車,有人出36800元拍下,法院稱車主已在車禍中身亡

      31人搶一輛嚴(yán)重受損8400元起拍的小鵬汽車,有人出36800元拍下,法院稱車主已在車禍中身亡

      極目新聞
      2026-04-24 17:49:19
      在當(dāng)下歷史的關(guān)鍵拐點,選擇中立,就是縱容邪惡

      在當(dāng)下歷史的關(guān)鍵拐點,選擇中立,就是縱容邪惡

      壹家言
      2026-04-24 21:46:00
      日本網(wǎng)友瘋換中文手機界面,直呼清爽十倍,中國文化悄悄出圈!

      日本網(wǎng)友瘋換中文手機界面,直呼清爽十倍,中國文化悄悄出圈!

      行者聊官
      2026-04-24 20:48:30
      猛人是從底層殺出來的

      猛人是從底層殺出來的

      漢周讀書
      2026-04-24 17:28:00
      “畸胎瘤殘留在咽喉”,有軟骨有脂肪!6歲男孩飲食習(xí)慣不對勁,上海醫(yī)生一查驚了……

      “畸胎瘤殘留在咽喉”,有軟骨有脂肪!6歲男孩飲食習(xí)慣不對勁,上海醫(yī)生一查驚了……

      環(huán)球網(wǎng)資訊
      2026-04-24 18:36:17
      重新奪回主場優(yōu)勢!塔圖姆布朗各25分,凱爾特人108-100險勝76人

      重新奪回主場優(yōu)勢!塔圖姆布朗各25分,凱爾特人108-100險勝76人

      全景體育V
      2026-04-25 09:47:43
      觸碰紅線,華晨宇撫仙湖演唱會被立刻叫停,原因被扒,令人唏噓

      觸碰紅線,華晨宇撫仙湖演唱會被立刻叫停,原因被扒,令人唏噓

      許三歲
      2026-04-24 22:36:22
      梁文鋒歷史性一刻,DeepSeek已無法阻擋,終于明白黃仁勛為何發(fā)飆

      梁文鋒歷史性一刻,DeepSeek已無法阻擋,終于明白黃仁勛為何發(fā)飆

      王新喜
      2026-04-24 18:35:07
      41歲老詹三節(jié)20+8+5 八村19分 湖人80-75火箭 杜蘭特缺陣阿門21+8

      41歲老詹三節(jié)20+8+5 八村19分 湖人80-75火箭 杜蘭特缺陣阿門21+8

      小徐講八卦
      2026-04-25 10:22:49
      江蘇一女子心血來潮拉出大學(xué)到工作十年賬單,查出爸爸給自己轉(zhuǎn)賬20多萬!本人瞬間破防;網(wǎng)友:默默付出的爸爸

      江蘇一女子心血來潮拉出大學(xué)到工作十年賬單,查出爸爸給自己轉(zhuǎn)賬20多萬!本人瞬間破防;網(wǎng)友:默默付出的爸爸

      臺州交通廣播
      2026-04-24 12:14:39
      2026-04-25 10:32:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12852文章數(shù) 142635關(guān)注度
      往期回顧 全部

      科技要聞

      DeepSeek V4牽手華為,價格依然"屠夫級"

      頭條要聞

      聲稱考慮效仿伊朗在馬六甲收"過路費"后 印尼財長改口

      頭條要聞

      聲稱考慮效仿伊朗在馬六甲收"過路費"后 印尼財長改口

      體育要聞

      上海男籃23連勝+主場全勝 姚明之后最強一季

      娛樂要聞

      鄧超最大的幸運,就是遇見孫儷

      財經(jīng)要聞

      別高估英偉達,別低估DeepSeek

      汽車要聞

      2026款樂道L90亮相北京車展 樂道L80正式官宣

      態(tài)度原創(chuàng)

      健康
      家居
      旅游
      手機
      房產(chǎn)

      干細(xì)胞如何讓燒燙傷皮膚"再生"?

      家居要聞

      自然肌理 溫潤美學(xué)

      旅游要聞

      西安周邊最值得去的寶藏小城!游客不多,景點硬核!浪一天0門票

      手機要聞

      全面回歸OPPO!realme真我商城明日起停止運營

      房產(chǎn)要聞

      新一輪教育大爆發(fā)來了!海口,開始瘋狂建學(xué)校!

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 色诱久久| 特级做a爰片毛片免费看无码| 廉江市| 亚洲の无码国产の无码步美| 无码日韩精品一区二区三区免费| 蓬安县| 国产成人无码一二三区视频| 亚洲日韩在线中文字幕| 色老大久久综合网天天| 亚洲成人动漫在线| 久久人午夜亚洲精品无码区| 午夜国人精品av免费看| 97人妻精品一区二区三区免费| 在线高清免费不卡全码| 精品久久久久久亚洲中文字幕| 国产97在线?|?日韩| 精品无码毛片| 欧美亚洲一区二区三区在线| 日本熟妇中文字幕三级| 日本丰满熟妇videossex8k| 嘉鱼县| 无码人妻精品丰满熟妇区| 你懂的国产在线| 欧美亚洲国产成人精品播放| 狠狠躁日日躁夜夜躁欧美老妇| 欧美和黑人XXXX猛交视频| 无码人妻视频一区二区三区| 蜜臀久久99精品久久久久久酒店| 秋霞av无码一区二区三区试看 | 一本综合久久| 99久热在线精品996热是什么| 玛纳斯县| 草裙社区精品视频播放| freeAV爽视频| www.jizz国产| 久久精品熟女亚洲av艳妇| 亚洲国产成人精品激情资源9| 日本色导航| 亚洲av无码久久精品色欲| 无码人妻丰满熟妇区96| 玉屏|