<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      打破文本記憶局限!ViLoMem要記視覺關注點,顯著提升多模態推理能力!

      0
      分享至

      文章來源:我愛計算機視覺(ID:aicvml)

      你是否發現,現在的多模態大模型(MLLMs)雖然在單次回答上表現驚艷,但往往像個“健忘癥患者”?它們處理每一個問題時都是從零開始(de novo),反復掉進同一個坑里,昨天犯過的視覺識別錯誤,今天換個姿勢又犯一遍。

      已有的記憶增強Agent大多只是簡單地把過去的“軌跡”存起來。但這種做法有兩個硬傷:一是“撿了芝麻丟了西瓜”,隨著記憶被反復壓縮,關鍵的領域知識逐漸流失;二是“偏科”,往往只記住了邏輯層面的總結,卻丟掉了視覺感知的細節。這完全不符合人類的認知習慣——我們的語義記憶是“多模態且融合”的,既有對“長什么樣”的視覺印象,也有對“怎么推理”的邏輯抽象。

      針對這個痛點,南京理工大學聯合百度等機構的研究團隊提出了一種全新的雙流記憶框架——ViLoMem(Visual-Logical Memory)。它像人類大腦一樣,分門別類地存儲“視覺干擾模式”和“邏輯推理錯誤”,讓模型不僅知道“怎么想”,更知道“往哪看”。在六個多模態基準測試中,ViLoMem顯著減少了重復的視覺和邏輯錯誤,特別是在數學推理任務上表現搶眼。



      • 論文地址 :https://arxiv.org/abs/2511.21678

      • 機構 :南京理工大學、百度、阿德萊德大學AIML、新加坡科技設計大學

      • 作者 :Weihao Bo, Shan Zhang, Yanpeng Sun等

      • 項目主頁 :https://weihao-bo.github.io/ViLoMeo-page/

      • 代碼倉庫 :https://github.com/weihao-bo/ViLoMem

      為什么我們需要“視覺-邏輯”雙流記憶?

      現有的多模態模型在解決復雜問題(特別是數學和圖表題)時,很多時候不是“腦子”不夠用,而是“眼睛”沒看準。比如,把圖中的三角形看成了直角三角形,或者忽略了關鍵的陰影部分。

      如下圖1所示,當模型面對一個多模態問題時,早期的嘗試可能既包含邏輯錯誤,也包含視覺錯誤。如果只通過文本反饋來修正,模型往往難以糾正底層的感知偏差。


      ViLoMem 的核心洞見在于:視覺注意力的錯誤直接導致了下游的邏輯幻覺,形成連鎖反應。 因此,必須將“視覺干擾”和“邏輯幻覺”解耦,分別建立記憶。

      • 視覺流(Visual Stream) :負責記住“哪里容易看錯”。比如,“當看到這種反光的物體表面時,不要誤以為是某種材質”。

      • 邏輯流(Logical Stream) :負責記住“推理規則”。比如,“應用垂直平分線定理前,先確認點是否在直線上”。

      這種設計靈感來源于人類的認知神經科學:人類的大腦有專門的視覺聯想皮層(處理視覺語義)和頂下小葉等區域(處理抽象規則),并通過前顳葉(ATL)進行整合。ViLoMem 正是模擬了這種機制。

      ViLoMem 框架詳解:生長與精煉

      ViLoMem 是一個即插即用的雙流記憶框架,通過一個閉環的“記憶周期”(Memory Cycle)來實現持續學習。整個流程包括記憶的檢索、利用、生成和更新。


      記憶生成:精準歸因,結構化存儲

      當模型在某個問題上失敗時,ViLoMem 不會籠統地記錄“這題做錯了”,而是啟動并行的錯誤歸因生成機制

      1. 視覺記憶生成 :利用 MLLM 分析圖像和錯誤軌跡,判斷是否發生了視覺誤解(如對象混淆、符號遺漏)。如果是,則生成一條 視覺指南(Visual Guideline) ,告訴模型“下次遇到類似的圖,要特別注意查看XXX區域”。

      2. 邏輯記憶生成 :利用 LLM 純粹從文本層面分析推理鏈,識別計算錯誤或公式誤用,生成 邏輯指南(Logic Guideline)

      為了避免記憶庫無限膨脹導致檢索困難,ViLoMem 遵循“生長與精煉(Grow-and-Refine)”原則。新生成的指南會與已有記憶進行相似度比對:如果發現相似的錯誤模式,就進行合并(Merge),提煉出更通用的規則;如果是新的錯誤類型,則創建(Create)新的記憶條目。這種機制有效防止了災難性遺忘和知識碎片化。

      記憶檢索:雙重策略,有的放矢

      在解決新問題時,ViLoMem 采用差異化的檢索策略來獲取最相關的建議:

      • 視覺記憶檢索(兩階段法)

        • 第1步 :先用圖像嵌入(Image Embedding)快速召回視覺上相似的歷史案例。

        • 第2步 :再用文本嵌入(Text Embedding)結合當前問題的具體語義進行重排序。

        • 高亮 :為了更直觀地指導模型“往哪看”,ViLoMem還會根據檢索到的錯誤模式,生成 問題感知注意力圖(Question-Aware Attention Map) ,高亮顯示圖像中容易出錯的區域作為輔助輸入。

      • 邏輯記憶檢索(精準定位)

        • 先對當前問題進行分析,提取學科領域和關鍵概念(如“幾何”、“勾股定理”)。

        • 利用這些結構化信息構造查詢向量,在邏輯記憶庫中精準匹配相關的推理規則。

      如下圖3所示,無論是材質識別的視覺陷阱,還是圖表讀數的細節錯誤,ViLoMem 都能精準地從歷史經驗中提取出對應的“避坑指南”。


      實驗結果:全方位提升

      研究團隊在 MMMU、MathVista、MathVision 等六個主流多模態基準上對 ViLoMem 進行了廣泛評估。涵蓋了 GPT-4.1、Qwen3-VL-235B 和 Qwen3-VL-8B 等不同規模的模型。

      主實驗結果

      如表1所示,ViLoMem 在所有模型和基準上均取得了一致的性能提升。



      • 數學推理提升顯著 :在 MathVision 上,GPT-4.1 結合 ViLoMem 后準確率提升了 6.48% 。這印證了論文的觀點:數學任務對視覺感知的精確度要求極高,消除視覺誤差能帶來巨大的收益。

      • 小模型也有大智慧 :8B 參數量的 Qwen3-VL 在 MMMU 上提升了 4.38% ,說明結構化的外部記憶可以有效補充小模型參數知識的不足。

      消融實驗與分析

      為了驗證雙流記憶的必要性,研究者進行了詳細的消融實驗(下表2)。


      結果顯示,單獨去掉邏輯記憶或視覺記憶都會導致性能下降。更有趣的是,視覺錯誤主導了記憶生成(如圖4 (a)所示,約59%-93%的生成事件源于視覺錯誤),這再次強調了在多模態任務中關注視覺感知的重要性。


      跨模型與跨領域遷移

      ViLoMem 還展現出了優秀的通用性:

      • 跨模型遷移 :把強模型(如 Qwen3-VL-235B)生成的記憶給弱模型(如 8B)使用,弱模型的性能甚至超過了自我生成的記憶(下表3)。這意味著我們可以用大模型“教”小模型避坑。

      • 跨領域遷移 :雖然任務對齊的記憶效果最好,但在 MathVision 和 RealWorldQA 這樣都依賴空間推理的任務間,記憶也表現出了正向的遷移效果(下表4)。

      一點思考

      ViLoMem 的成功給我們帶來了一個重要的啟示:在追求更大的模型參數之前,也許我們應該先優化模型“從錯誤中學習”的能力。人類之所以聰明,很大程度上是因為我們能記住“上次我在這里跌了一跤”。

      這種將感知(視覺)與認知(邏輯)解耦并協同的記憶機制,或許能成為大模型能力不斷進階的“錯題集”。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      《瘋狂動物城2》延長放映至2026年1月25日,全球票房已破10億美元

      《瘋狂動物城2》延長放映至2026年1月25日,全球票房已破10億美元

      財聞
      2025-12-16 11:41:36
      重要賽事!12月16日早晨10:30!中央5套CCTV5、CCTV5+直播節目表

      重要賽事!12月16日早晨10:30!中央5套CCTV5、CCTV5+直播節目表

      皮皮觀天下
      2025-12-16 06:34:50
      關系藏不住了!全紅嬋近況曝光,原來她和王俊凱是這樣的關系

      關系藏不住了!全紅嬋近況曝光,原來她和王俊凱是這樣的關系

      秋之潔
      2025-12-16 06:56:09
      岸田文雄罕見表態,中國期待的局面正在發生,第一時間就通告全球

      岸田文雄罕見表態,中國期待的局面正在發生,第一時間就通告全球

      離離言幾許
      2025-12-16 12:39:16
      剛剛,美國推倒摩爾定律:首款單片3D芯片問世!

      剛剛,美國推倒摩爾定律:首款單片3D芯片問世!

      徐德文科學頻道
      2025-12-15 20:46:04
      軍艦穿越臺海,越南外交部:臺海是“國際水域”,不是中國內水

      軍艦穿越臺海,越南外交部:臺海是“國際水域”,不是中國內水

      影孖看世界
      2025-12-13 21:31:29
      金正恩公開承認:朝鮮士兵在俄羅斯犧牲,120天海外行動細節曝光

      金正恩公開承認:朝鮮士兵在俄羅斯犧牲,120天海外行動細節曝光

      科普100克克
      2025-12-14 18:02:29
      老君山景區發布緊急通告

      老君山景區發布緊急通告

      大象新聞
      2025-12-16 08:57:15
      高圓圓成都菜市場逛攤,紅毛衣白褲襯得氣色好,46歲狀態嫩如26歲

      高圓圓成都菜市場逛攤,紅毛衣白褲襯得氣色好,46歲狀態嫩如26歲

      小喬古裝漢服
      2025-12-15 18:38:14
      NBA官宣全明星投票流程:12月18日開啟 首發名單將于1月20日公布

      NBA官宣全明星投票流程:12月18日開啟 首發名單將于1月20日公布

      羅說NBA
      2025-12-16 08:25:10
      廣東順德一銅鍋涮店后廚,兩只流浪貓在舔盤子;市監所:停業整頓,立案調查

      廣東順德一銅鍋涮店后廚,兩只流浪貓在舔盤子;市監所:停業整頓,立案調查

      極目新聞
      2025-12-16 12:49:59
      米蘭冬奧會冰壺混雙資格賽:中國隊7-5荷蘭隊 收獲三連勝

      米蘭冬奧會冰壺混雙資格賽:中國隊7-5荷蘭隊 收獲三連勝

      北青網-北京青年報
      2025-12-16 08:52:05
      何晴24歲兒子現狀:身高190cm很帥,和后媽有母子相,成媽媽驕傲

      何晴24歲兒子現狀:身高190cm很帥,和后媽有母子相,成媽媽驕傲

      冷紫葉
      2025-12-15 13:25:31
      中國啤酒一哥的總部“搬家”深圳,新大樓形如啤酒罐!

      中國啤酒一哥的總部“搬家”深圳,新大樓形如啤酒罐!

      GA環球建筑
      2025-12-15 19:50:23
      忠告!四種“垃圾食品”已公布,燕麥排第二,第一名很多人都喜歡

      忠告!四種“垃圾食品”已公布,燕麥排第二,第一名很多人都喜歡

      小舟談歷史
      2025-10-17 09:33:31
      愛吃蛋一天40個蛋吃五年惹爭議,醫生:是真的他大概率腎衰竭

      愛吃蛋一天40個蛋吃五年惹爭議,醫生:是真的他大概率腎衰竭

      映射生活的身影
      2025-12-15 23:21:44
      曼聯冬窗或低價出售桑喬!維拉愿意終結租借,埃梅里已簽新援取代

      曼聯冬窗或低價出售桑喬!維拉愿意終結租借,埃梅里已簽新援取代

      羅米的曼聯博客
      2025-12-16 12:55:56
      日媒驚嘆:中國可能成為荷蘭、日本后第3個獨立制造光刻機的國家

      日媒驚嘆:中國可能成為荷蘭、日本后第3個獨立制造光刻機的國家

      近史談
      2025-12-15 19:10:54
      鬧大了!男子家門口被打后續: 病危通知書,家屬:不會和解,已立案

      鬧大了!男子家門口被打后續: 病危通知書,家屬:不會和解,已立案

      苗苗情感說
      2025-12-16 00:47:20
      “牡丹花下死,做鬼也風流”,這一次,74歲的張紀中徹底成了笑話

      “牡丹花下死,做鬼也風流”,這一次,74歲的張紀中徹底成了笑話

      洲洲影視娛評
      2025-12-08 19:52:00
      2025-12-16 14:04:49
      算法與數學之美 incentive-icons
      算法與數學之美
      分享知識,交流思想
      5267文章數 64595關注度
      往期回顧 全部

      科技要聞

      馬斯克徹底放手!特斯拉股價一夜狂歡

      頭條要聞

      被欠錢的山東球迷已去世 戴琳在其離世當天還5000元

      頭條要聞

      被欠錢的山東球迷已去世 戴琳在其離世當天還5000元

      體育要聞

      楊瀚森18+10首次兩雙 關鍵攻防統治G聯賽

      娛樂要聞

      溫崢嶸回應賣面膜爭議,已報警刑事立案

      財經要聞

      浙金中心暴雷始末:祥源控股設計的騙局?

      汽車要聞

      智聯網功能升級 方程豹鈦3迎第四次OTA升級

      態度原創

      藝術
      手機
      本地
      公開課
      軍事航空

      藝術要聞

      16位畫家17幅靜物花卉,你喜歡哪位的呢?

      手機要聞

      2399元起入手旗艦!一加 Ace 6T電競優化全新加持

      本地新聞

      云游安徽|阜陽三朝風骨,傳承千年墨香

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      澤連斯基稱烏方已妥協不加入北約 俄方發聲

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产在线视频精品视频| 夜夜爽夜夜| 东丰县| 久久丫精品国产| 美女裸体自慰在线观看| 无码av最新无码av专区| 精品人妻中文无码av在线| 亚洲vs无码秘?蜜桃少妇| 国产欧美va欧美va香蕉在| 999久久久国产精品消防器材 | 精品久久久久久亚洲中文字幕| 久久无码高潮喷水| 国产女人在线视频| 69精品丰满人妻无码视频a片| 一本无码在线观看| 国产蜜臀在线一区二区三区| 伊人99在线| 子长县| 亚洲有码亚洲无码| 精品国产一区二区三区麻豆| 中文熟妇人妻av在线| 久色88| 亚洲在线人妻| 蜜桃视频网站| 日产一区日产2区| 国产小屁孩cao大人| 国产福利微视频一区二区| 人人人澡人人肉久久精品| 免费看无码网站成人A片| 狠狠干2019| 会东县| 久久人人妻人人做人人爽| 中文有无人妻VS无码人妻激烈| 日韩91| 沂源县| 伊人久久大香线蕉精品,亚洲国产一成人久久精品,久久99精品久久久久久三级,亚 | 91久久偷偷做嫩草影院免费看| 亚洲黄色片| 欧美肥妇毛多水多bbxx| 人人草人人做人人爱| 国产一区二区三区不卡视频 |