網易首頁 > 網易號 > 正文申請入駐

打破文本記憶局限！ViLoMem要記視覺關注點，顯著提升多模態推理能力！

2025-12-08 21:38:39　來源: 算法與數學之美

北京舉報

分享至

文章來源：我愛計算機視覺（ID：aicvml）

你是否發現，現在的多模態大模型（MLLMs）雖然在單次回答上表現驚艷，但往往像個“健忘癥患者”？它們處理每一個問題時都是從零開始（de novo），反復掉進同一個坑里，昨天犯過的視覺識別錯誤，今天換個姿勢又犯一遍。

已有的記憶增強Agent大多只是簡單地把過去的“軌跡”存起來。但這種做法有兩個硬傷：一是“撿了芝麻丟了西瓜”，隨著記憶被反復壓縮，關鍵的領域知識逐漸流失；二是“偏科”，往往只記住了邏輯層面的總結，卻丟掉了視覺感知的細節。這完全不符合人類的認知習慣——我們的語義記憶是“多模態且融合”的，既有對“長什么樣”的視覺印象，也有對“怎么推理”的邏輯抽象。

針對這個痛點，南京理工大學聯合百度等機構的研究團隊提出了一種全新的雙流記憶框架——ViLoMem（Visual-Logical Memory）。它像人類大腦一樣，分門別類地存儲“視覺干擾模式”和“邏輯推理錯誤”，讓模型不僅知道“怎么想”，更知道“往哪看”。在六個多模態基準測試中，ViLoMem顯著減少了重復的視覺和邏輯錯誤，特別是在數學推理任務上表現搶眼。

論文地址 ：https://arxiv.org/abs/2511.21678
機構：南京理工大學、百度、阿德萊德大學AIML、新加坡科技設計大學
作者：Weihao Bo, Shan Zhang, Yanpeng Sun等
項目主頁 ：https://weihao-bo.github.io/ViLoMeo-page/
代碼倉庫 ：https://github.com/weihao-bo/ViLoMem

為什么我們需要“視覺-邏輯”雙流記憶？

現有的多模態模型在解決復雜問題（特別是數學和圖表題）時，很多時候不是“腦子”不夠用，而是“眼睛”沒看準。比如，把圖中的三角形看成了直角三角形，或者忽略了關鍵的陰影部分。

如下圖1所示，當模型面對一個多模態問題時，早期的嘗試可能既包含邏輯錯誤，也包含視覺錯誤。如果只通過文本反饋來修正，模型往往難以糾正底層的感知偏差。

ViLoMem 的核心洞見在于：視覺注意力的錯誤直接導致了下游的邏輯幻覺，形成連鎖反應。 因此，必須將“視覺干擾”和“邏輯幻覺”解耦，分別建立記憶。

視覺流（Visual Stream） ：負責記住“哪里容易看錯”。比如，“當看到這種反光的物體表面時，不要誤以為是某種材質”。
邏輯流（Logical Stream） ：負責記住“推理規則”。比如，“應用垂直平分線定理前，先確認點是否在直線上”。

這種設計靈感來源于人類的認知神經科學：人類的大腦有專門的視覺聯想皮層（處理視覺語義）和頂下小葉等區域（處理抽象規則），并通過前顳葉（ATL）進行整合。ViLoMem 正是模擬了這種機制。

ViLoMem 框架詳解：生長與精煉

ViLoMem 是一個即插即用的雙流記憶框架，通過一個閉環的“記憶周期”（Memory Cycle）來實現持續學習。整個流程包括記憶的檢索、利用、生成和更新。

記憶生成：精準歸因，結構化存儲

當模型在某個問題上失敗時，ViLoMem 不會籠統地記錄“這題做錯了”，而是啟動并行的錯誤歸因生成機制：

視覺記憶生成 ：利用 MLLM 分析圖像和錯誤軌跡，判斷是否發生了視覺誤解（如對象混淆、符號遺漏）。如果是，則生成一條 視覺指南（Visual Guideline） ，告訴模型“下次遇到類似的圖，要特別注意查看XXX區域”。
邏輯記憶生成 ：利用 LLM 純粹從文本層面分析推理鏈，識別計算錯誤或公式誤用，生成 邏輯指南（Logic Guideline） 。

為了避免記憶庫無限膨脹導致檢索困難，ViLoMem 遵循“生長與精煉（Grow-and-Refine）”原則。新生成的指南會與已有記憶進行相似度比對：如果發現相似的錯誤模式，就進行合并（Merge），提煉出更通用的規則；如果是新的錯誤類型，則創建（Create）新的記憶條目。這種機制有效防止了災難性遺忘和知識碎片化。

記憶檢索：雙重策略，有的放矢

在解決新問題時，ViLoMem 采用差異化的檢索策略來獲取最相關的建議：

視覺記憶檢索（兩階段法）：
- 第1步 ：先用圖像嵌入（Image Embedding）快速召回視覺上相似的歷史案例。
- 第2步 ：再用文本嵌入（Text Embedding）結合當前問題的具體語義進行重排序。
- 高亮：為了更直觀地指導模型“往哪看”，ViLoMem還會根據檢索到的錯誤模式，生成 問題感知注意力圖（Question-Aware Attention Map） ，高亮顯示圖像中容易出錯的區域作為輔助輸入。
邏輯記憶檢索（精準定位）：
- 先對當前問題進行分析，提取學科領域和關鍵概念（如“幾何”、“勾股定理”）。
- 利用這些結構化信息構造查詢向量，在邏輯記憶庫中精準匹配相關的推理規則。

如下圖3所示，無論是材質識別的視覺陷阱，還是圖表讀數的細節錯誤，ViLoMem 都能精準地從歷史經驗中提取出對應的“避坑指南”。

實驗結果：全方位提升

研究團隊在 MMMU、MathVista、MathVision 等六個主流多模態基準上對 ViLoMem 進行了廣泛評估。涵蓋了 GPT-4.1、Qwen3-VL-235B 和 Qwen3-VL-8B 等不同規模的模型。

主實驗結果

如表1所示，ViLoMem 在所有模型和基準上均取得了一致的性能提升。

數學推理提升顯著 ：在 MathVision 上，GPT-4.1 結合 ViLoMem 后準確率提升了 6.48% 。這印證了論文的觀點：數學任務對視覺感知的精確度要求極高，消除視覺誤差能帶來巨大的收益。
小模型也有大智慧 ：8B 參數量的 Qwen3-VL 在 MMMU 上提升了 4.38% ，說明結構化的外部記憶可以有效補充小模型參數知識的不足。

消融實驗與分析

為了驗證雙流記憶的必要性，研究者進行了詳細的消融實驗（下表2）。

結果顯示，單獨去掉邏輯記憶或視覺記憶都會導致性能下降。更有趣的是，視覺錯誤主導了記憶生成（如圖4 （a）所示，約59%-93%的生成事件源于視覺錯誤），這再次強調了在多模態任務中關注視覺感知的重要性。

跨模型與跨領域遷移

ViLoMem 還展現出了優秀的通用性：

跨模型遷移 ：把強模型（如 Qwen3-VL-235B）生成的記憶給弱模型（如 8B）使用，弱模型的性能甚至超過了自我生成的記憶（下表3）。這意味著我們可以用大模型“教”小模型避坑。
跨領域遷移 ：雖然任務對齊的記憶效果最好，但在 MathVision 和 RealWorldQA 這樣都依賴空間推理的任務間，記憶也表現出了正向的遷移效果（下表4）。

一點思考

ViLoMem 的成功給我們帶來了一個重要的啟示：在追求更大的模型參數之前，也許我們應該先優化模型“從錯誤中學習”的能力。人類之所以聰明，很大程度上是因為我們能記住“上次我在這里跌了一跤”。

這種將感知（視覺）與認知（邏輯）解耦并協同的記憶機制，或許能成為大模型能力不斷進階的“錯題集”。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.