打破文本記憶局限！ViLoMem要記視覺關(guān)注點，顯著提升多模態(tài)推理能力！

2025-12-08 21:38:39　來源: 算法與數(shù)學(xué)之美

北京舉報

分享至

文章來源：我愛計算機視覺（ID：aicvml）

你是否發(fā)現(xiàn)，現(xiàn)在的多模態(tài)大模型（MLLMs）雖然在單次回答上表現(xiàn)驚艷，但往往像個“健忘癥患者”？它們處理每一個問題時都是從零開始（de novo），反復(fù)掉進(jìn)同一個坑里，昨天犯過的視覺識別錯誤，今天換個姿勢又犯一遍。

已有的記憶增強Agent大多只是簡單地把過去的“軌跡”存起來。但這種做法有兩個硬傷：一是“撿了芝麻丟了西瓜”，隨著記憶被反復(fù)壓縮，關(guān)鍵的領(lǐng)域知識逐漸流失；二是“偏科”，往往只記住了邏輯層面的總結(jié)，卻丟掉了視覺感知的細(xì)節(jié)。這完全不符合人類的認(rèn)知習(xí)慣——我們的語義記憶是“多模態(tài)且融合”的，既有對“長什么樣”的視覺印象，也有對“怎么推理”的邏輯抽象。

針對這個痛點，南京理工大學(xué)聯(lián)合百度等機構(gòu)的研究團(tuán)隊提出了一種全新的雙流記憶框架——ViLoMem（Visual-Logical Memory）。它像人類大腦一樣，分門別類地存儲“視覺干擾模式”和“邏輯推理錯誤”，讓模型不僅知道“怎么想”，更知道“往哪看”。在六個多模態(tài)基準(zhǔn)測試中，ViLoMem顯著減少了重復(fù)的視覺和邏輯錯誤，特別是在數(shù)學(xué)推理任務(wù)上表現(xiàn)搶眼。

論文地址 ：https://arxiv.org/abs/2511.21678
機構(gòu) ：南京理工大學(xué)、百度、阿德萊德大學(xué)AIML、新加坡科技設(shè)計大學(xué)
作者：Weihao Bo, Shan Zhang, Yanpeng Sun等
項目主頁 ：https://weihao-bo.github.io/ViLoMeo-page/
代碼倉庫 ：https://github.com/weihao-bo/ViLoMem

為什么我們需要“視覺-邏輯”雙流記憶？

現(xiàn)有的多模態(tài)模型在解決復(fù)雜問題（特別是數(shù)學(xué)和圖表題）時，很多時候不是“腦子”不夠用，而是“眼睛”沒看準(zhǔn)。比如，把圖中的三角形看成了直角三角形，或者忽略了關(guān)鍵的陰影部分。

如下圖1所示，當(dāng)模型面對一個多模態(tài)問題時，早期的嘗試可能既包含邏輯錯誤，也包含視覺錯誤。如果只通過文本反饋來修正，模型往往難以糾正底層的感知偏差。

ViLoMem 的核心洞見在于：視覺注意力的錯誤直接導(dǎo)致了下游的邏輯幻覺，形成連鎖反應(yīng)。 因此，必須將“視覺干擾”和“邏輯幻覺”解耦，分別建立記憶。

視覺流（Visual Stream） ：負(fù)責(zé)記住“哪里容易看錯”。比如，“當(dāng)看到這種反光的物體表面時，不要誤以為是某種材質(zhì)”。
邏輯流（Logical Stream） ：負(fù)責(zé)記住“推理規(guī)則”。比如，“應(yīng)用垂直平分線定理前，先確認(rèn)點是否在直線上”。

這種設(shè)計靈感來源于人類的認(rèn)知神經(jīng)科學(xué)：人類的大腦有專門的視覺聯(lián)想皮層（處理視覺語義）和頂下小葉等區(qū)域（處理抽象規(guī)則），并通過前顳葉（ATL）進(jìn)行整合。ViLoMem 正是模擬了這種機制。

ViLoMem 框架詳解：生長與精煉

ViLoMem 是一個即插即用的雙流記憶框架，通過一個閉環(huán)的“記憶周期”（Memory Cycle）來實現(xiàn)持續(xù)學(xué)習(xí)。整個流程包括記憶的檢索、利用、生成和更新。

記憶生成：精準(zhǔn)歸因，結(jié)構(gòu)化存儲

當(dāng)模型在某個問題上失敗時，ViLoMem 不會籠統(tǒng)地記錄“這題做錯了”，而是啟動并行的錯誤歸因生成機制：

視覺記憶生成 ：利用 MLLM 分析圖像和錯誤軌跡，判斷是否發(fā)生了視覺誤解（如對象混淆、符號遺漏）。如果是，則生成一條 視覺指南（Visual Guideline） ，告訴模型“下次遇到類似的圖，要特別注意查看XXX區(qū)域”。
邏輯記憶生成 ：利用 LLM 純粹從文本層面分析推理鏈，識別計算錯誤或公式誤用，生成 邏輯指南（Logic Guideline） 。

為了避免記憶庫無限膨脹導(dǎo)致檢索困難，ViLoMem 遵循“生長與精煉（Grow-and-Refine）”原則。新生成的指南會與已有記憶進(jìn)行相似度比對：如果發(fā)現(xiàn)相似的錯誤模式，就進(jìn)行合并（Merge），提煉出更通用的規(guī)則；如果是新的錯誤類型，則創(chuàng)建（Create）新的記憶條目。這種機制有效防止了災(zāi)難性遺忘和知識碎片化。

記憶檢索：雙重策略，有的放矢

在解決新問題時，ViLoMem 采用差異化的檢索策略來獲取最相關(guān)的建議：

視覺記憶檢索（兩階段法）：
- 第1步 ：先用圖像嵌入（Image Embedding）快速召回視覺上相似的歷史案例。
- 第2步 ：再用文本嵌入（Text Embedding）結(jié)合當(dāng)前問題的具體語義進(jìn)行重排序。
- 高亮：為了更直觀地指導(dǎo)模型“往哪看”，ViLoMem還會根據(jù)檢索到的錯誤模式，生成 問題感知注意力圖（Question-Aware Attention Map） ，高亮顯示圖像中容易出錯的區(qū)域作為輔助輸入。
邏輯記憶檢索（精準(zhǔn)定位）：
- 先對當(dāng)前問題進(jìn)行分析，提取學(xué)科領(lǐng)域和關(guān)鍵概念（如“幾何”、“勾股定理”）。
- 利用這些結(jié)構(gòu)化信息構(gòu)造查詢向量，在邏輯記憶庫中精準(zhǔn)匹配相關(guān)的推理規(guī)則。

如下圖3所示，無論是材質(zhì)識別的視覺陷阱，還是圖表讀數(shù)的細(xì)節(jié)錯誤，ViLoMem 都能精準(zhǔn)地從歷史經(jīng)驗中提取出對應(yīng)的“避坑指南”。

實驗結(jié)果：全方位提升

研究團(tuán)隊在 MMMU、MathVista、MathVision 等六個主流多模態(tài)基準(zhǔn)上對 ViLoMem 進(jìn)行了廣泛評估。涵蓋了 GPT-4.1、Qwen3-VL-235B 和 Qwen3-VL-8B 等不同規(guī)模的模型。

主實驗結(jié)果

如表1所示，ViLoMem 在所有模型和基準(zhǔn)上均取得了一致的性能提升。

數(shù)學(xué)推理提升顯著 ：在 MathVision 上，GPT-4.1 結(jié)合 ViLoMem 后準(zhǔn)確率提升了 6.48% 。這印證了論文的觀點：數(shù)學(xué)任務(wù)對視覺感知的精確度要求極高，消除視覺誤差能帶來巨大的收益。
小模型也有大智慧 ：8B 參數(shù)量的 Qwen3-VL 在 MMMU 上提升了 4.38% ，說明結(jié)構(gòu)化的外部記憶可以有效補充小模型參數(shù)知識的不足。

消融實驗與分析

為了驗證雙流記憶的必要性，研究者進(jìn)行了詳細(xì)的消融實驗（下表2）。

結(jié)果顯示，單獨去掉邏輯記憶或視覺記憶都會導(dǎo)致性能下降。更有趣的是，視覺錯誤主導(dǎo)了記憶生成（如圖4 （a）所示，約59%-93%的生成事件源于視覺錯誤），這再次強調(diào)了在多模態(tài)任務(wù)中關(guān)注視覺感知的重要性。

跨模型與跨領(lǐng)域遷移

ViLoMem 還展現(xiàn)出了優(yōu)秀的通用性：

跨模型遷移 ：把強模型（如 Qwen3-VL-235B）生成的記憶給弱模型（如 8B）使用，弱模型的性能甚至超過了自我生成的記憶（下表3）。這意味著我們可以用大模型“教”小模型避坑。
跨領(lǐng)域遷移 ：雖然任務(wù)對齊的記憶效果最好，但在 MathVision 和 RealWorldQA 這樣都依賴空間推理的任務(wù)間，記憶也表現(xiàn)出了正向的遷移效果（下表4）。

一點思考

ViLoMem 的成功給我們帶來了一個重要的啟示：在追求更大的模型參數(shù)之前，也許我們應(yīng)該先優(yōu)化模型“從錯誤中學(xué)習(xí)”的能力。人類之所以聰明，很大程度上是因為我們能記住“上次我在這里跌了一跤”。

這種將感知（視覺）與認(rèn)知（邏輯）解耦并協(xié)同的記憶機制，或許能成為大模型能力不斷進(jìn)階的“錯題集”。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.