文章來源:我愛計算機視覺(ID:aicvml)
你是否發(fā)現(xiàn),現(xiàn)在的多模態(tài)大模型(MLLMs)雖然在單次回答上表現(xiàn)驚艷,但往往像個“健忘癥患者”?它們處理每一個問題時都是從零開始(de novo),反復(fù)掉進(jìn)同一個坑里,昨天犯過的視覺識別錯誤,今天換個姿勢又犯一遍。
已有的記憶增強Agent大多只是簡單地把過去的“軌跡”存起來。但這種做法有兩個硬傷:一是“撿了芝麻丟了西瓜”,隨著記憶被反復(fù)壓縮,關(guān)鍵的領(lǐng)域知識逐漸流失;二是“偏科”,往往只記住了邏輯層面的總結(jié),卻丟掉了視覺感知的細(xì)節(jié)。這完全不符合人類的認(rèn)知習(xí)慣——我們的語義記憶是“多模態(tài)且融合”的,既有對“長什么樣”的視覺印象,也有對“怎么推理”的邏輯抽象。
針對這個痛點,南京理工大學(xué)聯(lián)合百度等機構(gòu)的研究團(tuán)隊提出了一種全新的雙流記憶框架——ViLoMem(Visual-Logical Memory)。它像人類大腦一樣,分門別類地存儲“視覺干擾模式”和“邏輯推理錯誤”,讓模型不僅知道“怎么想”,更知道“往哪看”。在六個多模態(tài)基準(zhǔn)測試中,ViLoMem顯著減少了重復(fù)的視覺和邏輯錯誤,特別是在數(shù)學(xué)推理任務(wù)上表現(xiàn)搶眼。
![]()
論文地址 :https://arxiv.org/abs/2511.21678
機構(gòu) :南京理工大學(xué)、百度、阿德萊德大學(xué)AIML、新加坡科技設(shè)計大學(xué)
作者 :Weihao Bo, Shan Zhang, Yanpeng Sun等
項目主頁 :https://weihao-bo.github.io/ViLoMeo-page/
代碼倉庫 :https://github.com/weihao-bo/ViLoMem
現(xiàn)有的多模態(tài)模型在解決復(fù)雜問題(特別是數(shù)學(xué)和圖表題)時,很多時候不是“腦子”不夠用,而是“眼睛”沒看準(zhǔn)。比如,把圖中的三角形看成了直角三角形,或者忽略了關(guān)鍵的陰影部分。
如下圖1所示,當(dāng)模型面對一個多模態(tài)問題時,早期的嘗試可能既包含邏輯錯誤,也包含視覺錯誤。如果只通過文本反饋來修正,模型往往難以糾正底層的感知偏差。
![]()
ViLoMem 的核心洞見在于:視覺注意力的錯誤直接導(dǎo)致了下游的邏輯幻覺,形成連鎖反應(yīng)。 因此,必須將“視覺干擾”和“邏輯幻覺”解耦,分別建立記憶。
視覺流(Visual Stream) :負(fù)責(zé)記住“哪里容易看錯”。比如,“當(dāng)看到這種反光的物體表面時,不要誤以為是某種材質(zhì)”。
邏輯流(Logical Stream) :負(fù)責(zé)記住“推理規(guī)則”。比如,“應(yīng)用垂直平分線定理前,先確認(rèn)點是否在直線上”。
這種設(shè)計靈感來源于人類的認(rèn)知神經(jīng)科學(xué):人類的大腦有專門的視覺聯(lián)想皮層(處理視覺語義)和頂下小葉等區(qū)域(處理抽象規(guī)則),并通過前顳葉(ATL)進(jìn)行整合。ViLoMem 正是模擬了這種機制。
ViLoMem 框架詳解:生長與精煉
ViLoMem 是一個即插即用的雙流記憶框架,通過一個閉環(huán)的“記憶周期”(Memory Cycle)來實現(xiàn)持續(xù)學(xué)習(xí)。整個流程包括記憶的檢索、利用、生成和更新。
![]()
記憶生成:精準(zhǔn)歸因,結(jié)構(gòu)化存儲
當(dāng)模型在某個問題上失敗時,ViLoMem 不會籠統(tǒng)地記錄“這題做錯了”,而是啟動并行的錯誤歸因生成機制:
視覺記憶生成 :利用 MLLM 分析圖像和錯誤軌跡,判斷是否發(fā)生了視覺誤解(如對象混淆、符號遺漏)。如果是,則生成一條 視覺指南(Visual Guideline) ,告訴模型“下次遇到類似的圖,要特別注意查看XXX區(qū)域”。
邏輯記憶生成 :利用 LLM 純粹從文本層面分析推理鏈,識別計算錯誤或公式誤用,生成 邏輯指南(Logic Guideline) 。
為了避免記憶庫無限膨脹導(dǎo)致檢索困難,ViLoMem 遵循“生長與精煉(Grow-and-Refine)”原則。新生成的指南會與已有記憶進(jìn)行相似度比對:如果發(fā)現(xiàn)相似的錯誤模式,就進(jìn)行合并(Merge),提煉出更通用的規(guī)則;如果是新的錯誤類型,則創(chuàng)建(Create)新的記憶條目。這種機制有效防止了災(zāi)難性遺忘和知識碎片化。
記憶檢索:雙重策略,有的放矢
在解決新問題時,ViLoMem 采用差異化的檢索策略來獲取最相關(guān)的建議:
視覺記憶檢索(兩階段法):
第1步 :先用圖像嵌入(Image Embedding)快速召回視覺上相似的歷史案例。
第2步 :再用文本嵌入(Text Embedding)結(jié)合當(dāng)前問題的具體語義進(jìn)行重排序。
高亮 :為了更直觀地指導(dǎo)模型“往哪看”,ViLoMem還會根據(jù)檢索到的錯誤模式,生成 問題感知注意力圖(Question-Aware Attention Map) ,高亮顯示圖像中容易出錯的區(qū)域作為輔助輸入。
邏輯記憶檢索(精準(zhǔn)定位):
先對當(dāng)前問題進(jìn)行分析,提取學(xué)科領(lǐng)域和關(guān)鍵概念(如“幾何”、“勾股定理”)。
利用這些結(jié)構(gòu)化信息構(gòu)造查詢向量,在邏輯記憶庫中精準(zhǔn)匹配相關(guān)的推理規(guī)則。
如下圖3所示,無論是材質(zhì)識別的視覺陷阱,還是圖表讀數(shù)的細(xì)節(jié)錯誤,ViLoMem 都能精準(zhǔn)地從歷史經(jīng)驗中提取出對應(yīng)的“避坑指南”。
![]()
實驗結(jié)果:全方位提升
研究團(tuán)隊在 MMMU、MathVista、MathVision 等六個主流多模態(tài)基準(zhǔn)上對 ViLoMem 進(jìn)行了廣泛評估。涵蓋了 GPT-4.1、Qwen3-VL-235B 和 Qwen3-VL-8B 等不同規(guī)模的模型。
主實驗結(jié)果
如表1所示,ViLoMem 在所有模型和基準(zhǔn)上均取得了一致的性能提升。
![]()
數(shù)學(xué)推理提升顯著 :在 MathVision 上,GPT-4.1 結(jié)合 ViLoMem 后準(zhǔn)確率提升了 6.48% 。這印證了論文的觀點:數(shù)學(xué)任務(wù)對視覺感知的精確度要求極高,消除視覺誤差能帶來巨大的收益。
小模型也有大智慧 :8B 參數(shù)量的 Qwen3-VL 在 MMMU 上提升了 4.38% ,說明結(jié)構(gòu)化的外部記憶可以有效補充小模型參數(shù)知識的不足。
為了驗證雙流記憶的必要性,研究者進(jìn)行了詳細(xì)的消融實驗(下表2)。
![]()
結(jié)果顯示,單獨去掉邏輯記憶或視覺記憶都會導(dǎo)致性能下降。更有趣的是,視覺錯誤主導(dǎo)了記憶生成(如圖4 (a)所示,約59%-93%的生成事件源于視覺錯誤),這再次強調(diào)了在多模態(tài)任務(wù)中關(guān)注視覺感知的重要性。
![]()
跨模型與跨領(lǐng)域遷移
ViLoMem 還展現(xiàn)出了優(yōu)秀的通用性:
跨模型遷移 :把強模型(如 Qwen3-VL-235B)生成的記憶給弱模型(如 8B)使用,弱模型的性能甚至超過了自我生成的記憶(下表3)。這意味著我們可以用大模型“教”小模型避坑。

跨領(lǐng)域遷移 :雖然任務(wù)對齊的記憶效果最好,但在 MathVision 和 RealWorldQA 這樣都依賴空間推理的任務(wù)間,記憶也表現(xiàn)出了正向的遷移效果(下表4)。

ViLoMem 的成功給我們帶來了一個重要的啟示:在追求更大的模型參數(shù)之前,也許我們應(yīng)該先優(yōu)化模型“從錯誤中學(xué)習(xí)”的能力。人類之所以聰明,很大程度上是因為我們能記住“上次我在這里跌了一跤”。
這種將感知(視覺)與認(rèn)知(邏輯)解耦并協(xié)同的記憶機制,或許能成為大模型能力不斷進(jìn)階的“錯題集”。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.