<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      打破文本記憶局限!ViLoMem要記視覺關(guān)注點,顯著提升多模態(tài)推理能力!

      0
      分享至

      文章來源:我愛計算機視覺(ID:aicvml)

      你是否發(fā)現(xiàn),現(xiàn)在的多模態(tài)大模型(MLLMs)雖然在單次回答上表現(xiàn)驚艷,但往往像個“健忘癥患者”?它們處理每一個問題時都是從零開始(de novo),反復(fù)掉進(jìn)同一個坑里,昨天犯過的視覺識別錯誤,今天換個姿勢又犯一遍。

      已有的記憶增強Agent大多只是簡單地把過去的“軌跡”存起來。但這種做法有兩個硬傷:一是“撿了芝麻丟了西瓜”,隨著記憶被反復(fù)壓縮,關(guān)鍵的領(lǐng)域知識逐漸流失;二是“偏科”,往往只記住了邏輯層面的總結(jié),卻丟掉了視覺感知的細(xì)節(jié)。這完全不符合人類的認(rèn)知習(xí)慣——我們的語義記憶是“多模態(tài)且融合”的,既有對“長什么樣”的視覺印象,也有對“怎么推理”的邏輯抽象。

      針對這個痛點,南京理工大學(xué)聯(lián)合百度等機構(gòu)的研究團(tuán)隊提出了一種全新的雙流記憶框架——ViLoMem(Visual-Logical Memory)。它像人類大腦一樣,分門別類地存儲“視覺干擾模式”和“邏輯推理錯誤”,讓模型不僅知道“怎么想”,更知道“往哪看”。在六個多模態(tài)基準(zhǔn)測試中,ViLoMem顯著減少了重復(fù)的視覺和邏輯錯誤,特別是在數(shù)學(xué)推理任務(wù)上表現(xiàn)搶眼。



      • 論文地址 :https://arxiv.org/abs/2511.21678

      • 機構(gòu) :南京理工大學(xué)、百度、阿德萊德大學(xué)AIML、新加坡科技設(shè)計大學(xué)

      • 作者 :Weihao Bo, Shan Zhang, Yanpeng Sun等

      • 項目主頁 :https://weihao-bo.github.io/ViLoMeo-page/

      • 代碼倉庫 :https://github.com/weihao-bo/ViLoMem

      為什么我們需要“視覺-邏輯”雙流記憶?

      現(xiàn)有的多模態(tài)模型在解決復(fù)雜問題(特別是數(shù)學(xué)和圖表題)時,很多時候不是“腦子”不夠用,而是“眼睛”沒看準(zhǔn)。比如,把圖中的三角形看成了直角三角形,或者忽略了關(guān)鍵的陰影部分。

      如下圖1所示,當(dāng)模型面對一個多模態(tài)問題時,早期的嘗試可能既包含邏輯錯誤,也包含視覺錯誤。如果只通過文本反饋來修正,模型往往難以糾正底層的感知偏差。


      ViLoMem 的核心洞見在于:視覺注意力的錯誤直接導(dǎo)致了下游的邏輯幻覺,形成連鎖反應(yīng)。 因此,必須將“視覺干擾”和“邏輯幻覺”解耦,分別建立記憶。

      • 視覺流(Visual Stream) :負(fù)責(zé)記住“哪里容易看錯”。比如,“當(dāng)看到這種反光的物體表面時,不要誤以為是某種材質(zhì)”。

      • 邏輯流(Logical Stream) :負(fù)責(zé)記住“推理規(guī)則”。比如,“應(yīng)用垂直平分線定理前,先確認(rèn)點是否在直線上”。

      這種設(shè)計靈感來源于人類的認(rèn)知神經(jīng)科學(xué):人類的大腦有專門的視覺聯(lián)想皮層(處理視覺語義)和頂下小葉等區(qū)域(處理抽象規(guī)則),并通過前顳葉(ATL)進(jìn)行整合。ViLoMem 正是模擬了這種機制。

      ViLoMem 框架詳解:生長與精煉

      ViLoMem 是一個即插即用的雙流記憶框架,通過一個閉環(huán)的“記憶周期”(Memory Cycle)來實現(xiàn)持續(xù)學(xué)習(xí)。整個流程包括記憶的檢索、利用、生成和更新。


      記憶生成:精準(zhǔn)歸因,結(jié)構(gòu)化存儲

      當(dāng)模型在某個問題上失敗時,ViLoMem 不會籠統(tǒng)地記錄“這題做錯了”,而是啟動并行的錯誤歸因生成機制

      1. 視覺記憶生成 :利用 MLLM 分析圖像和錯誤軌跡,判斷是否發(fā)生了視覺誤解(如對象混淆、符號遺漏)。如果是,則生成一條 視覺指南(Visual Guideline) ,告訴模型“下次遇到類似的圖,要特別注意查看XXX區(qū)域”。

      2. 邏輯記憶生成 :利用 LLM 純粹從文本層面分析推理鏈,識別計算錯誤或公式誤用,生成 邏輯指南(Logic Guideline)

      為了避免記憶庫無限膨脹導(dǎo)致檢索困難,ViLoMem 遵循“生長與精煉(Grow-and-Refine)”原則。新生成的指南會與已有記憶進(jìn)行相似度比對:如果發(fā)現(xiàn)相似的錯誤模式,就進(jìn)行合并(Merge),提煉出更通用的規(guī)則;如果是新的錯誤類型,則創(chuàng)建(Create)新的記憶條目。這種機制有效防止了災(zāi)難性遺忘和知識碎片化。

      記憶檢索:雙重策略,有的放矢

      在解決新問題時,ViLoMem 采用差異化的檢索策略來獲取最相關(guān)的建議:

      • 視覺記憶檢索(兩階段法)

        • 第1步 :先用圖像嵌入(Image Embedding)快速召回視覺上相似的歷史案例。

        • 第2步 :再用文本嵌入(Text Embedding)結(jié)合當(dāng)前問題的具體語義進(jìn)行重排序。

        • 高亮 :為了更直觀地指導(dǎo)模型“往哪看”,ViLoMem還會根據(jù)檢索到的錯誤模式,生成 問題感知注意力圖(Question-Aware Attention Map) ,高亮顯示圖像中容易出錯的區(qū)域作為輔助輸入。

      • 邏輯記憶檢索(精準(zhǔn)定位)

        • 先對當(dāng)前問題進(jìn)行分析,提取學(xué)科領(lǐng)域和關(guān)鍵概念(如“幾何”、“勾股定理”)。

        • 利用這些結(jié)構(gòu)化信息構(gòu)造查詢向量,在邏輯記憶庫中精準(zhǔn)匹配相關(guān)的推理規(guī)則。

      如下圖3所示,無論是材質(zhì)識別的視覺陷阱,還是圖表讀數(shù)的細(xì)節(jié)錯誤,ViLoMem 都能精準(zhǔn)地從歷史經(jīng)驗中提取出對應(yīng)的“避坑指南”。


      實驗結(jié)果:全方位提升

      研究團(tuán)隊在 MMMU、MathVista、MathVision 等六個主流多模態(tài)基準(zhǔn)上對 ViLoMem 進(jìn)行了廣泛評估。涵蓋了 GPT-4.1、Qwen3-VL-235B 和 Qwen3-VL-8B 等不同規(guī)模的模型。

      主實驗結(jié)果

      如表1所示,ViLoMem 在所有模型和基準(zhǔn)上均取得了一致的性能提升。



      • 數(shù)學(xué)推理提升顯著 :在 MathVision 上,GPT-4.1 結(jié)合 ViLoMem 后準(zhǔn)確率提升了 6.48% 。這印證了論文的觀點:數(shù)學(xué)任務(wù)對視覺感知的精確度要求極高,消除視覺誤差能帶來巨大的收益。

      • 小模型也有大智慧 :8B 參數(shù)量的 Qwen3-VL 在 MMMU 上提升了 4.38% ,說明結(jié)構(gòu)化的外部記憶可以有效補充小模型參數(shù)知識的不足。

      消融實驗與分析

      為了驗證雙流記憶的必要性,研究者進(jìn)行了詳細(xì)的消融實驗(下表2)。


      結(jié)果顯示,單獨去掉邏輯記憶或視覺記憶都會導(dǎo)致性能下降。更有趣的是,視覺錯誤主導(dǎo)了記憶生成(如圖4 (a)所示,約59%-93%的生成事件源于視覺錯誤),這再次強調(diào)了在多模態(tài)任務(wù)中關(guān)注視覺感知的重要性。


      跨模型與跨領(lǐng)域遷移

      ViLoMem 還展現(xiàn)出了優(yōu)秀的通用性:

      • 跨模型遷移 :把強模型(如 Qwen3-VL-235B)生成的記憶給弱模型(如 8B)使用,弱模型的性能甚至超過了自我生成的記憶(下表3)。這意味著我們可以用大模型“教”小模型避坑。

      • 跨領(lǐng)域遷移 :雖然任務(wù)對齊的記憶效果最好,但在 MathVision 和 RealWorldQA 這樣都依賴空間推理的任務(wù)間,記憶也表現(xiàn)出了正向的遷移效果(下表4)。

      一點思考

      ViLoMem 的成功給我們帶來了一個重要的啟示:在追求更大的模型參數(shù)之前,也許我們應(yīng)該先優(yōu)化模型“從錯誤中學(xué)習(xí)”的能力。人類之所以聰明,很大程度上是因為我們能記住“上次我在這里跌了一跤”。

      這種將感知(視覺)與認(rèn)知(邏輯)解耦并協(xié)同的記憶機制,或許能成為大模型能力不斷進(jìn)階的“錯題集”。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      女子醉駕找人“擺平”被騙7萬后跳樓身亡,詐騙者獲刑 家屬起訴中間“介紹人”索賠23萬

      女子醉駕找人“擺平”被騙7萬后跳樓身亡,詐騙者獲刑 家屬起訴中間“介紹人”索賠23萬

      紅星新聞
      2025-12-21 13:39:17
      克林頓與愛潑斯坦案受害者共浴照片披露

      克林頓與愛潑斯坦案受害者共浴照片披露

      揚子晚報
      2025-12-20 11:50:57
      “屎”無前例!網(wǎng)傳義烏一面館女子突然朝垃圾桶大便,兩男子蒙圈

      “屎”無前例!網(wǎng)傳義烏一面館女子突然朝垃圾桶大便,兩男子蒙圈

      火山詩話
      2025-12-21 05:50:40
      咸魚還是太全面了,怪不得人稱國內(nèi)黑市

      咸魚還是太全面了,怪不得人稱國內(nèi)黑市

      另子維愛讀史
      2025-12-20 17:07:20
      考古最新證實:阿房宮既沒建好也沒被火燒,杜牧《阿房宮賦》所描述的阿房宮景象非寫實之作

      考古最新證實:阿房宮既沒建好也沒被火燒,杜牧《阿房宮賦》所描述的阿房宮景象非寫實之作

      大象新聞
      2025-12-21 10:49:06
      48歲,張恩華的銀行賬戶停在2710萬,生命卻按下了終止鍵

      48歲,張恩華的銀行賬戶停在2710萬,生命卻按下了終止鍵

      歲月有情1314
      2025-12-21 03:15:27
      對華合約全部撕毀!中國又一伙伴背后捅刀,騙走20億倒向美國

      對華合約全部撕毀!中國又一伙伴背后捅刀,騙走20億倒向美國

      離離言幾許
      2025-12-20 19:56:40
      上海這里已23個年頭!剛上市已售罄,有人一口氣買下20萬,近期熱火朝天

      上海這里已23個年頭!剛上市已售罄,有人一口氣買下20萬,近期熱火朝天

      新民晚報
      2025-12-21 12:33:31
      鄭麗文訪問大陸,國民黨副主席曝重大消息,蔣孝嚴(yán)已來到大陸

      鄭麗文訪問大陸,國民黨副主席曝重大消息,蔣孝嚴(yán)已來到大陸

      李博世財經(jīng)
      2025-12-21 14:00:16
      悲哀!網(wǎng)傳一公司主管離職時發(fā)表感言,遭來怒懟“沒人會記得你”

      悲哀!網(wǎng)傳一公司主管離職時發(fā)表感言,遭來怒懟“沒人會記得你”

      火山詩話
      2025-12-21 10:38:42
      深圳“日入過萬”烤雞少年塌房了!獨家配方居然是用了“肉寶王”

      深圳“日入過萬”烤雞少年塌房了!獨家配方居然是用了“肉寶王”

      火山詩話
      2025-12-20 10:25:37
      中國特使訪柬推動柬泰停火

      中國特使訪柬推動柬泰停火

      參考消息
      2025-12-20 20:45:43
      中央安全生產(chǎn)考核巡查組在廣東發(fā)現(xiàn):一幼兒園存多處嚴(yán)重風(fēng)險隱患,鐵柵欄封窗、消防栓不出水

      中央安全生產(chǎn)考核巡查組在廣東發(fā)現(xiàn):一幼兒園存多處嚴(yán)重風(fēng)險隱患,鐵柵欄封窗、消防栓不出水

      紅星新聞
      2025-12-18 19:56:24
      周大福今年第三次調(diào)價,有人搶“末班車”入手金飾,一晚省下5萬元

      周大福今年第三次調(diào)價,有人搶“末班車”入手金飾,一晚省下5萬元

      極目新聞
      2025-12-20 21:57:34
      南京博物館事件,我很擔(dān)心會走向“彭宇案”的老路

      南京博物館事件,我很擔(dān)心會走向“彭宇案”的老路

      人格志
      2025-12-20 23:34:32
      演員林峯談自己“撞臉”兵馬俑:我都有點嚇到;此前有游客拍到一尊彩面陶俑神似林峯

      演員林峯談自己“撞臉”兵馬俑:我都有點嚇到;此前有游客拍到一尊彩面陶俑神似林峯

      草莓解說體育
      2025-12-21 00:54:07
      老話說:白天冬至,冰三尺;夜間冬至,穿單衣,今年冬至在幾點?

      老話說:白天冬至,冰三尺;夜間冬至,穿單衣,今年冬至在幾點?

      阿龍美食記
      2025-12-21 02:25:11
      丈夫全程喊“剎車”妻子仍撞上騎自行車男子,被撞人經(jīng)搶救無效死亡,交警披露事故細(xì)節(jié)

      丈夫全程喊“剎車”妻子仍撞上騎自行車男子,被撞人經(jīng)搶救無效死亡,交警披露事故細(xì)節(jié)

      環(huán)球網(wǎng)資訊
      2025-12-21 15:55:49
      南博事件還未平!北京一捐贈300多件藏品者后人,表示想去查查帳

      南博事件還未平!北京一捐贈300多件藏品者后人,表示想去查查帳

      火山詩話
      2025-12-21 08:48:38
      泰國大使館賬號大量漲粉,滿屏泰國加油,有人呼吁為泰國捐款

      泰國大使館賬號大量漲粉,滿屏泰國加油,有人呼吁為泰國捐款

      環(huán)球熱點快評
      2025-12-21 10:36:07
      2025-12-21 17:40:49
      算法與數(shù)學(xué)之美 incentive-icons
      算法與數(shù)學(xué)之美
      分享知識,交流思想
      5273文章數(shù) 64595關(guān)注度
      往期回顧 全部

      科技要聞

      生態(tài)適配已超95% 鴻蒙下一關(guān):十萬個應(yīng)用

      頭條要聞

      美國外交系統(tǒng)現(xiàn)重大調(diào)整 約有24名駐外大使被要求離任

      頭條要聞

      美國外交系統(tǒng)現(xiàn)重大調(diào)整 約有24名駐外大使被要求離任

      體育要聞

      勇士火箭贏球:王牌之外的答案?

      娛樂要聞

      鹿晗關(guān)曉彤戀愛期間毫不避諱?

      財經(jīng)要聞

      老房子“強制體檢”,政府出手了

      汽車要聞

      -30℃,標(biāo)致508L&凡爾賽C5 X冰雪"大考"

      態(tài)度原創(chuàng)

      時尚
      教育
      房產(chǎn)
      健康
      數(shù)碼

      中年女人,冬天這么穿羽絨服、大衣,優(yōu)雅都藏在這3個細(xì)節(jié)里

      教育要聞

      孩子們?yōu)槭裁磿泻昧?xí)慣?

      房產(chǎn)要聞

      中交·藍(lán)色港灣一周年暨藍(lán)調(diào)生活沙龍圓滿舉行

      這些新療法,讓化療不再那么痛苦

      數(shù)碼要聞

      榮耀獵人游戲本開啟“先鋒獵手”招募計劃,可搶先體驗原型機

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 黑人无码视频| 疯狂做受xxxx高潮欧美日本| 亚洲欧美日韩久久一区二区| 亚洲色成人www永久在线观看| 亚洲精品国产字幕久久麻豆| av无码免费| 天天干白白操| 国产乱码精品一区二区三区中文| 亚洲精品成人无码| 国产一二三| 商洛市| 成人h动漫精品一区二区无码| 国产98色在线 | 日韩| 国产永久免费高清在线观看| 伊人99在线| 国语精品一区二区三区| 美女大量吞精在线观看456| 国产精品亚洲mnbav网站| 欧美老熟妇又粗又大| 精品人妻少妇| 亚洲 日本 欧美 中文幕| 亚洲国产精品无码久久电影| 亚洲天堂视频在线观看| 国产精品成人三级| 亚洲色成人www永久网站| 亚洲精品一区国产精品| 久久熟妇| 精品人妻无码一区二区三区性| 又大又粗又爽免费视频a片| 亚洲人妻一区二区精品| 久草在线观看视频| 欧美性受xxxx白人性爽| 久久久亚洲色| 国产高清精品在线91| 婷婷综合五月| 又黄又爽又色视频免费| 亚洲中文日韩一区二区三区| 日韩偷拍五月| 伊人97| 国产欧美久久一区二区三区| а√天堂8资源中文在线|