<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      AGILE:自監督+交互式強化學習助力VLMs感知與推理全面提升

      0
      分享至



      現有視覺語言大模型(VLMs)在多模態感知和推理任務上仍存在明顯短板:1. 對圖像中的細粒度視覺信息理解有限,視覺感知和推理能力未被充分激發;2. 強化學習雖能帶來改進,但缺乏高質量、易擴展的 RL 數據。

      AGILE 提出一種全新的自監督學習范式,將「智能體交互」遷移至多模態大模型的強化學習訓練中,通過「模型生成動作代碼 + 視覺環境反饋」的循環式交互過程,讓模型像人一樣邊觀察、邊推理、邊學習,從而顯著提升模型視覺感知與邏輯推理能力。



      • Title:Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models
      • Paper:https://arxiv.org/pdf/2510.01304
      • Project Page:https://yuzeng0-0.github.io/AGILE/
      • Dataset:https://huggingface.co/datasets/YuZeng260/AGILE
      • Code:https://github.com/yuzeng0-0/AGILE
      • 作者單位:中科大、上海 AI Lab、華東師大、港中文



      圖 1:AGILE 主要工作框架

      方法核心:

      交互式智能體 + 拼圖代理任務

      為了克服數據瓶頸與可擴展性問題,研究者們選擇「拼圖」作為一種高效的兼具感知和推理的代理任務,提出 AGILE。將拼圖過程建模為「可控、可驗證」的交互式形式:

      • 模型在每一步生成 Python 動作代碼(Swap、Observe、Crop、Zoom);
      • 環境執行代碼、返回視覺反饋;
      • 模型根據環境反饋繼續規劃調整拼圖,該循環重復至拼圖完成。

      這一閉環交互形成了「觀察–交互–反饋–學習」的智能體訓練范式,使 VLMs 能在自監督方式下持續提升感知和推理能力。

      AGILE 的完整流程分為兩個階段:

      Cold-Start 階段,使用 Gemini 2.5 Pro 生成 1.6K 條高質量專家拼圖交互軌跡,教會模型如何正確生成動作代碼與交互邏輯,解決初期模型「不會動手」的問題;

      Reinforcement Learning 階段,在 15.6K 張圖像上訓練拼圖任務,采用 GRPO 算法,通過準確率、格式規范與交互輪數三重獎勵信號優化策略。



      圖 2:模型拼圖過程中激發出來的感知和推理行為

      實驗

      研究者們進行了大量實驗,驗證了 AGILE 的有效性,并得到了多條富有啟發意義的結論:

      • 研究者們設計了系統的拼圖評估數據集,涵蓋不同難度(2×2、3×3)與不同初始正確塊數(L0–L7)。模型性能以兩種指標衡量:Acc,所有塊完全放對的比例;Score,正確拼塊數占總拼塊數的比例。在最簡單的 2×2 任務中,AGILE 使準確率從 9.5% 提升至 82.8%,比 Gemini 2.5 Pro 高出 36.4 個百分點。在更具挑戰性的 3×3 拼圖中,也從 0.4% 提升至 20.8%,標志著模型感知和推理能力大幅躍升。



      表 1:拼圖 Acc 結果。LN 表示難度級別,N 表示初始正確拼圖塊數。N 值越小,拼圖越亂,難度越高。最佳結果以粗體顯示,次佳結果以下劃線顯示。

      • 通用能力即泛化性評測:經過拼圖訓練,模型在 9 項通用視覺任務中(涵蓋真實世界場景、高分辨率場景、細粒度感知、幻覺和多模態推理)平均提升 3.1%,展現出強大的泛化能力。進一步驗證了拼圖任務作為代理任務對于通用視覺能力的泛化價值。



      表 2:不同模型在 9 個基準測試上的性能比較。縮寫:MME-RW (MME-RealWorld-Lite)、RWQA (RealWorldQA)、HRB4K (HRBench4K)、HRB8K (HRBench8K)、HalBench (HallusionBench)、MMMU (MMMU VAL),Avg. 表示所有 9 個基準測試的平均性能。? 表示強化學習相對于基礎模型 Qwen2.5-VL-7B 獲得的相對性能提升。最佳結果以粗體突出顯示,次佳結果以下劃線標出。

      • Scaling 實驗:數據規模帶來的持續增益。研究者們進一步探究了拼圖數據規模對性能的影響。當訓練數據從 0 擴展至 16K 時:拼圖任務準確率從 22.0% → 82.8%;HRBench4K 準確率提升 +2.0%;RealWorldQA 提升 +1.8%。表明 AGILE 的訓練在數據量擴增下持續有效。由于拼圖環境可自動生成,AGILE 的數據擴展幾乎零成本、無限擴容,為多模態 RL 提供了可持續的自監督范式。



      圖 3:(左圖)訓練數據規模的影響。左側 y 軸表示 HRBench4K 和 RealWorldQA 的準確率,右側 y 軸表示拼圖任務的準確率。(右圖)與常規 QA 數據的比較,在兩種實驗設置中,樣本總數始終保持在 20K。

      • 與常規 QA 數據的對比實驗:研究者們替換 20K 常規 QA 數據中的其中 10K 為拼圖數據,發現模型可以表現出更好的性能。這說明拼圖任務提供了更強的結構感知與監督信號。這一發現凸顯了拼圖任務在緩解多模態強化學習數據稀缺方面的潛力,并為推進多模態模型開發開辟了一個充滿前景的新方向。

      意義與未來

      AGILE = 交互式拼圖代理 + 自監督 RL,在無需額外人工標注的前提下,持續提升 VLMs 的感知與推理能力。它證明了「交互式拼圖代理任務」作為突破數據瓶頸、強化 VLMs 的可行性和自監督強化學習范式的潛力。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      那個索賠22萬的老人,為啥突然撤訴?

      那個索賠22萬的老人,為啥突然撤訴?

      淺深說
      2026-02-22 11:11:35
      僅差12分!NBA歷史第一紀錄誕生!前無古人后難來者,老詹太強了

      僅差12分!NBA歷史第一紀錄誕生!前無古人后難來者,老詹太強了

      籃球掃地僧
      2026-02-22 17:24:06
      比瀉藥還猛!蒸蘋果黃金搭檔,睡前喝1碗,第二天上廁所無比順暢

      比瀉藥還猛!蒸蘋果黃金搭檔,睡前喝1碗,第二天上廁所無比順暢

      江江食研社
      2026-01-30 08:30:19
      38歲梅西罕見暴怒!賽后沖裁判更衣室+蘇神拉都拉不住 聯盟將調查

      38歲梅西罕見暴怒!賽后沖裁判更衣室+蘇神拉都拉不住 聯盟將調查

      風過鄉
      2026-02-22 16:02:32
      16GB+1TB!華為正式官宣,2月22日,直降2000元!

      16GB+1TB!華為正式官宣,2月22日,直降2000元!

      科技堡壘
      2026-02-22 11:57:44
      98歲李嘉誠初五迎財神,長子李澤鉅高大有型,周凱旋悉心陪同

      98歲李嘉誠初五迎財神,長子李澤鉅高大有型,周凱旋悉心陪同

      古希臘掌管松餅的神
      2026-02-22 09:34:16
      三國首腦準備訪華,中方已遞出一張邀請函,3天后專機將抵達北京

      三國首腦準備訪華,中方已遞出一張邀請函,3天后專機將抵達北京

      玫瑰與花海
      2026-02-22 13:02:37
      河南礦山開工首日客戶排隊交錢,100萬現金放桌上,每個訂單都會給顧客400元紅包!此前“最愛發錢老板”崔培軍發1.8億年終獎全網爆火

      河南礦山開工首日客戶排隊交錢,100萬現金放桌上,每個訂單都會給顧客400元紅包!此前“最愛發錢老板”崔培軍發1.8億年終獎全網爆火

      大象新聞
      2026-02-22 13:48:04
      1-0!1.1億先生臨陣傷退,麥卡96分鐘絕殺,利物浦客場復仇

      1-0!1.1億先生臨陣傷退,麥卡96分鐘絕殺,利物浦客場復仇

      我的護球最獨特
      2026-02-23 00:03:56
      昆明海埂大壩“游客比海鷗還多”,管理方:建議乘坐公共交通前往

      昆明海埂大壩“游客比海鷗還多”,管理方:建議乘坐公共交通前往

      上游新聞
      2026-02-21 13:43:15
      1-0!英超神劇情:10號補時破門被吹+又壓哨絕殺 10.4億豪門3連勝

      1-0!英超神劇情:10號補時破門被吹+又壓哨絕殺 10.4億豪門3連勝

      狍子歪解體壇
      2026-02-23 00:02:56
      中國為何必須廢日本?最狠的一刀!日本國運現在開始徹底走到頭?

      中國為何必須廢日本?最狠的一刀!日本國運現在開始徹底走到頭?

      顯微鏡下的人性
      2026-02-23 01:07:41
      全麻手術能讓多少人身敗名裂?都說讓你們別玩太花,這下翻車了吧

      全麻手術能讓多少人身敗名裂?都說讓你們別玩太花,這下翻車了吧

      夜深愛雜談
      2026-01-23 18:13:14
      江蘇省消失了的四款經典香煙,您覺得哪款最可惜?

      江蘇省消失了的四款經典香煙,您覺得哪款最可惜?

      童童聊娛樂啊
      2026-02-22 19:56:34
      59歲宋祖英現身活動狀態驚艷!短發利落大氣,黑色套裝優雅端莊

      59歲宋祖英現身活動狀態驚艷!短發利落大氣,黑色套裝優雅端莊

      琴聲飛揚
      2026-02-12 11:51:25
      谷愛凌奪冠后得知奶奶去世淚崩,老人臨終前叮囑她成為國家棟梁

      谷愛凌奪冠后得知奶奶去世淚崩,老人臨終前叮囑她成為國家棟梁

      米修體育
      2026-02-22 23:08:18
      中國第一監獄:關的幾乎全是高官,為防止泄密,牢房內有特殊布置

      中國第一監獄:關的幾乎全是高官,為防止泄密,牢房內有特殊布置

      瓦倫西亞月亮
      2026-02-20 17:37:18
      你祖上有啥很大的機緣轉折點?網友:但凡發生一下改變,就沒你了

      你祖上有啥很大的機緣轉折點?網友:但凡發生一下改變,就沒你了

      帶你感受人間冷暖
      2026-02-13 15:23:12
      科技產品成熱門年貨,華強北AI眼鏡銷量暴漲80%

      科技產品成熱門年貨,華強北AI眼鏡銷量暴漲80%

      IT之家
      2026-02-22 17:03:16
      2026春節,兩個成都妹兒闖重慶舞廳,一下午就遭整崩潰!

      2026春節,兩個成都妹兒闖重慶舞廳,一下午就遭整崩潰!

      成都人的故事
      2026-02-21 17:16:49
      2026-02-23 02:44:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12326文章數 142569關注度
      往期回顧 全部

      科技要聞

      馬斯克:星艦每年將發射超過10000顆衛星

      頭條要聞

      男子持霰彈槍燃燒罐闖特朗普私宅被擊斃 細節披露

      頭條要聞

      男子持霰彈槍燃燒罐闖特朗普私宅被擊斃 細節披露

      體育要聞

      谷愛凌:6次參賽6次奪牌 我對自己非常自豪

      娛樂要聞

      谷愛凌:真正的強大 敢接納生命的節奏

      財經要聞

      特朗普新加征關稅稅率從10%提升至15%

      汽車要聞

      續航1810km!smart精靈#6 EHD超級電混2026年上市

      態度原創

      本地
      教育
      游戲
      親子
      旅游

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      教育要聞

      兩所大學,合并!

      《GTA6》的第二天發售?《寶可夢》新作爆料來了!

      親子要聞

      萌娃看見阿姨的大肚子竟這樣說,著急的樣子萌化了

      旅游要聞

      百余組花燈齊亮!青島這處海邊盛會,年味直接拉滿

      無障礙瀏覽 進入關懷版