<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      AGILE:自監督+交互式強化學習助力VLMs感知與推理全面提升

      0
      分享至



      現有視覺語言大模型(VLMs)在多模態感知和推理任務上仍存在明顯短板:1. 對圖像中的細粒度視覺信息理解有限,視覺感知和推理能力未被充分激發;2. 強化學習雖能帶來改進,但缺乏高質量、易擴展的 RL 數據。

      AGILE 提出一種全新的自監督學習范式,將「智能體交互」遷移至多模態大模型的強化學習訓練中,通過「模型生成動作代碼 + 視覺環境反饋」的循環式交互過程,讓模型像人一樣邊觀察、邊推理、邊學習,從而顯著提升模型視覺感知與邏輯推理能力。



      • Title:Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models
      • Paper:https://arxiv.org/pdf/2510.01304
      • Project Page:https://yuzeng0-0.github.io/AGILE/
      • Dataset:https://huggingface.co/datasets/YuZeng260/AGILE
      • Code:https://github.com/yuzeng0-0/AGILE
      • 作者單位:中科大、上海 AI Lab、華東師大、港中文



      圖 1:AGILE 主要工作框架

      方法核心:

      交互式智能體 + 拼圖代理任務

      為了克服數據瓶頸與可擴展性問題,研究者們選擇「拼圖」作為一種高效的兼具感知和推理的代理任務,提出 AGILE。將拼圖過程建模為「可控、可驗證」的交互式形式:

      • 模型在每一步生成 Python 動作代碼(Swap、Observe、Crop、Zoom);
      • 環境執行代碼、返回視覺反饋;
      • 模型根據環境反饋繼續規劃調整拼圖,該循環重復至拼圖完成。

      這一閉環交互形成了「觀察–交互–反饋–學習」的智能體訓練范式,使 VLMs 能在自監督方式下持續提升感知和推理能力。

      AGILE 的完整流程分為兩個階段:

      Cold-Start 階段,使用 Gemini 2.5 Pro 生成 1.6K 條高質量專家拼圖交互軌跡,教會模型如何正確生成動作代碼與交互邏輯,解決初期模型「不會動手」的問題;

      Reinforcement Learning 階段,在 15.6K 張圖像上訓練拼圖任務,采用 GRPO 算法,通過準確率、格式規范與交互輪數三重獎勵信號優化策略。



      圖 2:模型拼圖過程中激發出來的感知和推理行為

      實驗

      研究者們進行了大量實驗,驗證了 AGILE 的有效性,并得到了多條富有啟發意義的結論:

      • 研究者們設計了系統的拼圖評估數據集,涵蓋不同難度(2×2、3×3)與不同初始正確塊數(L0–L7)。模型性能以兩種指標衡量:Acc,所有塊完全放對的比例;Score,正確拼塊數占總拼塊數的比例。在最簡單的 2×2 任務中,AGILE 使準確率從 9.5% 提升至 82.8%,比 Gemini 2.5 Pro 高出 36.4 個百分點。在更具挑戰性的 3×3 拼圖中,也從 0.4% 提升至 20.8%,標志著模型感知和推理能力大幅躍升。



      表 1:拼圖 Acc 結果。LN 表示難度級別,N 表示初始正確拼圖塊數。N 值越小,拼圖越亂,難度越高。最佳結果以粗體顯示,次佳結果以下劃線顯示。

      • 通用能力即泛化性評測:經過拼圖訓練,模型在 9 項通用視覺任務中(涵蓋真實世界場景、高分辨率場景、細粒度感知、幻覺和多模態推理)平均提升 3.1%,展現出強大的泛化能力。進一步驗證了拼圖任務作為代理任務對于通用視覺能力的泛化價值。



      表 2:不同模型在 9 個基準測試上的性能比較。縮寫:MME-RW (MME-RealWorld-Lite)、RWQA (RealWorldQA)、HRB4K (HRBench4K)、HRB8K (HRBench8K)、HalBench (HallusionBench)、MMMU (MMMU VAL),Avg. 表示所有 9 個基準測試的平均性能。? 表示強化學習相對于基礎模型 Qwen2.5-VL-7B 獲得的相對性能提升。最佳結果以粗體突出顯示,次佳結果以下劃線標出。

      • Scaling 實驗:數據規模帶來的持續增益。研究者們進一步探究了拼圖數據規模對性能的影響。當訓練數據從 0 擴展至 16K 時:拼圖任務準確率從 22.0% → 82.8%;HRBench4K 準確率提升 +2.0%;RealWorldQA 提升 +1.8%。表明 AGILE 的訓練在數據量擴增下持續有效。由于拼圖環境可自動生成,AGILE 的數據擴展幾乎零成本、無限擴容,為多模態 RL 提供了可持續的自監督范式。



      圖 3:(左圖)訓練數據規模的影響。左側 y 軸表示 HRBench4K 和 RealWorldQA 的準確率,右側 y 軸表示拼圖任務的準確率。(右圖)與常規 QA 數據的比較,在兩種實驗設置中,樣本總數始終保持在 20K。

      • 與常規 QA 數據的對比實驗:研究者們替換 20K 常規 QA 數據中的其中 10K 為拼圖數據,發現模型可以表現出更好的性能。這說明拼圖任務提供了更強的結構感知與監督信號。這一發現凸顯了拼圖任務在緩解多模態強化學習數據稀缺方面的潛力,并為推進多模態模型開發開辟了一個充滿前景的新方向。

      意義與未來

      AGILE = 交互式拼圖代理 + 自監督 RL,在無需額外人工標注的前提下,持續提升 VLMs 的感知與推理能力。它證明了「交互式拼圖代理任務」作為突破數據瓶頸、強化 VLMs 的可行性和自監督強化學習范式的潛力。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      鳩山由紀夫戳破真相,當年免掉千億賠款,實則給日本立了個死規定

      鳩山由紀夫戳破真相,當年免掉千億賠款,實則給日本立了個死規定

      曹焋解說
      2025-12-07 15:55:03
      演員于娜男友去世,年僅35歲,上個月病危,沒錢治療到處籌款

      演員于娜男友去世,年僅35歲,上個月病危,沒錢治療到處籌款

      甜檸聊史
      2025-12-16 17:05:12
      又翻車!媒體稱贊39歲無腿外賣員很勵志,卻被網友一邊倒怒批!

      又翻車!媒體稱贊39歲無腿外賣員很勵志,卻被網友一邊倒怒批!

      麥杰遜
      2025-12-16 14:29:46
      震驚!石家莊某樓盤推出“男士止步”的全女小區樣板間,被叫停…

      震驚!石家莊某樓盤推出“男士止步”的全女小區樣板間,被叫停…

      火山詩話
      2025-12-16 16:44:03
      蔡英文正式逼宮賴清德,公安部開出懸賞通緝,蔣萬安將帶隊訪陸

      蔡英文正式逼宮賴清德,公安部開出懸賞通緝,蔣萬安將帶隊訪陸

      興史興談
      2025-12-16 18:56:31
      歐盟欲將被凍結俄資產用于烏克蘭,是否會削弱中國對歐投資環境信心?外交部回應

      歐盟欲將被凍結俄資產用于烏克蘭,是否會削弱中國對歐投資環境信心?外交部回應

      環球網資訊
      2025-12-17 15:30:40
      不行就換!CBA土豪又開始了,才打2輪就換外援,新援曝光,夠豪橫

      不行就換!CBA土豪又開始了,才打2輪就換外援,新援曝光,夠豪橫

      萌蘭聊個球
      2025-12-17 10:37:59
      14 億泡沫炸裂:金條、法拉利被拍賣后,王麗坤“豪門生活”曝光

      14 億泡沫炸裂:金條、法拉利被拍賣后,王麗坤“豪門生活”曝光

      未曾青梅
      2025-12-09 22:31:16
      英超大黑馬面臨解體!神奇主帥不續約 中軸線都要走人

      英超大黑馬面臨解體!神奇主帥不續約 中軸線都要走人

      球事百科吖
      2025-12-17 12:55:39
      國軍高官曾救九萬紅軍,開國卻被判死刑,毛主席:他是紅軍大恩人

      國軍高官曾救九萬紅軍,開國卻被判死刑,毛主席:他是紅軍大恩人

      雍親王府
      2025-11-24 23:20:02
      優質食物“蛋白質”排行榜!牛奶倒數第一,蝦肉排第5,建議了解

      優質食物“蛋白質”排行榜!牛奶倒數第一,蝦肉排第5,建議了解

      看世界的人
      2025-12-10 21:35:13
      繳獲中國導彈后,泰國要中方給個交代?外交部一句話讓其啞口無言

      繳獲中國導彈后,泰國要中方給個交代?外交部一句話讓其啞口無言

      曹興教授TALK
      2025-12-17 20:07:06
      越來越多孩子得白血病?醫生坦言:家里4樣東西是禍根,趁早扔了

      越來越多孩子得白血病?醫生坦言:家里4樣東西是禍根,趁早扔了

      DrX說
      2025-11-19 14:42:09
      中國女首富,以7800億超越華為成為國內最大民企,她哪來那么多錢

      中國女首富,以7800億超越華為成為國內最大民企,她哪來那么多錢

      牛牛叨史
      2025-12-14 17:07:17
      繼新加坡之后,馬來西亞華人發聲!

      繼新加坡之后,馬來西亞華人發聲!

      達文西看世界
      2025-12-17 10:42:35
      有一種痛苦叫“買了第四代住宅”,幻想很高級,入住后一言難盡!

      有一種痛苦叫“買了第四代住宅”,幻想很高級,入住后一言難盡!

      裝修秀
      2025-12-11 10:45:03
      大跳水!暴跌40%,又土又貴還開遍機場,中產的標配,真賣不動了

      大跳水!暴跌40%,又土又貴還開遍機場,中產的標配,真賣不動了

      小莜讀史
      2025-10-25 22:25:22
      社保基金重倉科技股曝光!近19億元新進特種芯片龍頭,連續6年重倉股僅6只

      社保基金重倉科技股曝光!近19億元新進特種芯片龍頭,連續6年重倉股僅6只

      數據寶
      2025-12-17 12:49:59
      A股,下午大漲的原因找到了,明天,大概率迎來普漲!

      A股,下午大漲的原因找到了,明天,大概率迎來普漲!

      夜深愛雜談
      2025-12-17 18:07:36
      花生再次被關注!調查發現:糖尿病常吃花生,不過半年或有6好處

      花生再次被關注!調查發現:糖尿病常吃花生,不過半年或有6好處

      蜉蝣說
      2025-11-20 14:40:39
      2025-12-17 21:12:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11943文章數 142512關注度
      往期回顧 全部

      科技要聞

      特斯拉值1.6萬億靠畫餅 Waymo值千億靠跑單

      頭條要聞

      美方威脅歐盟:點名了 別逼我動手

      頭條要聞

      美方威脅歐盟:點名了 別逼我動手

      體育要聞

      短短一年,從爭冠到0勝墊底...

      娛樂要聞

      狗仔曝熱播劇姐弟戀真談了???

      財經要聞

      重磅信號!收入分配制度或迎重大突破

      汽車要聞

      一車多動力+雙姿態 長城歐拉5上市 限時9.18萬元起

      態度原創

      本地
      親子
      教育
      游戲
      軍事航空

      本地新聞

      云游安徽|踏過戰壕與石板,讀一部活的淮北史

      親子要聞

      想讓孩子猛長個,家長一定要多給孩子吃這5道長高菜

      教育要聞

      【媒體聚焦】新華社 | 廣東“以賽促教”培養“大先生”

      獵魂世界:少女比比東技能信息匯總!第七大中毒流派正式降臨!

      軍事要聞

      最新現場:山東艦完成年度最后一次海上訓練

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 欧美A∨| 亚洲欧美另类久久久精品| 中文字幕久久精品波多野结| 国产熟妇??码视频| 淮阳县| 亚洲 a v无 码免 费 成 人 a v| 无码中文字幕乱码一区| 国产天美传媒性色av| 97国产成人无码精品久久久| 亚洲精品影院| 中文无码网| 午夜精品久久久久久久久久久久| 久久婷婷大香萑太香蕉av人 | 一个人在线观看免费视频www| 无码国内精品人妻少妇| 国产精品第四页| 亚洲成人A?V在线| 丰满妇女毛茸茸刮毛| 综合亚洲网| 岛国无码AV| 中文字幕人妻无码一区二区三区| 大肉大捧一进一出视频| 亚洲精品视频免费| 67194欧洲| 伊人a?v| 国内精品久久久久影院优| 99在线视频免费观看| 伊人偷拍| 国产成人无码性教育视频| 久久精品99国产精品日本| 夜夜欢视频| 驻马店市| 天堂8中文在线最新版在线| 中文字幕在线观看一区二区| 黑丝足交在线| 亚洲第一页色| 久久九九久精品国产免费直播| 任我爽精品视频在线播放| 中文字幕无码视频播放| 亚洲综合无码一区二区| 中文字幕av免费专区|