<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      AAAI 2026 Oral|InfiGUI-G1模型來了,刷新GUI Grounding SOTA

      0
      分享至



      隨著多模態大語言模型(MLLM)的飛速發展,能夠像人類一樣通過視覺輸入操作圖形用戶界面(GUI)的智能體(Agent)正逐漸成為現實。然而,在通往通用計算機控制的道路上,如何讓模型精準地將自然語言指令對應到屏幕上的具體元素 —— 即 GUI Grounding 任務,依然是一大難題。

      現有的方法,特別是基于驗證獎勵的強化學習(RLVR),雖然在提升 “指得準”(空間對齊)方面表現出色,卻往往在 “指得對”(語義對齊)上遭遇瓶頸。模型常常陷入 “自信陷阱”,在復雜的語義場景下無法通過有效探索找到正確的功能圖標。

      針對這一痛點,來自浙江大學、香港理工大學及 InfiX.ai 的研究團隊提出了一種全新的自適應探索策略優化框架(AEPO),并推出了InfiGUI-G1系列模型。該模型通過多答案生成與自適應獎勵機制,徹底打破了傳統 RLVR 的探索瓶頸。僅憑 3B 和 7B 的參數量,InfiGUI-G1 便在多個高難度 GUI 基準測試中刷新了 SOTA,部分指標甚至大幅超越了閉源模型。

      本文將深入介紹這項被 AAAI 2026 接收為 Oral 的工作,解讀其如何通過 “學會探索” 來實現更精準的 GUI 語義理解。



      • 論文標題:InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization
      • 論文鏈接:https://arxiv.org/abs/2508.05731
      • 代碼鏈接:https://github.com/InfiXAI/InfiGUI-G1

      從 “空間對齊” 到 “語義對齊”:被忽視的探索瓶頸

      GUI Grounding 任務的核心是將自然語言指令(如 “打開相機”)映射到屏幕上的特定元素坐標。研究團隊指出,這一任務可以解構為兩個正交的維度:

      1. 空間對齊(Spatial Alignment):能否精確地定位到元素(即 “指得準”)。

      2. 語義對齊(Semantic Alignment):能否識別出功能正確的元素(即 “指得對”)。

      現有的 RLVR 方法(如 Naive RLVR)雖然能通過優化坐標生成來提升定位精度,但在面對語義模糊或復雜的指令時卻顯得力不從心。

      例如,當指令是 “使用相機搜索物體” 時,屏幕上可能同時存在普通的 “相機應用” 和具有視覺搜索功能的 “Google Lens”。缺乏深度語義理解的模型往往會自信地死磕 “相機應用” 圖標。由于傳統 RL 依賴當前策略采樣,模型會不斷重復這個高置信度的錯誤,陷入“自信陷阱”(Confidence Trap),從而無法發現真正正確的 “Google Lens” 圖標,導致無法獲得修正語義誤解所需的學習信號。



      GUI Grounding 的主要失敗模式: (a) 空間對齊失敗,(b) 語義對齊失敗

      InfiGUI-G1:自適應探索策略優化(AEPO)

      為了解決這一探索效率低下的問題,InfiGUI-G1 引入了AEPO(Adaptive Exploration Policy Optimization)框架。與傳統的單次回答生成不同,AEPO 旨在通過更廣泛且高效的探索來捕捉低概率但正確的選項。

      AEPO 框架由三個協同工作的核心組件構成:

      1.多答案生成機制(Multi-Answer Generation)傳統的 RL 方法通常只采樣一個動作,一旦模型 “固執己見” 地選錯,梯度的學習信號就會消失。AEPO 強制模型在一次前向傳遞中生成 N 個候選坐標點。這一機制迫使模型跳出單一的高置信度預測,去探索策略分布長尾中的可能性,從而大幅增加了發現正確答案(如上述例子中的 Google Lens)的概率。

      2.自適應探索獎勵(Adaptive Exploration Reward, AER)僅僅生成多個答案是不夠的,如何評價這些答案的質量至關重要。研究團隊基于效率第一性原理(效率 = 效用 / 成本)設計了 AER 函數。

      • 動態激勵:如果模型在靠前的排名(Rank k)就找到了正確答案,給予高額獎勵;如果失敗,則給予較小的懲罰以鼓勵繼續探索。
      • 這種非線性的獎勵設計在失敗時鼓勵模型 “廣撒網”,在成功時引導模型追求 “快準狠”,實現了探索與利用的動態平衡。

      3.共線懲罰(Collinear Penalty)為了防止模型通過生成近似直線的點來 “作弊”(簡單的線性掃描策略),研究引入了共線懲罰。如果生成的多個候選點在幾何上近似共線,將被視為低質量探索并受到嚴厲懲罰。這強制模型在語義空間而非單純的幾何空間中進行多樣化探索。



      AEPO 與 Naive 強化學習基準方法的對比

      實驗結果:小參數量實現性能越級

      研究團隊在 MMBench-GUI、ScreenSpot-Pro、UI-Vision 等五個極具挑戰性的基準上對 InfiGUI-G1(3B 和 7B 版本)進行了全面評估。

      1.綜合性能全面領先:在 MMBench-GUI 基準測試中,InfiGUI-G1-7B 在 Windows、iOS、Android 等多個平臺上的表現均刷新了開源模型的最佳成績。值得注意的是,InfiGUI-G1-7B 在部分指標上甚至優于參數量大得多的 Qwen2.5-VL-72B 和閉源模型 GPT-4o。

      2.攻克高難度語義理解任務ScreenSpot-Pro 基準專門區分了文本類(Text)和圖標類(Icon)任務。結果顯示,InfiGUI-G1 在更依賴語義理解的 “圖標” 任務上提升尤為明顯。這直接證明了 AEPO 策略有效解決了語義對齊的瓶頸,讓模型真正 “看懂” 了抽象圖標背后的功能含義,而不僅僅是進行簡單的文本匹配。

      3.讓 “不可學習” 變得 “可學習”為了驗證 AEPO 是否真的解決了探索難題,研究團隊將樣本按難度分為簡單、中等和困難。實驗發現,InfiGUI-G1 在 “困難” 樣本(即基座模型幾乎無法答對的樣本)上的提升最為巨大,相對 Naive RLVR 基線提升了超過60%。這意味著 AEPO 成功挖掘出了那些以往因缺乏探索而被模型 “放棄” 的長尾知識。



      ScreenSpot-Pro 基準測試的性能對比

      總結與展望

      InfiGUI-G1 的成功表明,GUI 智能體的性能瓶頸不僅僅在于視覺識別能力,更在于如何通過有效的強化學習策略來解決語義對齊問題。通過引入自適應探索機制,InfiGUI-G1 以極高的數據效率和較小的模型規模,實現了超越大模型的 GUI Grounding 能力。這項工作為未來開發更通用、更智能的 GUI 交互助手提供了堅實的技術基礎。

      目前,InfiGUI-G1 的代碼、模型權重及相關資源已在 GitHub 開源,歡迎社區進一步研究與使用。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      “絕地反擊”!委內瑞拉軍隊曾發射防空導彈,擊中美軍直升機

      “絕地反擊”!委內瑞拉軍隊曾發射防空導彈,擊中美軍直升機

      大象新聞
      2026-01-07 00:17:07
      合肥一被執行人名下四輛嶄新蘭博基尼被成功法拍 最低成交價271萬

      合肥一被執行人名下四輛嶄新蘭博基尼被成功法拍 最低成交價271萬

      極目新聞
      2026-01-06 20:00:45
      2026北京車牌搖號要取消?3大新政讓無車家庭中簽率翻126倍

      2026北京車牌搖號要取消?3大新政讓無車家庭中簽率翻126倍

      芭比衣櫥
      2026-01-06 13:03:35
      李在明抵達北京,不到24小時,對華稱呼變了,朝鮮突然做出大動作

      李在明抵達北京,不到24小時,對華稱呼變了,朝鮮突然做出大動作

      井普椿的獨白
      2026-01-06 23:12:00
      賴昌星發妻曾明娜現狀:逃亡10年后回國,守著3000平老宅安靜養老

      賴昌星發妻曾明娜現狀:逃亡10年后回國,守著3000平老宅安靜養老

      古書記史
      2025-12-12 11:21:38
      全新一代奧迪A6L實車曝光!外觀造型更運動,1月15日正式亮相

      全新一代奧迪A6L實車曝光!外觀造型更運動,1月15日正式亮相

      三農老歷
      2026-01-07 09:45:12
      我國5600余個姓氏中只有8個姓氏從未衰落,看一下有你的姓氏嗎?

      我國5600余個姓氏中只有8個姓氏從未衰落,看一下有你的姓氏嗎?

      銘記歷史呀
      2026-01-07 02:22:59
      俄羅斯:真的打起來,中國最厲害的并不是解放軍!

      俄羅斯:真的打起來,中國最厲害的并不是解放軍!

      Ck的蜜糖
      2026-01-07 03:34:06
      實探“7年超低息”新政策下的特斯拉門店:多位顧客聞訊來咨詢,一門店當天賣出8臺車

      實探“7年超低息”新政策下的特斯拉門店:多位顧客聞訊來咨詢,一門店當天賣出8臺車

      極目新聞
      2026-01-06 21:15:55
      被曝藏身美國4個月,恒大前總裁再迎壞消息,許家印最后希望破滅

      被曝藏身美國4個月,恒大前總裁再迎壞消息,許家印最后希望破滅

      李橑在北漂
      2026-01-06 21:26:55
      官宣加盟!正式簽約!河村勇輝重返NBA

      官宣加盟!正式簽約!河村勇輝重返NBA

      籃球教學論壇
      2026-01-07 09:55:14
      哇,這大體格豐腴壯實,一臉旺夫相,誰娶到定能旺三代

      哇,這大體格豐腴壯實,一臉旺夫相,誰娶到定能旺三代

      東方不敗然多多
      2026-01-06 15:28:07
      非洲杯8強出爐:7強隊+黑馬 1/4決賽3場焦點戰 7冠王死磕衛冕冠軍

      非洲杯8強出爐:7強隊+黑馬 1/4決賽3場焦點戰 7冠王死磕衛冕冠軍

      我愛英超
      2026-01-07 06:25:13
      幾乎全是假貨!利潤高達2400%,咋消費者還前赴后繼爭相購買?

      幾乎全是假貨!利潤高達2400%,咋消費者還前赴后繼爭相購買?

      夢史
      2026-01-07 10:08:05
      13年后王石又做了一鍋紅燒肉,終究比不過胡歌的那鍋紅燒肉

      13年后王石又做了一鍋紅燒肉,終究比不過胡歌的那鍋紅燒肉

      阿訊說天下
      2026-01-06 15:30:46
      冬季取暖費飆升!紐約居民能源賬單動輒數百美元,直呼“吃不消”

      冬季取暖費飆升!紐約居民能源賬單動輒數百美元,直呼“吃不消”

      華人生活網
      2026-01-06 02:58:15
      事態升級!閆學晶囂張不認錯,再現丑惡嘴臉,離譜發言誰也救不了

      事態升級!閆學晶囂張不認錯,再現丑惡嘴臉,離譜發言誰也救不了

      李健政觀察
      2026-01-06 19:13:28
      于曉光意外:韓國總統訪華3天,秋瓷炫火出圈

      于曉光意外:韓國總統訪華3天,秋瓷炫火出圈

      車窗起霧q
      2026-01-07 02:19:33
      四川一醫院收費員玩手機,窗口多人排隊待繳費,醫院確認屬實,已對涉事職工進行嚴肅批評教育和待崗處理

      四川一醫院收費員玩手機,窗口多人排隊待繳費,醫院確認屬實,已對涉事職工進行嚴肅批評教育和待崗處理

      都市快報橙柿互動
      2026-01-07 00:48:56
      醫生發現:堅持用鹽水漱口的人,咽喉可能正在發生這5個積極變化

      醫生發現:堅持用鹽水漱口的人,咽喉可能正在發生這5個積極變化

      健康科普365
      2026-01-04 09:41:09
      2026-01-07 10:55:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12068文章數 142530關注度
      往期回顧 全部

      科技要聞

      馬斯克殺瘋了!xAI官宣200億美元融資

      頭條要聞

      李文榮被公訴:泄露尚未公開企業重組信息 搞權色交易

      頭條要聞

      李文榮被公訴:泄露尚未公開企業重組信息 搞權色交易

      體育要聞

      全明星次輪票數:東契奇票王 詹皇超KD升西部第8

      娛樂要聞

      2026年央視春晚彩排:沈騰確定回歸

      財經要聞

      茅臺為何要和分銷商徹底說拜拜?

      汽車要聞

      摩登出街潮品 實拍奇瑞QQ冰淇淋女王版

      態度原創

      時尚
      家居
      數碼
      房產
      手機

      冬天穿衣既要有溫度又要有風度!看看這些穿搭,優雅又顯瘦

      家居要聞

      寧靜不單調 恰到好處的美

      數碼要聞

      聯想官宣6月推SteamOS版Legion Go 2掌機

      房產要聞

      海珠雙冠王!中交天翠以強兌現力+生活溫度,筑就長期主義產品

      手機要聞

      2億像素還得等等 蘋果計劃2028年首次搭載

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲精品成人av无码A| 欧美人成精品网站播放| 国产色a在线观看| 超碰在线成人| 亚洲精品国模一区二区| 无线乱码一二三区免费看| 猫咪www免费人成网站| 欧美内射深喉中文字幕| 欧美啄木乌成人系列| 中文字幕在线看视频一区二区三区| 原味小视频在线www国产| 妇女bbbbb撒尿正面视频| 久久se精品一区精品二区国产| 日韩精品亚洲精品第一页| 日本少妇视频一区二区三区| 少妇愉情理伦片高潮日本| 超碰人人超碰人人| 口爆吞精一区二区久久| 男女18禁啪啪无遮挡激烈动态图红| 天天鲁一鲁摸一摸爽一爽| 中文字幕无码Av在线看| 久久国产成人免费网站| 中文字幕精品人妻熟女| 裸体丰满白嫩大尺度尤物| 在线无码| 波多野结衣的av一区二区三区 | 久久亚洲精品中文字幕波多野结衣| 绝美人妻被夫前侵犯| 亚洲AV无码久久精品色欲| 国产97人人超碰CAO蜜芽PROM| 91茄子| 热思思久久免费视频| 欧美日韩不卡合集视频| 免费人欧美成又黄又爽的视频| 商丘市| 91福利视频一区二区| 偷拍激情视频一区二区三区 | 伊人久久大香线蕉亚洲五月天| 最新的国产成人精品2022 | 嫩草亚洲小泬久久夂| 偷拍专区一区二区三区|