<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      AAAI 2026 Oral|InfiGUI-G1模型來了,刷新GUI Grounding SOTA

      0
      分享至



      隨著多模態(tài)大語言模型(MLLM)的飛速發(fā)展,能夠像人類一樣通過視覺輸入操作圖形用戶界面(GUI)的智能體(Agent)正逐漸成為現(xiàn)實(shí)。然而,在通往通用計(jì)算機(jī)控制的道路上,如何讓模型精準(zhǔn)地將自然語言指令對(duì)應(yīng)到屏幕上的具體元素 —— 即 GUI Grounding 任務(wù),依然是一大難題。

      現(xiàn)有的方法,特別是基于驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(RLVR),雖然在提升 “指得準(zhǔn)”(空間對(duì)齊)方面表現(xiàn)出色,卻往往在 “指得對(duì)”(語義對(duì)齊)上遭遇瓶頸。模型常常陷入 “自信陷阱”,在復(fù)雜的語義場(chǎng)景下無法通過有效探索找到正確的功能圖標(biāo)。

      針對(duì)這一痛點(diǎn),來自浙江大學(xué)、香港理工大學(xué)及 InfiX.ai 的研究團(tuán)隊(duì)提出了一種全新的自適應(yīng)探索策略優(yōu)化框架(AEPO),并推出了InfiGUI-G1系列模型。該模型通過多答案生成與自適應(yīng)獎(jiǎng)勵(lì)機(jī)制,徹底打破了傳統(tǒng) RLVR 的探索瓶頸。僅憑 3B 和 7B 的參數(shù)量,InfiGUI-G1 便在多個(gè)高難度 GUI 基準(zhǔn)測(cè)試中刷新了 SOTA,部分指標(biāo)甚至大幅超越了閉源模型。

      本文將深入介紹這項(xiàng)被 AAAI 2026 接收為 Oral 的工作,解讀其如何通過 “學(xué)會(huì)探索” 來實(shí)現(xiàn)更精準(zhǔn)的 GUI 語義理解。



      • 論文標(biāo)題:InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization
      • 論文鏈接:https://arxiv.org/abs/2508.05731
      • 代碼鏈接:https://github.com/InfiXAI/InfiGUI-G1

      從 “空間對(duì)齊” 到 “語義對(duì)齊”:被忽視的探索瓶頸

      GUI Grounding 任務(wù)的核心是將自然語言指令(如 “打開相機(jī)”)映射到屏幕上的特定元素坐標(biāo)。研究團(tuán)隊(duì)指出,這一任務(wù)可以解構(gòu)為兩個(gè)正交的維度:

      1. 空間對(duì)齊(Spatial Alignment):能否精確地定位到元素(即 “指得準(zhǔn)”)。

      2. 語義對(duì)齊(Semantic Alignment):能否識(shí)別出功能正確的元素(即 “指得對(duì)”)。

      現(xiàn)有的 RLVR 方法(如 Naive RLVR)雖然能通過優(yōu)化坐標(biāo)生成來提升定位精度,但在面對(duì)語義模糊或復(fù)雜的指令時(shí)卻顯得力不從心。

      例如,當(dāng)指令是 “使用相機(jī)搜索物體” 時(shí),屏幕上可能同時(shí)存在普通的 “相機(jī)應(yīng)用” 和具有視覺搜索功能的 “Google Lens”。缺乏深度語義理解的模型往往會(huì)自信地死磕 “相機(jī)應(yīng)用” 圖標(biāo)。由于傳統(tǒng) RL 依賴當(dāng)前策略采樣,模型會(huì)不斷重復(fù)這個(gè)高置信度的錯(cuò)誤,陷入“自信陷阱”(Confidence Trap),從而無法發(fā)現(xiàn)真正正確的 “Google Lens” 圖標(biāo),導(dǎo)致無法獲得修正語義誤解所需的學(xué)習(xí)信號(hào)。



      GUI Grounding 的主要失敗模式: (a) 空間對(duì)齊失敗,(b) 語義對(duì)齊失敗

      InfiGUI-G1:自適應(yīng)探索策略優(yōu)化(AEPO)

      為了解決這一探索效率低下的問題,InfiGUI-G1 引入了AEPO(Adaptive Exploration Policy Optimization)框架。與傳統(tǒng)的單次回答生成不同,AEPO 旨在通過更廣泛且高效的探索來捕捉低概率但正確的選項(xiàng)。

      AEPO 框架由三個(gè)協(xié)同工作的核心組件構(gòu)成:

      1.多答案生成機(jī)制(Multi-Answer Generation)傳統(tǒng)的 RL 方法通常只采樣一個(gè)動(dòng)作,一旦模型 “固執(zhí)己見” 地選錯(cuò),梯度的學(xué)習(xí)信號(hào)就會(huì)消失。AEPO 強(qiáng)制模型在一次前向傳遞中生成 N 個(gè)候選坐標(biāo)點(diǎn)。這一機(jī)制迫使模型跳出單一的高置信度預(yù)測(cè),去探索策略分布長(zhǎng)尾中的可能性,從而大幅增加了發(fā)現(xiàn)正確答案(如上述例子中的 Google Lens)的概率。

      2.自適應(yīng)探索獎(jiǎng)勵(lì)(Adaptive Exploration Reward, AER)僅僅生成多個(gè)答案是不夠的,如何評(píng)價(jià)這些答案的質(zhì)量至關(guān)重要。研究團(tuán)隊(duì)基于效率第一性原理(效率 = 效用 / 成本)設(shè)計(jì)了 AER 函數(shù)。

      • 動(dòng)態(tài)激勵(lì):如果模型在靠前的排名(Rank k)就找到了正確答案,給予高額獎(jiǎng)勵(lì);如果失敗,則給予較小的懲罰以鼓勵(lì)繼續(xù)探索。
      • 這種非線性的獎(jiǎng)勵(lì)設(shè)計(jì)在失敗時(shí)鼓勵(lì)模型 “廣撒網(wǎng)”,在成功時(shí)引導(dǎo)模型追求 “快準(zhǔn)狠”,實(shí)現(xiàn)了探索與利用的動(dòng)態(tài)平衡。

      3.共線懲罰(Collinear Penalty)為了防止模型通過生成近似直線的點(diǎn)來 “作弊”(簡(jiǎn)單的線性掃描策略),研究引入了共線懲罰。如果生成的多個(gè)候選點(diǎn)在幾何上近似共線,將被視為低質(zhì)量探索并受到嚴(yán)厲懲罰。這強(qiáng)制模型在語義空間而非單純的幾何空間中進(jìn)行多樣化探索。



      AEPO 與 Naive 強(qiáng)化學(xué)習(xí)基準(zhǔn)方法的對(duì)比

      實(shí)驗(yàn)結(jié)果:小參數(shù)量實(shí)現(xiàn)性能越級(jí)

      研究團(tuán)隊(duì)在 MMBench-GUI、ScreenSpot-Pro、UI-Vision 等五個(gè)極具挑戰(zhàn)性的基準(zhǔn)上對(duì) InfiGUI-G1(3B 和 7B 版本)進(jìn)行了全面評(píng)估。

      1.綜合性能全面領(lǐng)先:在 MMBench-GUI 基準(zhǔn)測(cè)試中,InfiGUI-G1-7B 在 Windows、iOS、Android 等多個(gè)平臺(tái)上的表現(xiàn)均刷新了開源模型的最佳成績(jī)。值得注意的是,InfiGUI-G1-7B 在部分指標(biāo)上甚至優(yōu)于參數(shù)量大得多的 Qwen2.5-VL-72B 和閉源模型 GPT-4o。

      2.攻克高難度語義理解任務(wù)ScreenSpot-Pro 基準(zhǔn)專門區(qū)分了文本類(Text)和圖標(biāo)類(Icon)任務(wù)。結(jié)果顯示,InfiGUI-G1 在更依賴語義理解的 “圖標(biāo)” 任務(wù)上提升尤為明顯。這直接證明了 AEPO 策略有效解決了語義對(duì)齊的瓶頸,讓模型真正 “看懂” 了抽象圖標(biāo)背后的功能含義,而不僅僅是進(jìn)行簡(jiǎn)單的文本匹配。

      3.讓 “不可學(xué)習(xí)” 變得 “可學(xué)習(xí)”為了驗(yàn)證 AEPO 是否真的解決了探索難題,研究團(tuán)隊(duì)將樣本按難度分為簡(jiǎn)單、中等和困難。實(shí)驗(yàn)發(fā)現(xiàn),InfiGUI-G1 在 “困難” 樣本(即基座模型幾乎無法答對(duì)的樣本)上的提升最為巨大,相對(duì) Naive RLVR 基線提升了超過60%。這意味著 AEPO 成功挖掘出了那些以往因缺乏探索而被模型 “放棄” 的長(zhǎng)尾知識(shí)。



      ScreenSpot-Pro 基準(zhǔn)測(cè)試的性能對(duì)比

      總結(jié)與展望

      InfiGUI-G1 的成功表明,GUI 智能體的性能瓶頸不僅僅在于視覺識(shí)別能力,更在于如何通過有效的強(qiáng)化學(xué)習(xí)策略來解決語義對(duì)齊問題。通過引入自適應(yīng)探索機(jī)制,InfiGUI-G1 以極高的數(shù)據(jù)效率和較小的模型規(guī)模,實(shí)現(xiàn)了超越大模型的 GUI Grounding 能力。這項(xiàng)工作為未來開發(fā)更通用、更智能的 GUI 交互助手提供了堅(jiān)實(shí)的技術(shù)基礎(chǔ)。

      目前,InfiGUI-G1 的代碼、模型權(quán)重及相關(guān)資源已在 GitHub 開源,歡迎社區(qū)進(jìn)一步研究與使用。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      美媒:網(wǎng)飛董事會(huì)成員警告“向特朗普屈膝”企業(yè)將自食其果,特朗普怒了

      美媒:網(wǎng)飛董事會(huì)成員警告“向特朗普屈膝”企業(yè)將自食其果,特朗普怒了

      環(huán)球網(wǎng)資訊
      2026-02-22 16:17:06
      伊朗總統(tǒng):伊朗人民絕不會(huì)向霸凌屈服

      伊朗總統(tǒng):伊朗人民絕不會(huì)向霸凌屈服

      澎湃新聞
      2026-02-22 05:06:12
      墨西哥毒梟在軍方抓捕行動(dòng)中受傷身亡

      墨西哥毒梟在軍方抓捕行動(dòng)中受傷身亡

      澎湃新聞
      2026-02-23 05:52:03
      一年流出視頻294部的小寶到底探過多少朵花?

      一年流出視頻294部的小寶到底探過多少朵花?

      挪威森林
      2026-01-25 17:18:42
      第三批栽在黃金里的投資者,2月22日終于明白,全都輸在“貪”

      第三批栽在黃金里的投資者,2月22日終于明白,全都輸在“貪”

      白淺娛樂聊
      2026-02-23 01:37:20
      央媒怒批、坑害老百姓!臭名昭著的四大相聲演員,各個(gè)難以原諒

      央媒怒批、坑害老百姓!臭名昭著的四大相聲演員,各個(gè)難以原諒

      青橘罐頭
      2026-02-18 07:08:27
      泡泡瑪特官宣新IP,上一個(gè)IP天貓官旗只賣了800件

      泡泡瑪特官宣新IP,上一個(gè)IP天貓官旗只賣了800件

      觀察者網(wǎng)
      2026-02-22 17:10:42
      高德和交警聯(lián)網(wǎng)了嗎?網(wǎng)友:高德敢聯(lián)網(wǎng),就會(huì)失去大量客戶

      高德和交警聯(lián)網(wǎng)了嗎?網(wǎng)友:高德敢聯(lián)網(wǎng),就會(huì)失去大量客戶

      夜深愛雜談
      2025-12-15 23:14:05
      李世民和武則天圓房那夜,創(chuàng)下歷史最高記錄,至今也未被打破

      李世民和武則天圓房那夜,創(chuàng)下歷史最高記錄,至今也未被打破

      談史論天地
      2026-01-30 15:05:03
      96年,清華女碩士執(zhí)意遠(yuǎn)嫁非洲,生下5個(gè)混血孩子,如今怎樣了?

      96年,清華女碩士執(zhí)意遠(yuǎn)嫁非洲,生下5個(gè)混血孩子,如今怎樣了?

      起喜電影
      2026-02-22 13:22:34
      謝楠也沒想到,她那52歲“登味”老公吳京,因《鏢人》口碑反轉(zhuǎn)了

      謝楠也沒想到,她那52歲“登味”老公吳京,因《鏢人》口碑反轉(zhuǎn)了

      小徐講八卦
      2026-02-23 07:12:25
      老板娘說她過年回家放炮!我該怎么回答?

      老板娘說她過年回家放炮!我該怎么回答?

      太急張三瘋
      2026-02-21 08:11:23
      納達(dá)爾時(shí)隔26年重返滑雪場(chǎng),德約科維奇沉迷冬奧無法自拔

      納達(dá)爾時(shí)隔26年重返滑雪場(chǎng),德約科維奇沉迷冬奧無法自拔

      網(wǎng)球之家
      2026-02-22 22:47:57
      送走馬蓉又迎來馮清,倒霉的王寶強(qiáng),終究還是逃不過“女人坑”

      送走馬蓉又迎來馮清,倒霉的王寶強(qiáng),終究還是逃不過“女人坑”

      卷史
      2026-02-15 06:08:47
      霍福德6記三分奇兵準(zhǔn)三雙,約基奇35+20+12難救主,勇士掀翻掘金

      霍福德6記三分奇兵準(zhǔn)三雙,約基奇35+20+12難救主,勇士掀翻掘金

      釘釘陌上花開
      2026-02-23 07:10:36
      臺(tái)軍女飛行員郭文靜:只要長(zhǎng)官敢下令,我會(huì)毫不猶豫的擊落殲20!

      臺(tái)軍女飛行員郭文靜:只要長(zhǎng)官敢下令,我會(huì)毫不猶豫的擊落殲20!

      顧史
      2026-01-21 21:04:39
      昨晚,前夫借故來看孩子,一見面就迫不及待進(jìn)入正題,我推不開他

      昨晚,前夫借故來看孩子,一見面就迫不及待進(jìn)入正題,我推不開他

      第7情感
      2025-09-14 11:33:27
      那藝娜被認(rèn)定為“劣跡藝人”后,在多平臺(tái)發(fā)布短劇宣傳視頻,目前仍有6場(chǎng)演出在售

      那藝娜被認(rèn)定為“劣跡藝人”后,在多平臺(tái)發(fā)布短劇宣傳視頻,目前仍有6場(chǎng)演出在售

      大風(fēng)新聞
      2026-02-22 11:02:06
      1957年,黃百韜之子被判死刑,其母親求見宋美齡:我只有一個(gè)要求

      1957年,黃百韜之子被判死刑,其母親求見宋美齡:我只有一個(gè)要求

      明月清風(fēng)閣
      2026-02-15 14:55:05
      俄羅斯發(fā)出警告,24小時(shí)不到,中方霸氣現(xiàn)身:誰敢亂來!

      俄羅斯發(fā)出警告,24小時(shí)不到,中方霸氣現(xiàn)身:誰敢亂來!

      音樂時(shí)光的娛樂
      2026-02-22 19:58:25
      2026-02-23 08:16:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12326文章數(shù) 142569關(guān)注度
      往期回顧 全部

      科技要聞

      馬斯克:星艦每年將發(fā)射超過10000顆衛(wèi)星

      頭條要聞

      特朗普徹底炸毛 大罵反對(duì)關(guān)稅六名大法官是"國(guó)家恥辱"

      頭條要聞

      特朗普徹底炸毛 大罵反對(duì)關(guān)稅六名大法官是"國(guó)家恥辱"

      體育要聞

      谷愛凌:6次參賽6次奪牌 我對(duì)自己非常自豪

      娛樂要聞

      谷愛凌:真正的強(qiáng)大 敢接納生命的節(jié)奏

      財(cái)經(jīng)要聞

      特朗普新加征關(guān)稅稅率從10%提升至15%

      汽車要聞

      續(xù)航1810km!smart精靈#6 EHD超級(jí)電混2026年上市

      態(tài)度原創(chuàng)

      本地
      藝術(shù)
      健康
      親子
      公開課

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      藝術(shù)要聞

      不吹牛,這句格言寫成草書以后,根本沒人認(rèn)識(shí),太難了!

      轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

      親子要聞

      一個(gè)4歲孩子憑什么教大人教育小孩。

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版