<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      螞蟻集團發布VenusBench-GD:首個全平臺GUI智能交互能力測試基準

      0
      分享至


      這項由螞蟻集團Venus團隊聯合iMean AI公司共同完成的研究發表于2024年12月,研究論文編號為arXiv:2512.16501v1。該研究團隊由來自螞蟻集團的周北桐、黃哲瀟、郭遠、顧張軒等多位研究員以及iMean AI的孔德韓、尚彥一等研究人員組成,項目由螞蟻集團的沈舒恒博士領導。有興趣深入了解的讀者可以通過論文編號arXiv:2512.16501v1查詢完整論文。

      當你用手機點擊一個APP圖標,或者在電腦上尋找某個按鈕時,這些看似簡單的操作背后其實隱藏著復雜的視覺理解過程。你的眼睛需要在密密麻麻的界面元素中精準定位目標,大腦要理解各種圖標的含義,還要根據空間位置關系找到正確的位置。現在,人工智能也在努力學會這種能力,就像訓練一個從未見過電腦界面的人學會如何操作各種軟件一樣。

      螞蟻集團的研究團隊發現了一個關鍵問題:現有的AI測試標準就像只考察學生能否認識單個漢字,卻從未測試他們能否讀懂一篇完整文章。大多數GUI(圖形用戶界面)測試基準要么規模太小,就像只有幾十道題的考試,要么過于專業化,就像只測試醫學專業術語而忽略了日常對話能力。更重要的是,這些測試往往只關注最基礎的"找到紅色按鈕"這類簡單任務,卻忽略了真實應用中需要的復雜推理能力,比如"找到價格最便宜的那個商品并加入購物車"。

      為了解決這個問題,研究團隊開發了VenusBench-GD,這是目前世界上最大規模、最全面的GUI理解能力測試基準。這就像為AI設計了一套從小學到大學的完整課程體系,不僅要測試基礎的視覺識別能力,還要考察復雜的邏輯推理和問題解決能力。

      這套測試系統覆蓋了我們日常使用的所有主要平臺:手機應用、網頁界面和電腦軟件,總共包含97個不同的應用程序,涵蓋創意設計、辦公效率、電子商務、娛樂、金融、知識獲取、社交、旅行和工具類等10個主要領域。研究團隊花費三個月時間,動員20位專業標注員,精心制作了6166個測試樣本,每個樣本都經過多輪嚴格的質量檢驗。

      VenusBench-GD的最大創新在于建立了分層次的評估體系。基礎任務就像教會AI"看圖識字",包括元素識別、空間定位和視覺特征理解三個方面。元素識別類似于教AI認識界面上的各種"零件",比如按鈕、文本框、下拉菜單等;空間定位則是教會AI理解相對位置關系,比如"找到搜索框右邊的那個按鈕";視覺特征理解讓AI學會根據外觀描述找到目標,比如"找到那個心形圖標"。

      高級任務則更像是考察AI的"綜合應用能力"。功能推理任務要求AI理解不同界面元素的實際功能,就像你需要知道那個"X"按鈕是用來關閉窗口的,而不僅僅是識別它的外形。邏輯推理任務則更進一步,要求AI能夠進行多步驟的思考和比較,比如"找到評分最高但價格適中的那家餐廳"。最有趣的是拒絕應答任務,這是在測試AI是否具備"實事求是"的品質——當用戶的要求在當前界面中根本無法完成時,AI應該誠實地說"找不到",而不是胡亂猜測一個答案。

      研究團隊在數據質量控制方面下了很大功夫。他們開發了一套"人機協作"的標注流程,先讓人工專家標記出界面中的重要元素,然后用AI模型生成對應的自然語言指令,最后再由人工專家驗證指令與元素是否匹配。這個過程就像制作一道精美的菜肴,需要選材、配菜、烹飪、品嘗等多個環節的精心把控。

      為了確保測試結果的可靠性,研究團隊還進行了"盲測"實驗。他們從多個現有基準中隨機抽取了3000個樣本,打亂順序后讓標注員重新評估質量,就像讓老師在不知道學生姓名的情況下批改試卷一樣。結果顯示,VenusBench-GD的標注錯誤率僅為2.6%,遠低于其他基準的10-25%錯誤率。

      在實驗評估部分,研究團隊測試了目前最先進的多種AI模型,包括GPT-4o、Claude等通用多模態模型,以及專門為GUI任務設計的特化模型。測試結果揭示了一個有趣的現象:在基礎任務上,通用AI模型的表現已經追上甚至超越了專門的GUI模型。比如Qwen3-VL-8B模型在基礎任務上達到了76.96%的準確率,表現相當出色。這就像一個全科醫生在處理常見疾病時,效果并不比專科醫生差多少。

      然而,在高級任務上,專業化的GUI模型仍然保持明顯優勢。在功能推理和邏輯推理任務中,像Holo1.5-72B和UI-Venus-Ground-72B這樣的專業模型分別達到了40%和68%的準確率,明顯優于通用模型。這說明專業化訓練在復雜任務中仍然具有不可替代的價值,就像專科醫生在處理疑難雜癥時的專業優勢一樣。

      最令人意外的發現出現在拒絕應答任務中。大多數專業GUI模型在這個任務上的表現近乎為零,只有UI-Venus-Ground-72B達到了51.33%的準確率。這暴露了當前AI模型的一個致命弱點:過度自信和缺乏自我認知。就像一個總是不懂裝懂的學生,即使面對無法解答的問題也要硬著頭皮給出答案,而不是誠實地承認"我不知道"。

      研究團隊還特別關注了多語言環境下的表現。他們發現模型在中文指令下的表現通常比英文更好,這可能與訓練數據的分布有關。比如Qwen3-VL-4B模型在基礎任務上從英文環境的72.54%提升到中文環境的81.32%,顯示出明顯的語言偏好。

      為了驗證測試基準的有效性,研究團隊還進行了人類表現對比實驗。結果顯示人類在高級任務上的表現顯著超越所有AI模型:在邏輯推理、功能理解和拒絕應答三個方面分別超出當前最佳AI模型41.6%、11.8%和17.8%。這說明AI在GUI理解方面還有很大的提升空間,就像學生與老師之間仍然存在明顯的能力差距。

      通過深入的錯誤分析,研究團隊發現了AI模型的幾個主要問題。首先是語義理解偏差,AI往往難以將抽象概念與具體視覺元素聯系起來,比如無法理解"文本對齊"這個概念對應的圖標樣式。其次是空間定位不準確,雖然能夠大致判斷區域位置,但在密集界面中難以精確區分相鄰元素。第三是視覺特征組合能力不足,當需要同時考慮顏色、形狀、位置等多個屬性時容易出錯。最重要的是缺乏多步推理能力,面對需要比較、篩選、排序的復雜任務時往往采用"貪心策略",只關注第一個符合條件的選項而忽略全局最優解。

      這項研究的意義遠遠超出了學術范疇。隨著AI助手越來越多地參與我們的日常數字生活,GUI理解能力將成為衡量AI實用性的重要指標。一個真正智能的AI助手不僅要能聽懂你說的話,還要能在復雜的應用界面中準確執行你的指令,就像一個貼心的秘書能夠熟練操作各種辦公軟件一樣。

      VenusBench-GD的發布標志著GUI智能理解研究進入了一個新階段。它不僅提供了更嚴格的評估標準,也為研究者指出了未來的發展方向。隨著這套測試基準的廣泛應用,我們有理由期待AI在圖形界面理解方面取得更大突破,最終實現真正智能的人機交互體驗。

      說到底,這項研究就像為AI設計了一套"駕照考試",不僅要測試基本的操作技能,還要考察復雜情況下的應變能力。只有通過這樣全面而嚴格的考核,AI才能真正成為我們值得信賴的數字助手。當然,從目前的測試結果來看,AI們距離拿到"滿分駕照"還需要繼續努力,但這個方向無疑是正確的。歸根結底,這不僅是技術進步的需要,更是我們邁向更智能、更便捷數字生活的必經之路。

      Q&A

      Q1:VenusBench-GD與現有的GUI測試基準有什么不同?

      A:VenusBench-GD是目前規模最大、最全面的GUI理解測試基準,包含6166個測試樣本,覆蓋手機、網頁、電腦三大平臺的97個應用。與現有基準相比,它建立了分層評估體系,不僅測試基礎的元素識別能力,還考察復雜的邏輯推理和功能理解能力,標注錯誤率僅為2.6%,遠低于其他基準的10-25%。

      Q2:為什么專業的GUI模型在拒絕應答任務上表現這么差?

      A:這暴露了當前AI模型過度自信和缺乏自我認知的問題。大多數專業GUI模型在拒絕應答任務上準確率接近零,說明它們無法識別不可能完成的指令,總是試圖強行給出答案而不是誠實地說"找不到"。這就像一個不懂裝懂的學生,即使面對無法解答的問題也要硬著頭皮回答。

      Q3:VenusBench-GD測試結果對普通用戶有什么意義?

      A:測試結果表明當前AI在GUI理解方面還有很大提升空間,人類在復雜任務上仍明顯超越AI模型。這意味著現階段的AI助手在處理復雜界面操作時可能出錯,用戶需要保持適當的監督。同時,這也預示著未來AI助手的巨大潛力,隨著技術進步,我們將擁有更智能、更可靠的數字助手。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      廣廈110-80深圳迎5連勝,胡金秋11+5,孫銘徽11分,王浩然19+7

      廣廈110-80深圳迎5連勝,胡金秋11+5,孫銘徽11分,王浩然19+7

      懂球帝
      2025-12-27 21:45:19
      為報戰友救命之恩,我娶了他38歲的姐姐,結婚2年我才發現她身份

      為報戰友救命之恩,我娶了他38歲的姐姐,結婚2年我才發現她身份

      蕭竹輕語
      2025-12-12 16:25:15
      炸鍋!俄持續狂轟敖德薩,致平民死傷設施全毀,烏:這是蓄意屠殺

      炸鍋!俄持續狂轟敖德薩,致平民死傷設施全毀,烏:這是蓄意屠殺

      華言觀評
      2025-12-26 18:54:31
      科比遺孀圣誕曬全家福,三女綠裙同框似爸爸,她說永不再婚?

      科比遺孀圣誕曬全家福,三女綠裙同框似爸爸,她說永不再婚?

      科學發掘
      2025-12-27 14:00:26
      1960年代,許世友想要安徽一個湖,省委書記拍桌子:手伸太長!結局誰也沒想到

      1960年代,許世友想要安徽一個湖,省委書記拍桌子:手伸太長!結局誰也沒想到

      源溯歷史
      2025-12-22 12:14:11
      驚呆了!現役國手26分鐘得1分都難,球迷:打人機隊能1分不得?

      驚呆了!現役國手26分鐘得1分都難,球迷:打人機隊能1分不得?

      弄月公子
      2025-12-27 22:03:29
      突發!知名網紅“表哥”覃進展破產,自曝原因惹爭議,已搬到農村

      突發!知名網紅“表哥”覃進展破產,自曝原因惹爭議,已搬到農村

      裕豐娛間說
      2025-12-26 23:15:19
      優質“蛋白質”排行榜!牛奶倒數第一,蝦肉才排第5,建議了解

      優質“蛋白質”排行榜!牛奶倒數第一,蝦肉才排第5,建議了解

      岐黃傳人孫大夫
      2025-12-20 10:00:03
      曼城幸運2分鐘!迪亞斯逃紅,賴因德斯閃擊,首次射正就領先

      曼城幸運2分鐘!迪亞斯逃紅,賴因德斯閃擊,首次射正就領先

      奧拜爾
      2025-12-27 21:47:27
      繪說現代化丨冰雪龍江 熱力全開

      繪說現代化丨冰雪龍江 熱力全開

      人民資訊
      2025-12-27 08:38:42
      遼寧推妻墜海案中,死者兒子案發后的舉動,才叫人頭皮發麻…

      遼寧推妻墜海案中,死者兒子案發后的舉動,才叫人頭皮發麻…

      媒體人溪婉
      2024-11-29 13:57:59
      一天只能吃一個雞蛋的謊言,被徹底拆穿了,我們被騙了近百年

      一天只能吃一個雞蛋的謊言,被徹底拆穿了,我們被騙了近百年

      小胡軍事愛好
      2025-12-27 17:38:58
      中國又一技術震驚世界,西方巨頭紛紛求合作,這黑科技到底有多牛

      中國又一技術震驚世界,西方巨頭紛紛求合作,這黑科技到底有多牛

      通文知史
      2025-12-26 20:00:02
      陪睡陪玩不過是皮毛!萬達百億資產蒸發后,王思聰又曝驚天丑聞

      陪睡陪玩不過是皮毛!萬達百億資產蒸發后,王思聰又曝驚天丑聞

      牛鍋巴小釩
      2025-12-24 10:39:19
      日本高層赴俄,在中國背后捅刀,高市早苗知道:拼速度的時候到了

      日本高層赴俄,在中國背后捅刀,高市早苗知道:拼速度的時候到了

      歷史有些冷
      2025-12-26 18:45:05
      本賽季薪水最高的十名球星,其中四名球員高薪低能名不副實

      本賽季薪水最高的十名球星,其中四名球員高薪低能名不副實

      李帕在北漂
      2025-12-26 19:47:37
      慘!10天不到就裁掉!昔日天才榜眼啊,還不如落選秀

      慘!10天不到就裁掉!昔日天才榜眼啊,還不如落選秀

      格斗聯盟王大錘
      2025-12-27 21:09:48
      南博事件后續,曝南京敏求藝術品公司人去樓空,牽扯到徐湘江

      南博事件后續,曝南京敏求藝術品公司人去樓空,牽扯到徐湘江

      千言娛樂記
      2025-12-27 18:47:20
      萬科資不抵債

      萬科資不抵債

      地產微資訊
      2025-12-27 09:07:18
      驚魂!深圳一小汽車突發意外,失控沖出道路!車體4/5懸空,在懸崖邊緣搖搖欲墜…

      驚魂!深圳一小汽車突發意外,失控沖出道路!車體4/5懸空,在懸崖邊緣搖搖欲墜…

      廣東活動
      2025-12-27 12:11:49
      2025-12-27 22:28:49
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業世界
      6680文章數 544關注度
      往期回顧 全部

      科技要聞

      小米也漲價了!業界稱終端再不漲明年必虧

      頭條要聞

      美媒:特朗普顯然觸及了中國的紅線 中方怒了

      頭條要聞

      美媒:特朗普顯然觸及了中國的紅線 中方怒了

      體育要聞

      NBA教練圈的布朗尼,花了22年證明自己

      娛樂要聞

      張昊唯逃稅涉黃風波落幕:法院認定朋友造謠

      財經要聞

      注意,開始拉物價了!

      汽車要聞

      好音響比大屏更重要?車企開始“聽”用戶的

      態度原創

      時尚
      本地
      教育
      健康
      軍事航空

      穿好雪地靴的4個訣竅,還挺有效!

      本地新聞

      云游安徽|踏訪池州,讀懂山水間的萬年史書

      教育要聞

      30號展播!廣州市“Fun學英語”系列活動之“讀者劇場”展評活動|AI+教師發展公益行·廣州站

      這些新療法,讓化療不再那么痛苦

      軍事要聞

      英法德三國領導人通話 重申對烏支持

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 久久99嫩草熟妇人妻蜜臀| 娇小萝被两个黑人用半米长| 日本伊人色综合网| 别揉我奶头~嗯~啊~的视频 | 色人妻中文字幕| 株洲市| 毛葺葺老太做受视频| 亚洲精品久久久久久下一站| 夜夜高潮次次欢爽av女| 碰碰免费视频| 秭归县| 国产成人精品午夜福利在线观看 | 女人18毛片水真多| 亚洲综合伊人久久大杳蕉| 国产VA| 亚洲精选无码| 欧美色欧美亚洲另类二区| 99久久人妻无码精品系列蜜桃| 99精品人妻少妇一区| 午夜无码福利| 国产96在线 | 亚洲| wwww亚洲熟妇久久久久| 亚洲中文无码永久免费| AV无码一区二区三区 | 免费人成视频在线播放| 丰腴浓毛粗壮熟女X66AV| 亚洲中文自拍| 日韩在线视频观看免费网站| 女人腿张开让男人桶爽 | 亚洲色婷婷婷婷五月基地| 琪琪福利视频| www.av小说| 欧美xxxx黑人又粗又大| 亚洲成a人无码av波多野| 自拍视频啪| jizz日本69| 国产浮力第一页| 精品人妻一二| 中文字幕有码无码av| 最新av中文字幕无码专区| 国产日韩欧美小视频苍井空毛片|