網易首頁 > 網易號 > 正文申請入駐

螞蟻集團發布VenusBench-GD：首個全平臺GUI智能交互能力測試基準

2025-12-23 21:12:03　來源: 科技行者

北京舉報

分享至

這項由螞蟻集團Venus團隊聯合iMean AI公司共同完成的研究發表于2024年12月，研究論文編號為arXiv:2512.16501v1。該研究團隊由來自螞蟻集團的周北桐、黃哲瀟、郭遠、顧張軒等多位研究員以及iMean AI的孔德韓、尚彥一等研究人員組成，項目由螞蟻集團的沈舒恒博士領導。有興趣深入了解的讀者可以通過論文編號arXiv:2512.16501v1查詢完整論文。

當你用手機點擊一個APP圖標，或者在電腦上尋找某個按鈕時，這些看似簡單的操作背后其實隱藏著復雜的視覺理解過程。你的眼睛需要在密密麻麻的界面元素中精準定位目標，大腦要理解各種圖標的含義，還要根據空間位置關系找到正確的位置。現在，人工智能也在努力學會這種能力，就像訓練一個從未見過電腦界面的人學會如何操作各種軟件一樣。

螞蟻集團的研究團隊發現了一個關鍵問題：現有的AI測試標準就像只考察學生能否認識單個漢字，卻從未測試他們能否讀懂一篇完整文章。大多數GUI（圖形用戶界面）測試基準要么規模太小，就像只有幾十道題的考試，要么過于專業化，就像只測試醫學專業術語而忽略了日常對話能力。更重要的是，這些測試往往只關注最基礎的"找到紅色按鈕"這類簡單任務，卻忽略了真實應用中需要的復雜推理能力，比如"找到價格最便宜的那個商品并加入購物車"。

為了解決這個問題，研究團隊開發了VenusBench-GD，這是目前世界上最大規模、最全面的GUI理解能力測試基準。這就像為AI設計了一套從小學到大學的完整課程體系，不僅要測試基礎的視覺識別能力，還要考察復雜的邏輯推理和問題解決能力。

這套測試系統覆蓋了我們日常使用的所有主要平臺：手機應用、網頁界面和電腦軟件，總共包含97個不同的應用程序，涵蓋創意設計、辦公效率、電子商務、娛樂、金融、知識獲取、社交、旅行和工具類等10個主要領域。研究團隊花費三個月時間，動員20位專業標注員，精心制作了6166個測試樣本，每個樣本都經過多輪嚴格的質量檢驗。

VenusBench-GD的最大創新在于建立了分層次的評估體系。基礎任務就像教會AI"看圖識字"，包括元素識別、空間定位和視覺特征理解三個方面。元素識別類似于教AI認識界面上的各種"零件"，比如按鈕、文本框、下拉菜單等；空間定位則是教會AI理解相對位置關系，比如"找到搜索框右邊的那個按鈕"；視覺特征理解讓AI學會根據外觀描述找到目標，比如"找到那個心形圖標"。

高級任務則更像是考察AI的"綜合應用能力"。功能推理任務要求AI理解不同界面元素的實際功能，就像你需要知道那個"X"按鈕是用來關閉窗口的，而不僅僅是識別它的外形。邏輯推理任務則更進一步，要求AI能夠進行多步驟的思考和比較，比如"找到評分最高但價格適中的那家餐廳"。最有趣的是拒絕應答任務，這是在測試AI是否具備"實事求是"的品質——當用戶的要求在當前界面中根本無法完成時，AI應該誠實地說"找不到"，而不是胡亂猜測一個答案。

研究團隊在數據質量控制方面下了很大功夫。他們開發了一套"人機協作"的標注流程，先讓人工專家標記出界面中的重要元素，然后用AI模型生成對應的自然語言指令，最后再由人工專家驗證指令與元素是否匹配。這個過程就像制作一道精美的菜肴，需要選材、配菜、烹飪、品嘗等多個環節的精心把控。

為了確保測試結果的可靠性，研究團隊還進行了"盲測"實驗。他們從多個現有基準中隨機抽取了3000個樣本，打亂順序后讓標注員重新評估質量，就像讓老師在不知道學生姓名的情況下批改試卷一樣。結果顯示，VenusBench-GD的標注錯誤率僅為2.6%，遠低于其他基準的10-25%錯誤率。

在實驗評估部分，研究團隊測試了目前最先進的多種AI模型，包括GPT-4o、Claude等通用多模態模型，以及專門為GUI任務設計的特化模型。測試結果揭示了一個有趣的現象：在基礎任務上，通用AI模型的表現已經追上甚至超越了專門的GUI模型。比如Qwen3-VL-8B模型在基礎任務上達到了76.96%的準確率，表現相當出色。這就像一個全科醫生在處理常見疾病時，效果并不比專科醫生差多少。

然而，在高級任務上，專業化的GUI模型仍然保持明顯優勢。在功能推理和邏輯推理任務中，像Holo1.5-72B和UI-Venus-Ground-72B這樣的專業模型分別達到了40%和68%的準確率，明顯優于通用模型。這說明專業化訓練在復雜任務中仍然具有不可替代的價值，就像專科醫生在處理疑難雜癥時的專業優勢一樣。

最令人意外的發現出現在拒絕應答任務中。大多數專業GUI模型在這個任務上的表現近乎為零，只有UI-Venus-Ground-72B達到了51.33%的準確率。這暴露了當前AI模型的一個致命弱點：過度自信和缺乏自我認知。就像一個總是不懂裝懂的學生，即使面對無法解答的問題也要硬著頭皮給出答案，而不是誠實地承認"我不知道"。

研究團隊還特別關注了多語言環境下的表現。他們發現模型在中文指令下的表現通常比英文更好，這可能與訓練數據的分布有關。比如Qwen3-VL-4B模型在基礎任務上從英文環境的72.54%提升到中文環境的81.32%，顯示出明顯的語言偏好。

為了驗證測試基準的有效性，研究團隊還進行了人類表現對比實驗。結果顯示人類在高級任務上的表現顯著超越所有AI模型：在邏輯推理、功能理解和拒絕應答三個方面分別超出當前最佳AI模型41.6%、11.8%和17.8%。這說明AI在GUI理解方面還有很大的提升空間，就像學生與老師之間仍然存在明顯的能力差距。

通過深入的錯誤分析，研究團隊發現了AI模型的幾個主要問題。首先是語義理解偏差，AI往往難以將抽象概念與具體視覺元素聯系起來，比如無法理解"文本對齊"這個概念對應的圖標樣式。其次是空間定位不準確，雖然能夠大致判斷區域位置，但在密集界面中難以精確區分相鄰元素。第三是視覺特征組合能力不足，當需要同時考慮顏色、形狀、位置等多個屬性時容易出錯。最重要的是缺乏多步推理能力，面對需要比較、篩選、排序的復雜任務時往往采用"貪心策略"，只關注第一個符合條件的選項而忽略全局最優解。

這項研究的意義遠遠超出了學術范疇。隨著AI助手越來越多地參與我們的日常數字生活，GUI理解能力將成為衡量AI實用性的重要指標。一個真正智能的AI助手不僅要能聽懂你說的話，還要能在復雜的應用界面中準確執行你的指令，就像一個貼心的秘書能夠熟練操作各種辦公軟件一樣。

VenusBench-GD的發布標志著GUI智能理解研究進入了一個新階段。它不僅提供了更嚴格的評估標準，也為研究者指出了未來的發展方向。隨著這套測試基準的廣泛應用，我們有理由期待AI在圖形界面理解方面取得更大突破，最終實現真正智能的人機交互體驗。

說到底，這項研究就像為AI設計了一套"駕照考試"，不僅要測試基本的操作技能，還要考察復雜情況下的應變能力。只有通過這樣全面而嚴格的考核，AI才能真正成為我們值得信賴的數字助手。當然，從目前的測試結果來看，AI們距離拿到"滿分駕照"還需要繼續努力，但這個方向無疑是正確的。歸根結底，這不僅是技術進步的需要，更是我們邁向更智能、更便捷數字生活的必經之路。

Q&A

Q1：VenusBench-GD與現有的GUI測試基準有什么不同？

A：VenusBench-GD是目前規模最大、最全面的GUI理解測試基準，包含6166個測試樣本，覆蓋手機、網頁、電腦三大平臺的97個應用。與現有基準相比，它建立了分層評估體系，不僅測試基礎的元素識別能力，還考察復雜的邏輯推理和功能理解能力，標注錯誤率僅為2.6%，遠低于其他基準的10-25%。

Q2：為什么專業的GUI模型在拒絕應答任務上表現這么差？

A：這暴露了當前AI模型過度自信和缺乏自我認知的問題。大多數專業GUI模型在拒絕應答任務上準確率接近零，說明它們無法識別不可能完成的指令，總是試圖強行給出答案而不是誠實地說"找不到"。這就像一個不懂裝懂的學生，即使面對無法解答的問題也要硬著頭皮回答。

Q3：VenusBench-GD測試結果對普通用戶有什么意義？

A：測試結果表明當前AI在GUI理解方面還有很大提升空間，人類在復雜任務上仍明顯超越AI模型。這意味著現階段的AI助手在處理復雜界面操作時可能出錯，用戶需要保持適當的監督。同時，這也預示著未來AI助手的巨大潛力，隨著技術進步，我們將擁有更智能、更可靠的數字助手。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.