網易首頁 > 網易號 > 正文申請入駐

霸榜SOTA，螞蟻開源UI-Venus-1.5，GUI智能體辦事時代加速到來

2026-02-24 18:00:23　來源: 機器之心Pro

河北舉報

分享至

GUI 智能體最近卷到什么程度了？

Claude、OpenAI Agent 及各類開源模型你方唱罷我登場，但若真想讓 AI 成為「能在手機和網頁上穩定干活的助手」，仍繞不開三大現實難題：

「知識缺失」難題：基礎大模型對 GUI 領域的認知依然薄弱 —— 生僻圖標、小眾應用的操作邏輯等需要補足。
「紙上談兵」困境：離線訓練數據與真實交互環境存在鴻溝，離線看似合理的動作，一到在線任務就翻車。
「多模型協同」障礙：盡管視覺定位、任務規劃等領域專家模型各有突破，但多模型協作往往依賴復雜框架，協同成本高。

現在，螞蟻帶來 UI-Venus-1.5：一個遵循「高性能，實戰派」設計理念的端到端 GUI 智能體。單個模型即可統一處理定位（Grounding）、移動端（Mobile）與網頁端（Web）三大場景，全面支持 40+ 主流中文 App，讓 AI 真正走進用戶生活。

報告標題：UI-Venus-1.5 Technical Report
技術報告：https://arxiv.org/abs/2602.09082
代碼：https://github.com/inclusionAI/UI-Venus
模型：https://huggingface.co/collections/inclusionAI/ui-venus
主頁鏈接：https://ui-venus.github.io/UI-Venus-1.5/

UI-Venus-1.5 構建了一條清晰、系統的訓練路徑：

通過中期訓練（Mid-Training）系統性補足大模型在 GUI 領域的知識短板；利用在線強化學習（Online RL）彌合離線訓練與在線執行之間的鴻溝；最終采用模型融合（Model Merge）集成多個領域專家模型的能力。

01 中期訓練（Mid-Training）：

30+ 數據源、10B tokens 鍛造 GUI 原生大腦

通用視覺語言模型（VLM/MLLM）并不天然理解 GUI。面對高度結構化、蘊含復雜交互邏輯的用戶界面，它們往往缺乏「原生表征能力」—— 看得到，卻看不懂；能描述，但不會用。

因此，UI-Venus-1.5 戰略性地引入中期訓練（Mid-Training）階段，旨在將通用的 VLM 逐步鍛造為真正「懂 GUI」的原生基礎模型。UI-Venus-1.5 構建了一個全面、統一的 GUI 中期訓練語料庫：

整合30+公開及內部數據源（包含 Mind2Web、ShowUI、AITW 等），總規模高達10B tokens
精心設計了任務策略平衡，覆蓋語義感知、GUI-VQA、元素定位、導航推理等關鍵維度。

這一階段的目標并非追求「看起來會操作」，而是系統性地塑造四項核心基礎能力：

精準的導航與定位：建立從自然語言指令到界面動作或坐標的端到端精確映射。
嚴謹的順序推理：學習將高層目標分解為邏輯清晰、可執行的子步驟。
GUI-VQA：理解控件語義、功能描述與復雜的布局邏輯。
敏銳的精細感知：無需 OCR 即可識別圖標、檢測控件狀態和理解視覺提示。

02 打造領域專家（Offline RL）：

驅動 Grounding / Mobile / Web 專項突破

UI-Venus-1.0 通過在高精領域數據 RFT 技術路線，在定位（Grounding）和移動端導航（Mobile Navigation）兩大領域達到了 SOTA 水平。UI-Venus-1.5 在繼承該技術路徑的基礎上，進一步優化專家模型的設計與應用方式：

定位能力：UI-Venus-1.0 在目標元素不存在時會猜測定位，雖在 ScreenSpot-Pro、UI-Vision 等基準上得分高，但易引發「幻覺」。為此，UI-Venus-1.5 引入了關鍵的「拒答」能力。當模型判定目標元素不存在時，將明確返回[-1, -1]，表示無法定位。
通用導航能力：為統一移動端與 Web 端操作，UI-Venus-1.5 擴展動作空間，新增鼠標懸停（Hover）、雙擊（DoubleClick）和快捷鍵（Hotkey）以適配 Web 交互，同時提供移動端 - 中 / 英文、Web 端 - 英文等場景的優化 Prompt 模板，實現跨語言的高效適配。

03 在線強化學習（Online RL）：

從「動作做對」到「任務完成」

在 Mid-Training 和 Offline-RL 階段，模型在單步動作（Action-level）準確率上已取得顯著提升。然而，端到端的軌跡級（Trace-level）任務成功率卻并未同步增長。

根本原因在于，這兩個階段的訓練信號聚焦「動作是否正確」，而非直接優化「任務是否完成」—— 兩者通常正相關，但并不等價。尤其在數據有限時，動作準確率易與任務成功率脫節，導致「動作對、任務錯」的精度錯配現象。Mid-Training 和 Offline-RL 主要優化 Action-level 的監督信號或回報，缺乏對 Trace-level 成功的直接對齊。因此，單步動作的準確累積，并不必然導向整體任務的完成。

UI-Venus-1.5 引入在線強化學習（Online RL），聚焦移動端與 Web 端核心場景，借鑒 T-GRPO 等思路，在真實環境中執行完整軌跡 Rollout 與獎勵計算，以「任務是否成功」作為核心優化目標。

04 模型融合（Model Merge）：

一個模型，貫通 Grounding / Mobile / Web

當前很多 GUI Agent 采用「多模型協同」路線，即針對不同功能或場景訓練獨立的專家模型。雖能短期提升單項性能，一旦落地，往往演變為復雜的協同框架，成本激增。

UI-Venus-1.5 采用「先分后合」策略：先分別訓練 Grounding、Mobile、Web 三個領域的專家模型（基于 Offline-RL 和 Online-RL），將各自能力練至極致，再通過 Model Merge 技術融合為統一的端到端模型，以降低部署成本，并在合并中最大限度保持各領域性能。

為克服線性合并的局限，UI-Venus-1.5 采用更穩健的TIES-Merging技術，即「先篩選，再合并」。該方法成功融合出統一模型，在ScreenSpot-Pro、AndroidWorld 和 WebVoyager三大跨領域基準上，實現了更均衡、更高效的多能力整合。

05 DaaS：

一個入口管理所有設備，構建大規模在線訓練環境

實踐 Online-RL 才發現：瓶頸往往不在算法，而在異構設備環境 ——Android、瀏覽器、容器使用不同協議（ADB/CDP/SSH），疊加網絡隔離與安全限制，直接對接難以維護。

為此，螞蟻集團搭建了統一的設備即服務（DaaS）層：

統一協議：將 ADB、CDP 等封裝為可擴展插件，上層按需調用。
高并發穩態：基于內部二次哈希路由與協程并發模型，支撐大規模設備長連接與高頻請求。
開箱即用：配套多語言 SDK，封裝認證、設備申請 / 釋放與常用操作。

依托 DaaS 的強大能力，上層訓練框架得以像調用標準服務一樣靈活使用設備資源 ——千臺級異構設備穩定接入，支持超千并發的在線強化學習任務，高效支撐 UI-Venus-1.5 的大規模在線訓練與真實場景部署。

06 全方位評測：

真實與標準環境雙重驗證

為全面評估 UI-Venus-1.5 的通用性與魯棒性，評測覆蓋三大維度：

Grounding 能力（7 個基準）：

在 VenusBench-GD、ScreenSpot-Pro、UI-Vision 等標準測試集上，UI-Venus-1.5 相比 1.0 版本顯著提升，且全面超越同規模模型。

Mobile 端 + Web 端 (在線真實環境):

在 AndroidWorld、AndroidLab、VenusBench-Mobile 真實場景中，UI-Venus-1.5 于多樣化 GUI 智能體任務上均取得了全面 SOTA 的性能。

07 適配 40+ 主流中文 App，融入日常數字生活

UI-Venus-1.5 同時深度聚焦中文用戶的真實使用習慣，全面支持 40 余款主流中文應用，涵蓋出行、社交、娛樂、購物、生活服務等核心場景，真正實現「聽得懂指令、看得清界面、做得對操作」。

無論是「在高德里叫一輛去景區的快車」、「在攜程訂明天北京到上海的機票」、「把這條微博轉發并附評論」，還是「在網易云播放陳奕迅的最熱歌曲」，UI-Venus-1.5 均能在真實設備環境中精準理解用戶意圖，并流暢、準確地完成各類操作。不依賴虛構演示，而是直接運行于用戶每日高頻使用的 App 中，直面現實場景中的任務挑戰。這標志著 UI-Venus-1.5 向成為真正「可用的智能助手」邁出了關鍵一步。

https://mp.weixin.qq.com/s/pl4PlAtz5bjDXRrzCzTDkg

Task 1: 打開七貓免費小說，將小說腦洞榜前三名都加入書架

https://mp.weixin.qq.com/s/pl4PlAtz5bjDXRrzCzTDkg

Task 2: 打開微博，搜索杭州天氣，并根據天氣進行評論

https://mp.weixin.qq.com/s/pl4PlAtz5bjDXRrzCzTDkg

Task 3: 打開喜馬拉雅，幫我播放瘋狂動物城2，設置列表循環播放

結語：UI-Venus-1.5 的路線更像「產品化 GUI Agent」的正確打開方式

UI-Venus-1.5 的價值不在單項指標的炫技，而在于構建了一個更可訓練、可部署、可擴展的端到端系統：

中期訓練夯實 GUI 原生能力
領域后訓練專精 Grounding/Mobile/Web
在線強化學習提升最終任務成功率
模型融合實現單模型跨域通用

UI-Venus-1.5 致力于打造能在手機 / 網頁上穩定干活的 AI 助手！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.