![]()
GUI 智能體最近卷到什么程度了?
Claude、OpenAI Agent 及各類開源模型你方唱罷我登場,但若真想讓 AI 成為 「能在手機和網頁上穩定干活的助手」,仍繞不開三大現實難題:
- 「知識缺失」難題:基礎大模型對 GUI 領域的認知依然薄弱 —— 生僻圖標、小眾應用的操作邏輯等需要補足。
- 「紙上談兵」困境:離線訓練數據與真實交互環境存在鴻溝,離線看似合理的動作,一到在線任務就翻車。
- 「多模型協同」障礙:盡管視覺定位、任務規劃等領域專家模型各有突破,但多模型協作往往依賴復雜框架,協同成本高。
現在,螞蟻帶來 UI-Venus-1.5:一個遵循「高性能,實戰派」設計理念的端到端 GUI 智能體。單個模型即可統一處理定位(Grounding)、移動端(Mobile)與網頁端(Web)三大場景,全面支持 40+ 主流中文 App,讓 AI 真正走進用戶生活。
![]()
- 報告標題:UI-Venus-1.5 Technical Report
- 技術報告:https://arxiv.org/abs/2602.09082
- 代碼:https://github.com/inclusionAI/UI-Venus
- 模型:https://huggingface.co/collections/inclusionAI/ui-venus
- 主頁鏈接:https://ui-venus.github.io/UI-Venus-1.5/
![]()
![]()
UI-Venus-1.5 構建了一條清晰、系統的訓練路徑:
通過中期訓練(Mid-Training)系統性補足大模型在 GUI 領域的知識短板;利用在線強化學習(Online RL)彌合離線訓練與在線執行之間的鴻溝;最終采用模型融合(Model Merge)集成多個領域專家模型的能力。
![]()
01 中期訓練(Mid-Training):
30+ 數據源、10B tokens 鍛造 GUI 原生大腦
通用視覺語言模型(VLM/MLLM)并不天然理解 GUI。面對高度結構化、蘊含復雜交互邏輯的用戶界面,它們往往缺乏「原生表征能力」—— 看得到,卻看不懂;能描述,但不會用。
因此,UI-Venus-1.5 戰略性地引入中期訓練(Mid-Training)階段,旨在將通用的 VLM 逐步鍛造為真正「懂 GUI」的原生基礎模型。UI-Venus-1.5 構建了一個全面、統一的 GUI 中期訓練語料庫:
- 整合30+公開及內部數據源(包含 Mind2Web、ShowUI、AITW 等),總規模高達10B tokens
- 精心設計了任務策略平衡,覆蓋語義感知、GUI-VQA、元素定位、導航推理等關鍵維度。
![]()
這一階段的目標并非追求「看起來會操作」,而是系統性地塑造四項核心基礎能力:
- 精準的導航與定位:建立從自然語言指令到界面動作或坐標的端到端精確映射。
- 嚴謹的順序推理:學習將高層目標分解為邏輯清晰、可執行的子步驟。
- GUI-VQA:理解控件語義、功能描述與復雜的布局邏輯。
- 敏銳的精細感知:無需 OCR 即可識別圖標、檢測控件狀態和理解視覺提示。
02 打造領域專家(Offline RL):
驅動 Grounding / Mobile / Web 專項突破
UI-Venus-1.0 通過在高精領域數據 RFT 技術路線,在定位(Grounding)和移動端導航(Mobile Navigation)兩大領域達到了 SOTA 水平。UI-Venus-1.5 在繼承該技術路徑的基礎上,進一步優化專家模型的設計與應用方式:
![]()
- 定位能力:UI-Venus-1.0 在目標元素不存在時會猜測定位,雖在 ScreenSpot-Pro、UI-Vision 等基準上得分高,但易引發「幻覺」。為此,UI-Venus-1.5 引入了關鍵的「拒答」能力。當模型判定目標元素不存在時,將明確返回[-1, -1],表示無法定位。
- 通用導航能力:為統一移動端與 Web 端操作,UI-Venus-1.5 擴展動作空間,新增鼠標懸停(Hover)、雙擊(DoubleClick)和快捷鍵(Hotkey)以適配 Web 交互,同時提供移動端 - 中 / 英文、Web 端 - 英文等場景的優化 Prompt 模板,實現跨語言的高效適配。
03 在線強化學習(Online RL):
從「動作做對」到「任務完成」
在 Mid-Training 和 Offline-RL 階段,模型在單步動作(Action-level)準確率上已取得顯著提升。然而,端到端的軌跡級(Trace-level)任務成功率卻并未同步增長。
根本原因在于,這兩個階段的訓練信號聚焦「動作是否正確」,而非直接優化「任務是否完成」—— 兩者通常正相關,但并不等價。尤其在數據有限時,動作準確率易與任務成功率脫節,導致「動作對、任務錯」的精度錯配現象。Mid-Training 和 Offline-RL 主要優化 Action-level 的監督信號或回報,缺乏對 Trace-level 成功的直接對齊。因此,單步動作的準確累積,并不必然導向整體任務的完成。
![]()
UI-Venus-1.5 引入在線強化學習(Online RL),聚焦移動端與 Web 端核心場景,借鑒 T-GRPO 等思路,在真實環境中執行完整軌跡 Rollout 與獎勵計算,以「任務是否成功」作為核心優化目標。
04 模型融合(Model Merge):
一個模型,貫通 Grounding / Mobile / Web
當前很多 GUI Agent 采用「多模型協同」路線,即針對不同功能或場景訓練獨立的專家模型。雖能短期提升單項性能,一旦落地,往往演變為復雜的協同框架,成本激增。
UI-Venus-1.5 采用「先分后合」策略:先分別訓練 Grounding、Mobile、Web 三個領域的專家模型(基于 Offline-RL 和 Online-RL),將各自能力練至極致,再通過 Model Merge 技術融合為統一的端到端模型,以降低部署成本,并在合并中最大限度保持各領域性能。
為克服線性合并的局限,UI-Venus-1.5 采用更穩健的TIES-Merging技術,即「先篩選,再合并」。該方法成功融合出統一模型,在ScreenSpot-Pro、AndroidWorld 和 WebVoyager三大跨領域基準上,實現了更均衡、更高效的多能力整合。
05 DaaS:
一個入口管理所有設備,構建大規模在線訓練環境
![]()
實踐 Online-RL 才發現:瓶頸往往不在算法,而在異構設備環境 ——Android、瀏覽器、容器使用不同協議(ADB/CDP/SSH),疊加網絡隔離與安全限制,直接對接難以維護。
為此,螞蟻集團搭建了統一的設備即服務(DaaS)層:
- 統一協議:將 ADB、CDP 等封裝為可擴展插件,上層按需調用。
- 高并發穩態:基于內部二次哈希路由與協程并發模型,支撐大規模設備長連接與高頻請求。
- 開箱即用:配套多語言 SDK,封裝認證、設備申請 / 釋放與常用操作。
依托 DaaS 的強大能力,上層訓練框架得以像調用標準服務一樣靈活使用設備資源 ——千臺級異構設備穩定接入,支持超千并發的在線強化學習任務,高效支撐 UI-Venus-1.5 的大規模在線訓練與真實場景部署。
06 全方位評測:
真實與標準環境雙重驗證
為全面評估 UI-Venus-1.5 的通用性與魯棒性,評測覆蓋三大維度:
Grounding 能力(7 個基準):
![]()
在 VenusBench-GD、ScreenSpot-Pro、UI-Vision 等標準測試集上,UI-Venus-1.5 相比 1.0 版本顯著提升,且全面超越同規模模型。
Mobile 端 + Web 端 (在線真實環境):
![]()
![]()
在 AndroidWorld、AndroidLab、VenusBench-Mobile 真實場景中,UI-Venus-1.5 于多樣化 GUI 智能體任務上均取得了全面 SOTA 的性能。
07 適配 40+ 主流中文 App,融入日常數字生活
UI-Venus-1.5 同時深度聚焦中文用戶的真實使用習慣,全面支持 40 余款主流中文應用,涵蓋出行、社交、娛樂、購物、生活服務等核心場景,真正實現「聽得懂指令、看得清界面、做得對操作」。
無論是「在高德里叫一輛去景區的快車」、「在攜程訂明天北京到上海的機票」、「把這條微博轉發并附評論」,還是「在網易云播放陳奕迅的最熱歌曲」,UI-Venus-1.5 均能在真實設備環境中精準理解用戶意圖,并流暢、準確地完成各類操作。不依賴虛構演示,而是直接運行于用戶每日高頻使用的 App 中,直面現實場景中的任務挑戰。這標志著 UI-Venus-1.5 向成為真正「可用的智能助手」邁出了關鍵一步。
![]()
https://mp.weixin.qq.com/s/pl4PlAtz5bjDXRrzCzTDkg
Task 1: 打開七貓免費小說,將小說腦洞榜前三名都加入書架
![]()
https://mp.weixin.qq.com/s/pl4PlAtz5bjDXRrzCzTDkg
Task 2: 打開微博,搜索杭州天氣,并根據天氣進行評論
![]()
https://mp.weixin.qq.com/s/pl4PlAtz5bjDXRrzCzTDkg
Task 3: 打開喜馬拉雅,幫我播放瘋狂動物城2,設置列表循環播放
結語:UI-Venus-1.5 的路線更像「產品化 GUI Agent」的正確打開方式
UI-Venus-1.5 的價值不在單項指標的炫技,而在于構建了一個更可訓練、可部署、可擴展的端到端系統:
- 中期訓練夯實 GUI 原生能力
- 領域后訓練專精 Grounding/Mobile/Web
- 在線強化學習提升最終任務成功率
- 模型融合實現單模型跨域通用
UI-Venus-1.5 致力于打造能在手機 / 網頁上穩定干活的 AI 助手!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.