<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      霸榜SOTA,螞蟻開源UI-Venus-1.5,GUI智能體辦事時代加速到來

      0
      分享至



      GUI 智能體最近卷到什么程度了?

      Claude、OpenAI Agent 及各類開源模型你方唱罷我登場,但若真想讓 AI 成為 「能在手機和網頁上穩定干活的助手」,仍繞不開三大現實難題:

      • 「知識缺失」難題:基礎大模型對 GUI 領域的認知依然薄弱 —— 生僻圖標、小眾應用的操作邏輯等需要補足。
      • 「紙上談兵」困境:離線訓練數據與真實交互環境存在鴻溝,離線看似合理的動作,一到在線任務就翻車。
      • 「多模型協同」障礙:盡管視覺定位、任務規劃等領域專家模型各有突破,但多模型協作往往依賴復雜框架,協同成本高。

      現在,螞蟻帶來 UI-Venus-1.5:一個遵循「高性能,實戰派」設計理念的端到端 GUI 智能體。單個模型即可統一處理定位(Grounding)、移動端(Mobile)與網頁端(Web)三大場景,全面支持 40+ 主流中文 App,讓 AI 真正走進用戶生活。



      • 報告標題:UI-Venus-1.5 Technical Report
      • 技術報告:https://arxiv.org/abs/2602.09082
      • 代碼:https://github.com/inclusionAI/UI-Venus
      • 模型:https://huggingface.co/collections/inclusionAI/ui-venus
      • 主頁鏈接:https://ui-venus.github.io/UI-Venus-1.5/





      UI-Venus-1.5 構建了一條清晰、系統的訓練路徑:

      通過中期訓練(Mid-Training)系統性補足大模型在 GUI 領域的知識短板;利用在線強化學習(Online RL)彌合離線訓練與在線執行之間的鴻溝;最終采用模型融合(Model Merge)集成多個領域專家模型的能力。



      01 中期訓練(Mid-Training):

      30+ 數據源、10B tokens 鍛造 GUI 原生大腦

      通用視覺語言模型(VLM/MLLM)并不天然理解 GUI。面對高度結構化、蘊含復雜交互邏輯的用戶界面,它們往往缺乏「原生表征能力」—— 看得到,卻看不懂;能描述,但不會用。

      因此,UI-Venus-1.5 戰略性地引入中期訓練(Mid-Training)階段,旨在將通用的 VLM 逐步鍛造為真正「懂 GUI」的原生基礎模型。UI-Venus-1.5 構建了一個全面、統一的 GUI 中期訓練語料庫:

      • 整合30+公開及內部數據源(包含 Mind2Web、ShowUI、AITW 等),總規模高達10B tokens
      • 精心設計了任務策略平衡,覆蓋語義感知、GUI-VQA、元素定位、導航推理等關鍵維度。



      這一階段的目標并非追求「看起來會操作」,而是系統性地塑造四項核心基礎能力:

      1. 精準的導航與定位:建立從自然語言指令到界面動作或坐標的端到端精確映射。
      2. 嚴謹的順序推理:學習將高層目標分解為邏輯清晰、可執行的子步驟。
      3. GUI-VQA:理解控件語義、功能描述與復雜的布局邏輯。
      4. 敏銳的精細感知:無需 OCR 即可識別圖標、檢測控件狀態和理解視覺提示。

      02 打造領域專家(Offline RL):

      驅動 Grounding / Mobile / Web 專項突破

      UI-Venus-1.0 通過在高精領域數據 RFT 技術路線,在定位(Grounding)和移動端導航(Mobile Navigation)兩大領域達到了 SOTA 水平。UI-Venus-1.5 在繼承該技術路徑的基礎上,進一步優化專家模型的設計與應用方式:



      • 定位能力:UI-Venus-1.0 在目標元素不存在時會猜測定位,雖在 ScreenSpot-Pro、UI-Vision 等基準上得分高,但易引發「幻覺」。為此,UI-Venus-1.5 引入了關鍵的「拒答」能力。當模型判定目標元素不存在時,將明確返回[-1, -1],表示無法定位。
      • 通用導航能力:為統一移動端與 Web 端操作,UI-Venus-1.5 擴展動作空間,新增鼠標懸停(Hover)、雙擊(DoubleClick)和快捷鍵(Hotkey)以適配 Web 交互,同時提供移動端 - 中 / 英文、Web 端 - 英文等場景的優化 Prompt 模板,實現跨語言的高效適配。

      03 在線強化學習(Online RL):

      從「動作做對」到「任務完成」

      在 Mid-Training 和 Offline-RL 階段,模型在單步動作(Action-level)準確率上已取得顯著提升。然而,端到端的軌跡級(Trace-level)任務成功率卻并未同步增長。

      根本原因在于,這兩個階段的訓練信號聚焦「動作是否正確」,而非直接優化「任務是否完成」—— 兩者通常正相關,但并不等價。尤其在數據有限時,動作準確率易與任務成功率脫節,導致「動作對、任務錯」的精度錯配現象。Mid-Training 和 Offline-RL 主要優化 Action-level 的監督信號或回報,缺乏對 Trace-level 成功的直接對齊。因此,單步動作的準確累積,并不必然導向整體任務的完成。



      UI-Venus-1.5 引入在線強化學習(Online RL),聚焦移動端與 Web 端核心場景,借鑒 T-GRPO 等思路,在真實環境中執行完整軌跡 Rollout 與獎勵計算,以「任務是否成功」作為核心優化目標

      04 模型融合(Model Merge):

      一個模型,貫通 Grounding / Mobile / Web

      當前很多 GUI Agent 采用「多模型協同」路線,即針對不同功能或場景訓練獨立的專家模型。雖能短期提升單項性能,一旦落地,往往演變為復雜的協同框架,成本激增。

      UI-Venus-1.5 采用「先分后合」策略:先分別訓練 Grounding、Mobile、Web 三個領域的專家模型(基于 Offline-RL 和 Online-RL),將各自能力練至極致,再通過 Model Merge 技術融合為統一的端到端模型,以降低部署成本,并在合并中最大限度保持各領域性能。

      為克服線性合并的局限,UI-Venus-1.5 采用更穩健的TIES-Merging技術,即「先篩選,再合并」。該方法成功融合出統一模型,在ScreenSpot-Pro、AndroidWorld 和 WebVoyager三大跨領域基準上,實現了更均衡、更高效的多能力整合。

      05 DaaS:

      一個入口管理所有設備,構建大規模在線訓練環境



      實踐 Online-RL 才發現:瓶頸往往不在算法,而在異構設備環境 ——Android、瀏覽器、容器使用不同協議(ADB/CDP/SSH),疊加網絡隔離與安全限制,直接對接難以維護。

      為此,螞蟻集團搭建了統一的設備即服務(DaaS)層

      • 統一協議:將 ADB、CDP 等封裝為可擴展插件,上層按需調用。
      • 高并發穩態:基于內部二次哈希路由與協程并發模型,支撐大規模設備長連接與高頻請求。
      • 開箱即用:配套多語言 SDK,封裝認證、設備申請 / 釋放與常用操作。

      依托 DaaS 的強大能力,上層訓練框架得以像調用標準服務一樣靈活使用設備資源 ——千臺級異構設備穩定接入,支持超千并發的在線強化學習任務,高效支撐 UI-Venus-1.5 的大規模在線訓練與真實場景部署。

      06 全方位評測:

      真實與標準環境雙重驗證

      為全面評估 UI-Venus-1.5 的通用性與魯棒性,評測覆蓋三大維度:

      Grounding 能力(7 個基準):



      在 VenusBench-GD、ScreenSpot-Pro、UI-Vision 等標準測試集上,UI-Venus-1.5 相比 1.0 版本顯著提升,且全面超越同規模模型

      Mobile 端 + Web 端 (在線真實環境):





      在 AndroidWorld、AndroidLab、VenusBench-Mobile 真實場景中,UI-Venus-1.5 于多樣化 GUI 智能體任務上均取得了全面 SOTA 的性能

      07 適配 40+ 主流中文 App,融入日常數字生活

      UI-Venus-1.5 同時深度聚焦中文用戶的真實使用習慣,全面支持 40 余款主流中文應用,涵蓋出行、社交、娛樂、購物、生活服務等核心場景,真正實現「聽得懂指令、看得清界面、做得對操作」。

      無論是「在高德里叫一輛去景區的快車」、「在攜程訂明天北京到上海的機票」、「把這條微博轉發并附評論」,還是「在網易云播放陳奕迅的最熱歌曲」,UI-Venus-1.5 均能在真實設備環境中精準理解用戶意圖,并流暢、準確地完成各類操作。不依賴虛構演示,而是直接運行于用戶每日高頻使用的 App 中,直面現實場景中的任務挑戰。這標志著 UI-Venus-1.5 向成為真正「可用的智能助手」邁出了關鍵一步。


      https://mp.weixin.qq.com/s/pl4PlAtz5bjDXRrzCzTDkg

      Task 1: 打開七貓免費小說,將小說腦洞榜前三名都加入書架


      https://mp.weixin.qq.com/s/pl4PlAtz5bjDXRrzCzTDkg

      Task 2: 打開微博,搜索杭州天氣,并根據天氣進行評論


      https://mp.weixin.qq.com/s/pl4PlAtz5bjDXRrzCzTDkg

      Task 3: 打開喜馬拉雅,幫我播放瘋狂動物城2,設置列表循環播放

      結語:UI-Venus-1.5 的路線更像「產品化 GUI Agent」的正確打開方式

      UI-Venus-1.5 的價值不在單項指標的炫技,而在于構建了一個更可訓練、可部署、可擴展的端到端系統:

      • 中期訓練夯實 GUI 原生能力
      • 領域后訓練專精 Grounding/Mobile/Web
      • 在線強化學習提升最終任務成功率
      • 模型融合實現單模型跨域通用

      UI-Venus-1.5 致力于打造能在手機 / 網頁上穩定干活的 AI 助手

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      伊朗博主評價中國年輕人:好戰有點愚蠢!

      伊朗博主評價中國年輕人:好戰有點愚蠢!

      達文西看世界
      2026-02-23 15:26:47
      局地中雪!河北將迎大范圍雨雪!

      局地中雪!河北將迎大范圍雨雪!

      掌中邯鄲
      2026-02-24 11:15:18
      新加坡大滿貫賽:大捷報!林詩棟3:0大獲全勝,王皓起身鼓掌加油

      新加坡大滿貫賽:大捷報!林詩棟3:0大獲全勝,王皓起身鼓掌加油

      國乒二三事
      2026-02-24 14:02:13
      這些“不吉祥花”,養在家里“花旺人不旺”,別再把它們當作寶了

      這些“不吉祥花”,養在家里“花旺人不旺”,別再把它們當作寶了

      三農老歷
      2026-02-22 19:23:10
      為換新手機,湖南15歲少女將家中總價值13萬的奢侈品賤賣僅9300元,女孩媽媽:對于是否是未成年人,回收平臺沒審核把關

      為換新手機,湖南15歲少女將家中總價值13萬的奢侈品賤賣僅9300元,女孩媽媽:對于是否是未成年人,回收平臺沒審核把關

      大象新聞
      2026-02-24 08:48:04
      國防部直接把話挑明了,家里有滿18歲男青年必須辦的就是兵役登記

      國防部直接把話挑明了,家里有滿18歲男青年必須辦的就是兵役登記

      南權先生
      2026-02-12 15:38:28
      他因病不滿足軍銜晉升,45歲開始離休,休養了整整45年,活到90歲

      他因病不滿足軍銜晉升,45歲開始離休,休養了整整45年,活到90歲

      興趣知識
      2026-01-12 16:42:04
      一夜蒸發 310 億美元!Claude 新工具干翻 IBM 搖錢樹,AI 正在「清零」人類工位

      一夜蒸發 310 億美元!Claude 新工具干翻 IBM 搖錢樹,AI 正在「清零」人類工位

      AppSo
      2026-02-24 12:20:50
      陳道明曾告誡女兒:寧可嫁個沒文化的,也別碰這種“精致流氓”。

      陳道明曾告誡女兒:寧可嫁個沒文化的,也別碰這種“精致流氓”。

      阿廢冷眼觀察所
      2026-02-07 19:59:27
      比瀉藥還猛!蒸蘋果黃金搭檔,睡前喝1碗,第二天上廁所無比順暢

      比瀉藥還猛!蒸蘋果黃金搭檔,睡前喝1碗,第二天上廁所無比順暢

      江江食研社
      2026-01-30 08:30:19
      恭喜廣東隊!NBA級大前鋒馳援杜鋒,杜潤旺可能被交易?

      恭喜廣東隊!NBA級大前鋒馳援杜鋒,杜潤旺可能被交易?

      緋雨兒
      2026-02-24 14:24:21
      佘詩曼過年去閨蜜家拜年,一身大紅色喜氣洋洋,摟著干兒子樂開懷

      佘詩曼過年去閨蜜家拜年,一身大紅色喜氣洋洋,摟著干兒子樂開懷

      小椰的奶奶
      2026-02-24 19:10:26
      精神小妹的生活原來是這樣的!網友:終于知道她們為啥都這么瘦了

      精神小妹的生活原來是這樣的!網友:終于知道她們為啥都這么瘦了

      深度報
      2026-02-11 23:35:03
      演員黃曼現狀曝光!終于公開與李乃文真正關系,原來我們都被騙了

      演員黃曼現狀曝光!終于公開與李乃文真正關系,原來我們都被騙了

      啟迪你的思維
      2026-02-23 20:37:56
      常戎:我這輩子最正確的決定,就是離開王菁華,娶了小17歲的張遠

      常戎:我這輩子最正確的決定,就是離開王菁華,娶了小17歲的張遠

      草莓解說體育
      2026-02-23 22:34:22
      香港富豪:向美國捐一億,又給大陸捐500億,竟被李嘉誠“威脅”

      香港富豪:向美國捐一億,又給大陸捐500億,竟被李嘉誠“威脅”

      芊芊子吟
      2026-02-15 16:15:07
      曝尼格買提王冠隱婚生子遭證實!孩子正面照曝光,男方疑成接盤俠

      曝尼格買提王冠隱婚生子遭證實!孩子正面照曝光,男方疑成接盤俠

      八卦王者
      2026-02-22 10:51:22
      阿里納斯:喬丹1冠時就被吹GOAT!6冠是純屬定制標準!

      阿里納斯:喬丹1冠時就被吹GOAT!6冠是純屬定制標準!

      氧氣是個地鐵
      2026-02-24 12:12:38
      何穗陳偉霆留在北京過年,曬出別墅內景,滿屋蝴蝶蘭太有年味了

      何穗陳偉霆留在北京過年,曬出別墅內景,滿屋蝴蝶蘭太有年味了

      章眽八卦
      2026-02-24 13:13:14
      孟鶴堂用半年商演的全部收入,買了件38萬的蟒袍送給郭德綱。

      孟鶴堂用半年商演的全部收入,買了件38萬的蟒袍送給郭德綱。

      荊楚寰宇文樞
      2026-01-25 23:08:14
      2026-02-24 20:07:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12344文章數 142569關注度
      往期回顧 全部

      科技要聞

      AI顛覆發展最新犧牲品!IBM跳水重挫超13%

      頭條要聞

      20家日本實體被列入管制名單 中方:完全正當 合理合法

      頭條要聞

      20家日本實體被列入管制名單 中方:完全正當 合理合法

      體育要聞

      蘇翊鳴總結米蘭征程:我仍是那個熱愛單板滑雪的少年

      娛樂要聞

      汪小菲官宣三胎出生:承諾會照顧好3個孩子

      財經要聞

      縣城消費「限時繁榮」了十天

      汽車要聞

      入門即滿配 威蘭達AIR版上市 13.78萬元起

      態度原創

      藝術
      旅游
      本地
      房產
      公開課

      藝術要聞

      2025年第八屆全國青年美展 | 油畫作品選刊

      旅游要聞

      海南2026年春節假期接待游客超1232萬人次

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      房產要聞

      330萬人涌入!春節全國樓市,第一個賣爆的區域出現了!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版