<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      智能體卷王誕生!干活自動配結項報告,1.5張截圖就把事說清了

      0
      分享至

      Youtu-Agent團隊 投稿
      量子位 | 公眾號 QbitAI

      在學校里做實驗的時候,老師如何確定我們做了實驗并且達到了預期效果呢?——最常見的做法是讓學生寫一份實驗報告交上來。

      現在,AI智能體拿到一個任務以后如何檢驗執行的效果有沒有達到預期呢?我們也可以讓AI在執行任務的同時主動提交一份證據鏈報告,邊做邊收集任務完成的證據,自我檢查是否符合預期,不符合就繼續做。



      在LLM/VLM驅動的智能體(Agent)的強化學習(RL)研究中,一直面臨一個巨大的挑戰:

      你交給智能體一個任務,它干完了,但你不知道完成度如何。



      為了確認它是否真的準確完成了任務,我們不得不建立龐大的“監督系統”來復核它的每一步操作。這種“被動驗證”往往需要:

      1. 手工設計的復雜校驗機制(比如:完全匹配的輸出內容);
      2. 強大的軌跡級驗證方法(比如:LLM/VLM-as-a-Judge眾投決策)。

      這兩種常見的先完成任務(task completion)再校驗軌跡(outcome verification)的機制有以下缺點:

      1. 效率較低,人工設計的準則依賴預先編寫好的評估腳本,難以簡單泛化到新的任務(比如新的APP);
      2. 軌跡帶噪且上下文冗長,將整條軌跡送給LLM/VLM來評判很容易被無關的環境信息干擾,降低評分的可靠性;
      3. 依賴持續可觀測環境的反饋信息,部分操作往往因為環境變化
      4. (如頁面刷新、操作過期)而導致驗證失敗。

      針對以上問題,我們提出了一種簡單的RL訓練方法,讓智能體自己成為“質檢員”,在盡可能減少校驗器(Verifier)審核壓力的同時,讓智能體學會主動分解子目標并且留痕存證。

      什么是SmartSnap?

      SmartSnap的核心思想是將GUI智能體從“被動的執行者”轉變為“主動的自證者”。

      簡單來說,智能體在完成任務的同時,還會主動收集、篩選并提交一份“證據快照集”。

      這份證據就像是任務的“結項報告”,讓驗證者只需看一眼快照,就能確認任務是否成功。



      三大核心突破:從“執行”到“自證”

      1. 角色升級:雙重使命的“自證代理”

      傳統的智能體只負責“做(Execute)”,而SmartSnap提出了“自證智能體”(Self-Verifying Agent),賦予了它“自我驗證(Verify)”的第二使命。

      它在操作過程中會像人類一樣思考:“為了證明我已經改好了設置,我需要把對開關狀態截圖并作為證據提交。”

      2. “3C原則”:高效率的證據美學

      為了避免給驗證者造成信息過載,SmartSnap提出了證據策展的3C原則

      • 完整性(Completeness)
      • 證據必須足以證明任務已閉環。
      • 簡潔性(Conciseness)
      • 不要冗長的視頻,只要最關鍵的幾張“定格”瞬間。
      • 創造性(Creativity)
      • 為了拿到證據,智能體甚至會主動執行“額外操作”。例如,訂完票后主動跳回訂單頁截圖。

      3. 強化學習驅動:GRPO+內在獎勵反饋

      我們利用GRPO算法對智能體進行了訓練。通過精心設計的獎勵機制(Intrinsic Reward Shaping),引導智能體在保證任務成功率的同時,不斷提升證據的質量,盡可能減少獎勵黑客行為(reward hacking)。

      戰績顯赫:小模型也不錯

      SmartSnap的表現令人驚艷,它在AndroidLab等復雜的任務上提升顯著:



      • 性能飛躍
      • 在不同規模的模型上,均實現了顯著的性能提升(最高提升達26.08%)。
      • 以小博大
      • 經過SmartSnap訓練的中等參數模型(如Qwen3-32B),在自證能力的加持下,其表現甚至持平DeepSeek-V3/Qwen3-235B等開源大模型

      通過感性分析,我們還觀察到以下特點:

      • 舉證效率
      • 平均每個任務只需提交1.5張快照證據,極大地降低了后端的驗證成本。
      • 高效交互
      • 智能體在訓練過程中由于擬合少量的訓練集而變得游刃有余,交互輪數不斷減少。
      • 知識欠缺
      • 在部分APP上,我們觀察到智能體存在反復、沒有顯著增益的表現,其領域知識的欠缺導致無法收斂到有效的解決方案(比如地圖APP的各項復雜路徑規劃任務)。這表明模型需要依賴更多知識注入來指導探索。

      為什么這簡化了智能體RL訓練的準備工作?

      在手機端、OS端這類環境的操作中,由于其時效性特點,傳統的外部驗證器很難精準捕捉瞬時的成功信號。

      SmartSnap就像是給智能體配上了一臺取證相機。它不再需要事先對環境所有狀態有一個預期的變化感知來撰寫校驗腳本,或者讓裁判員模型盯著全程軌跡來仔細推敲,而是讓智能體自己邊做邊收集必要的證據。

      這允許我們基于合成的任務輕松拓展其訓練場景,并針對有限的證據鏈來判斷成功與否,讓RL訓練更加便捷。

      面向未來

      SmartSnap的出現,標志著GUI智能體正從“蠻力執行”走向“認知協同”。這種主動尋找證據的能力,不僅提升了AI的可靠性,更為未來大規模、低成本的AI部署鋪平了道路。

      未來的AI,不僅要“能干”,更要“可信”。

      論文標題:

      SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents
      論文地址:

      https://arxiv.org/abs/2512.22322
      代碼地址:

      https://github.com/TencentYoutuResearch/SmartSnap

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      你怕了?日艦闖臺海48小時后,中國軍艦開到家門口!日本網友崩了

      你怕了?日艦闖臺海48小時后,中國軍艦開到家門口!日本網友崩了

      音樂時光的娛樂
      2026-04-20 03:25:57
      蔡振華現狀:65歲圓滿無遺憾,享受退休生活,唯獨37歲兒子讓他愁

      蔡振華現狀:65歲圓滿無遺憾,享受退休生活,唯獨37歲兒子讓他愁

      洲洲影視娛評
      2026-04-14 13:58:26
      霍爾木茲海峽,突傳大消息!特朗普,最新發聲!比特幣巨震,超16萬人爆倉!

      霍爾木茲海峽,突傳大消息!特朗普,最新發聲!比特幣巨震,超16萬人爆倉!

      證券時報e公司
      2026-04-19 22:09:43
      宣示主權!楊采鈺老公曬照,身材高大超帥氣,力證楊采鈺不是小老婆

      宣示主權!楊采鈺老公曬照,身材高大超帥氣,力證楊采鈺不是小老婆

      八卦王者
      2026-04-18 16:23:43
      30國幫手已到,日艦艇進臺海,不到24小時,中方一句話滅高市威風

      30國幫手已到,日艦艇進臺海,不到24小時,中方一句話滅高市威風

      溫讀史
      2026-04-19 01:07:58
      讀衛校時去同學家玩,對他姐姐一見鐘情,3年后我成了同學的姐夫

      讀衛校時去同學家玩,對他姐姐一見鐘情,3年后我成了同學的姐夫

      農村情感故事
      2025-04-12 08:00:16
      115度大電池上車!1000V高壓平臺,全新MPV申報,要我選會選增程

      115度大電池上車!1000V高壓平臺,全新MPV申報,要我選會選增程

      車矩陣更懂車
      2026-04-18 23:44:54
      我國摧毀特大假酒網絡:查獲近2萬箱、涉案2.6億元,多在直播間銷售

      我國摧毀特大假酒網絡:查獲近2萬箱、涉案2.6億元,多在直播間銷售

      金融界
      2026-04-19 14:16:10
      罕見!北約30國駐布魯塞爾大使集體訪日

      罕見!北約30國駐布魯塞爾大使集體訪日

      參考消息
      2026-04-18 17:59:50
      全體車主注意!4月30日前抓緊辦,5月1日起一律扣分罰款!

      全體車主注意!4月30日前抓緊辦,5月1日起一律扣分罰款!

      天氣觀察站
      2026-04-19 21:43:25
      長沙被道閘砸傷大媽事件后續:公道自在人心,結局終明朗

      長沙被道閘砸傷大媽事件后續:公道自在人心,結局終明朗

      觀察鑒娛
      2026-04-19 16:13:17
      美軍向一艘伊朗貨船開火并控制,伊方稱逼退美軍;伊朗拒絕參加第二輪談判;3天內12306拒絕出票超百萬張;人形機器人半馬冠軍出爐丨每經早參

      美軍向一艘伊朗貨船開火并控制,伊方稱逼退美軍;伊朗拒絕參加第二輪談判;3天內12306拒絕出票超百萬張;人形機器人半馬冠軍出爐丨每經早參

      每日經濟新聞
      2026-04-20 05:59:45
      第一批學AI的大學生,已經笑不出來了。

      第一批學AI的大學生,已經笑不出來了。

      差評XPIN
      2026-04-19 00:11:00
      WCBA總決賽:四川橫掃山西,王思雨三分狂飆,坎貝奇驚艷全場!

      WCBA總決賽:四川橫掃山西,王思雨三分狂飆,坎貝奇驚艷全場!

      天光破云來
      2026-04-20 01:21:03
      反腐再出新規!5月1日起嚴糾違規“人情往來” ,筑牢腐敗防線!

      反腐再出新規!5月1日起嚴糾違規“人情往來” ,筑牢腐敗防線!

      細說職場
      2026-04-19 16:04:52
      太炸裂!荷蘭阿森賽道排名墊底,張雪機車最后一分鐘超車,太牛逼

      太炸裂!荷蘭阿森賽道排名墊底,張雪機車最后一分鐘超車,太牛逼

      林子說事
      2026-04-19 07:44:53
      少年低成本Cos弗利薩大王,結果乳膠漆洗不掉,悲劇了

      少年低成本Cos弗利薩大王,結果乳膠漆洗不掉,悲劇了

      英國那些事兒
      2026-04-19 23:07:52
      反轉!霍爾木茲徹底關閉,最高領袖親征,特朗普霸權算計終破產

      反轉!霍爾木茲徹底關閉,最高領袖親征,特朗普霸權算計終破產

      璀璨幻行者
      2026-04-19 20:46:58
      4月19日晚間,多家上市公司發布重大利好利空好消息

      4月19日晚間,多家上市公司發布重大利好利空好消息

      A股數據表
      2026-04-19 17:38:48
      鄭欽文馬德里或再戰萊巴金娜!王欣瑜斯瓦泰克同區,張帥最先出戰

      鄭欽文馬德里或再戰萊巴金娜!王欣瑜斯瓦泰克同區,張帥最先出戰

      排球黃金眼
      2026-04-20 01:29:07
      2026-04-20 06:28:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12497文章數 176455關注度
      往期回顧 全部

      科技要聞

      50分26秒破人類紀錄!300臺機器人狂飆半馬

      頭條要聞

      特朗普:美艦武力攔截伊朗貨船 在機艙炸出一個洞

      頭條要聞

      特朗普:美艦武力攔截伊朗貨船 在機艙炸出一個洞

      體育要聞

      湖人1比0火箭:老詹比烏度卡像教練

      娛樂要聞

      何潤東漲粉百萬!內娛隔空掀桌第一人

      財經要聞

      華誼兄弟,8年虧光85億

      汽車要聞

      29分鐘大定破萬 極氪8X為什么這么多人買?

      態度原創

      手機
      親子
      游戲
      教育
      家居

      手機要聞

      8.8英寸小鋼炮!REDMI K Pad 2核心配置揭曉

      親子要聞

      孩子總打噴嚏、起疹子,時過敏嗎?

      如何將ZH-1火力最大化?《戰艦世界》15.3版本造船廠加點攻略

      教育要聞

      南昌縣全民閱讀活動在斗柏路小學開展

      家居要聞

      法式線條 時光靜淌

      無障礙瀏覽 進入關懷版