網易首頁 > 網易號 > 正文申請入駐

你敢把「龍蝦」放在手機上跑嗎？手機 Agent 離落地還差一道「隱私關」

2026-04-06 11:33:44　來源: AI科技評論

廣東舉報

分享至

港中深聯合騰訊混元首次系統揭示：手機 Agent 真正卡落地的，不只是成功率，而是隱私邊界。

這兩年，Agent 的風向已經很明顯了。

從會聊天、會寫代碼，到會自己看界面、點按鈕、填表單，Agent 正在一步步接管真實設備操作。OpenClaw、Claude Computer Use 這一類系統火起來之后，大家開始越來越認真地討論一件事：

Agent 不是個聊天框了，它真的開始接近"幫你做事"的階段了。

而一旦 Agent 開始往手機里走，一個更現實的問題就來了：

你敢把它真的放在手機上跑嗎？

不是因為它不會做事，恰恰相反，是因為它太可能"做過頭"。

它可能會多要一步權限，多填一個本來不該填的框，甚至把你的手機號又交給一個你根本沒注意到的小入口。這些都不是黑客攻擊，也不是惡意 prompt。它們就發生在最正常、最日常的手機任務里。

圍繞這個問題，港中深FreedomAI團隊聯合騰訊混元視覺大模型團隊、港中文、港大、港科、上海交大合作完成了一項新工作。它最重要的意義，不是再多做一個榜，而是第一次讓行業能認真回答：

手機 Agent 在完成正常任務的過程中，是否真的守住了用戶隱私邊界？

? 論文：Do Phone-Use Agents Respect Your Privacy?

? 代碼：https://github.com/FreedomIntelligence/MyPhoneBench

? Leaderboard: https://freedomintelligence.github.io/MyPhoneBench/

? 軌跡數據：MyPhoneBench-Trajectories

一個點漢堡的任務，為什么會讓人后背發涼？

先看一個最生活化的例子。下面這張圖把這個問題講得非常直白：同樣只是點個漢堡，Agent 卻可能在過程中一步步把用戶信息交出去。

你讓手機 Agent 在肯德基小程序里幫你點個漢堡，聽起來再正常不過了。

但看看它實際做了什么：

? 先是未經你確認就獲取了手機號；

? 接著自己輸入了短信驗證碼；

? 然后開啟了持久登錄；

? 最后頁面彈出一個領優惠券的營銷彈窗，它又順手把你的手機號填了進去。

整個任務表面上當然"成功"了。漢堡能點，流程能跑，頁面能繼續往下走。

但問題是：

一個點漢堡的任務，為什么最后會變成手機號被額外交給一個營銷入口，驗證碼也被直接填寫？

這就是手機 Agent 最讓人不安的地方。

它不是不會做，而是太會做了。它會自己把一件事做完整，甚至"多做一點"。但這種"多做一點"，很多時候恰恰就是越界的開始。

所以，手機 Agent 真正卡落地的，可能不是成功率，而是隱私。

大家都在卷"能不能做成"，

但用戶會關心"別越界"

今天很多人看手機 Agent，第一反應還是：

? 它能不能跨頁面操作？

? 它能不能把流程跑通？

? 它能不能把外賣點好、把酒店訂好、把事辦完？

這些當然重要。

但如果手機 Agent 真要進入真實生活，光看"做沒做成"其實遠遠不夠。因為手機不是普通 GUI。手機里裝的不是一個網頁，而是：

? 你的手機號

? 你的住址

? 你的病史和藥物信息

? 你的出行偏好

? 你的支付相關信息

? 以及越來越多 Agent 想長期保存的"關于你"的記憶

也就是說，手機 Agent 面對的不是"一個任務"，而是"一個人的生活"。

所以手機 Agent 真正難的，不是"會不會點"，而是：

它會不會邊幫你做事，邊順手越界。

問題在于，今天很多評測其實看不見這些。

現有不少工作主要還是看：

? 任務有沒有完成；

? 頁面有沒有走到目標狀態；

? 最終結果是不是對的。

但它們通?；卮鸩涣诉@些問題：

? Agent 有沒有多申請權限？

? 有沒有把本來可選的信息也填了？

? 有沒有把手機號又交給一個不必要的小入口？

? 有沒有在后續任務里亂用之前保存的偏好？

換句話說，今天很多評測回答的是：

它能不能把事辦成？

但回答不了：

它在把事辦成的過程中，有沒有順手把用戶隱私"辦沒了"？

這項工作的關鍵，不是再做一張榜，

而是第一次把"越界"這件事真正看清楚

這項工作的最大價值，在于它第一次把手機 Agent 的隱私問題，做成了一件：

? 過程可見

? 規則可驗

? 結果可比較

的現實問題。

更直白一點說，就是第一次讓行業能認真檢查：

一個手機 Agent 到底值不值得被交給用戶。

它主要做了三件事。

第一，把"什么叫越界"先說清楚

很多時候大家會說，Agent 要尊重隱私。但問題是，什么叫尊重？什么叫越界？

如果這件事說不清楚，后面就根本沒法測。

先別急著看后面的評估，第一件事其實是把規則說清楚：哪些信息默認能用，哪些必須先申請，哪些記憶能留到后面再用，以及這些記憶最終由誰來管。下面這個界面最關鍵的，不只是把數據分成 LOW 和 HIGH 兩檔，而是把"Agent 能用什么、什么時候必須先問、已經記住了什么、用戶能不能管"都擺到了臺面上。

所以這項工作先設計了一套叫iMy的隱私交互協議。你可以把它理解成：先把 Agent 在手機上"該怎么拿數據、什么時候該先問、什么能記下來、最后由誰說了算"這件事講清楚。

簡單來說：

? 普通信息，Agent 可以直接用；

? 敏感信息，必須先申請，用戶點頭后才能拿；

? 真正學到的用戶偏好，可以保存下來；

? 但這些記憶不是 Agent 自己偷偷留著，而是用戶隨時都能看到、修改、刪除；

? 如果它拿不準，就先問，而不是自己猜。

這套設計最關鍵的地方，不只是"給數據分級"，而是讓 Agent 的每一步都帶著邊界，也讓用戶始終握著最后的控制權。

第二，把手機里的關鍵過程變成"能看見"

真實商業 App 大多是黑盒。

你可能只看到 Agent 最后把任務做成了，但你根本不知道它中間到底往哪個框里填了什么。

所以這項工作從頭做了10 個 mock Android apps，覆蓋醫療、餐飲、訂房、政務、外賣、保險、活動服務等多個高頻手機場景。

最關鍵的是，這些 App 不只是給 Agent 一個界面，還會把關鍵輸入過程完整記錄下來。

于是你終于能真正看見：

? 它讀了什么；

? 它填了什么；

? 它有沒有多填、亂填、重復填。

第三，把最常見的越界行為壓成幾類可以重復檢查的問題

團隊沒有把"隱私"做成一堆空泛口號，而是把手機 Agent 最常見的風險壓成了幾類非常具體的問題。如果把手機 Agent 最容易出事的地方壓縮一下，基本就濃縮成下面這三類：多要數據、把信息又交給一個不必要的小入口、以及把本來不用填的也順手填了。

1）它會不會多要你的信息？

任務不需要，但它還是去申請、去讀取。

2）它會不會把你的信息又填進一個看起來正常、其實根本沒必要的小框里？

比如頁面里多出來一個"優惠提醒""優先預約""活動通知""營銷入口"之類的小模塊，看著挺合理，但當前任務根本不需要它。如果 Agent 只是看到"這里也能填手機號"，就順手填了，那就是多一次沒必要的暴露。

3）它會不會把本來不用填的隱私項也順手填了？

這也是最隱蔽的一類。不是因為它不會做，恰恰是因為它太想把事情做完整了。

最重要的是，這些檢查最后都不是靠 LLM 主觀打分，而是基于訪問日志、表單記錄和數據庫狀態去做規則驗證。所以它不是"看起來像"，而是真的能復現、能對比、能檢查。

三個最有意思的結論

這項工作一共評估了5 個前沿模型、10 個 App、300 個任務。

如果把整篇工作的結果壓縮成最值得記住的三句話，我覺得是下面這三點。

第一，同樣一套工具，模型和模型之間的"邊界感"差別可能非常大

很多人會以為，只要給所有模型同樣的工具，最后差別主要就是誰更會做任務。

但這項工作里一個很直觀的觀察是：

同樣一套手機任務、同樣一套隱私協議，不同模型對邊界的理解會差很多。

下面這張圖看的就是這一點。

有的模型會先申請再讀取，遇到不必要的字段會主動跳過，任務做完還會順手把真正有價值的偏好保存下來；有的模型雖然也把任務做成了，但過程里已經多要了不需要的數據、把手機號填進了無關入口。

這說明，手機 Agent 的差別不只是"誰更會點按鈕"，更是"誰更知道什么時候該停一下"。能力和克制，并不是綁定出現的。

第二，最強的不一定最克制，而且沒有任何一個模型能三項全贏

這項工作同時看三條軸：

? 任務能不能做成；

? 能不能隱私合規地做成；

? 能不能在后續任務里正確使用之前保存的偏好。

結果非常反直覺：

"能把事做成"和"能在不越界的情況下把事做成"，不是同一種能力。

而且，再進一步看：

沒有任何一個模型能同時在任務成功、隱私表現、偏好遷移這三件事上都領先。

下面這張主結果表最值得看的，不是哪家排第一，而是第一名根本不是同一個模型——每換一個維度看，領先者就會變。

這其實很說明問題：今天的手機 Agent，離"真正讓人放心交給它"還有明顯距離。

第三，當前最普遍的問題，不是不會做，而是做過頭

這可能是整篇工作里最值得記住的一點。

很多人會以為手機 Agent 最大的隱私風險來自奇怪彈窗、權限誤點或者對抗攻擊。但這項工作里最穩定、最普遍的問題，其實更貼近日常，也更反直覺：

它太想把事情做完整了。

明明某個字段不是必須的，明明任務根本不需要，但因為它已經知道這個信息，于是它就順手填上了。這種風險最麻煩的地方在于，它不是明顯的錯誤，而是**"看起來挺合理"的過度幫助**。

下面這張分析圖說明了這一點：真正把模型拉開的，往往不是它會不會做任務，而是它會不會在"其實不用填"的地方停住。

而且，這種"做過頭"不只體現在當前任務里，也體現在 memory 上。很多模型看起來會"存偏好""調偏好"，但一到真正的跨 session 任務，表現就會掉下來。

會記住你，不等于真的懂你；會調用偏好，也不等于會在正確的時候克制地使用它。

為什么這件事不只是學術問題，

而是大廠遲早要面對的上線問題？

如果手機 Agent 真要進入產品，用戶最關心的絕不只是：

? 它能不能把外賣點完；

? 它能不能把票訂好；

? 它能不能把流程跑通。

用戶真正會在意的是：

? 你為什么還要這個信息？

? 這個可選框你為什么也填了？

? 你為什么把我的手機號又交給了另一個營銷小入口？

? 你為什么把上次記住的偏好，這次亂用了？

所以對大廠來說，這項工作的價值也不只是"研究上多了一篇論文"。

它更像是在回答一個產品化問題：

當 Agent 版本越來越強、開始準備真正上線時，我們有什么辦法檢查它是不是也越來越會越界？

從這個角度看，這項工作能提供的，不只是研究 insight，也是一種非?，F實的上線前檢查思路：

? 新版本能力提升了，隱私邊界有沒有一起變差？

? 某個模型任務成功率更高了，它是不是也更愛"做過頭"？

? 它到底是更懂用戶了，還是更會自作聰明了？

這類問題，未來不管是產品團隊、安全團隊還是合規團隊，都繞不過去。

所以手機 Agent 真正卡落地的，不只是成功率，而是隱私邊界。

成功率決定它能不能用，隱私決定它敢不敢用。

這也是這項工作真正想解決的問題——不是讓 Agent 再多完成幾個任務，而是讓大家第一次能認真回答：

當 Agent 越來越會用手機時，它到底有沒有學會尊重用戶的邊界？

順帶說一句，還有一個我們越來越強烈的感受是：其實這件事以前不是沒人想到，而是很難真正系統做出來：真實商業 App 太黑盒了，很多關鍵過程根本沒法穩定檢查。

這也是為什么我們會覺得，mock app 可能不只是這篇工作里的實現方式，而是一條值得繼續走下去的路線。這個方向我們也還在繼續規模化，后面會單獨展開講。

項目已經公開

? 論文：Do Phone-Use Agents Respect Your Privacy?

? 代碼：https://github.com/FreedomIntelligence/MyPhoneBench

? Leaderboard: https://freedomintelligence.github.io/MyPhoneBench/

? 軌跡數據：MyPhoneBench-Trajectories

論文主要作者簡介:

? 唐正陽香港中文大學（深圳）計算機與信息工程專業博士研究生，師從王本友教授。目前他在騰訊混元團隊實習，參與了Kimi-k2.5, Qwen3等開源模型的研發。他的研究聚焦于探索如何系統性地將模型的潛在知識與推理能力轉化為解決復雜真實世界問題的專家技能, 已在NeurIPS, ICML, ICLR, COLM, TMLR, Operations Research, ACL等頂級機器學習會議和期刊上發表多篇論文。

? 冀軻香港中文大學（深圳）數據科學學院博士研究生，師從王本友教授。曾在MiniMax、騰訊AI Lab和小冰公司實習，參與了MiniMax M2.5、大語言模型自進化、數學推理及交錯智能體的前沿研發。他的研究聚焦于大語言模型與推理對齊，已在NeurIPS、ICLR、ACL、EMNLP、COLM等人工智能頂級會議上發表多篇論文，并曾榮獲2025年AIMO2金牌。

? 王熙棟香港中文大學（深圳）數據科學學院博士研究生，師從王本友教授。他的研究深耕于醫療人工智能、多模態大模型與人機交互，主導或深度參與了華佗大模型（HuatuoGPT）系列、中文醫療大模型評測基準CMB、多語言醫療大模型Apollo以及LongLLaVA等多項具有廣泛影響力的前沿開源項目。目前，他已在ICLR、ACL、EMNLP、NAACL、COLM等人工智能頂級會議及權威交叉學科期刊（如npj Health Systems）上發表多篇高被引論文，致力于推動高質量醫療AI的安全對齊與大規模普及。

? 葉子涵香港中文大學（深圳）數學專業的博士生，師從倪維明教授，其研究方向聚焦于偏微分方程和AI與數學（AI4MATH）的交叉領域，曾以通訊作者身份于期刊《Journal of Mathematical Biology》上發表論文。

如果你也在關注 GUI Agent、手機 Agent、Computer Use 和 Agent 落地，這也許會是接下來越來越關鍵的一個問題：

Agent 越來越會做事了，但它有沒有學會，不該多做的時候停一下？

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.