網易首頁 > 網易號 > 正文申請入駐

螞蟻集團推出"地獄級"手機AI考試，現有智能助手集體翻車

2026-04-16 20:34:28　來源: 科技行者

北京舉報

分享至

這項由螞蟻集團Venus團隊主導的研究于2026年2月發表，論文編號為arXiv:2604.06182，感興趣的讀者可通過該編號查詢完整論文原文。

手機里的AI助手，你真的信得過嗎？

每天早上，你拿起手機叫AI助手幫你訂一張下午三點的火車票，或者問它"能幫我把這份文件壓縮一下發給老王嗎？"這聽起來再普通不過。然而，當你真的依賴這類助手處理日常事務時，它究竟靠不靠譜，是個沒人認真考過的問題——至少，沒有人用真實、復雜的場景認真考過。

螞蟻集團的研究團隊意識到了這個問題。現有的AI手機助手測評，更像是只考了學生"默寫課文"的能力，卻從沒考過"在嘈雜的圖書館里完成一篇有截止時間的報告"這樣的真實任務。于是，他們設計了一套全新的考試系統，名叫VenusBench-Mobile，專門用來測評那些能自動幫你操作手機的AI智能體（也就是業內說的"移動端GUI智能體"）?？荚嚱Y果相當令人警醒：就連當前最頂尖的AI系統，也只能完成不到四成的任務。

這項研究的核心貢獻在于兩件事：一是重新定義"考什么"，把考題從"能不能操作某個App"升級為"能不能真正幫到用戶"；二是重新定義"怎么考"，設計了一套能精確診斷AI哪里出了問題的能力分析框架。

一、為什么現有的考試都在"放水"

要理解這套新考試為什么重要，得先明白舊考試哪里出了問題。

現有的AI手機助手評測基準，大多遵循同一個套路：選幾款App，然后針對每個App出一批操作題。比如選了"備忘錄"這個App，就出題"創建一個新筆記"或者"把某條筆記加粗"。這種設計思路叫做"以App為中心"——App是考試的主角，所有題目都圍繞App能做什么來出。

問題在于，真實世界里用手機的人，從來不是圍著App轉的。你打開手機的出發點是"我要解決一件事"，比如"我想找到上個月花在外賣上的總金額"，而不是"我想測試一下Pro Expense這款記賬App的功能"。App只是實現目的的工具，用戶才是主角。

當考題全都是"打開某某App，點這里，填那里"這種預設好路徑的操作時，AI要做的不過是按圖索驥，跟著確定的腳本走。但現實中，用戶說的話往往是模糊的、帶有上下文的，甚至是不完整的。"幫我把那個壓縮包里的文件找出來發給老王"——這句話里沒有說用哪個App解壓，沒有說發送方式，甚至"老王"是誰也得AI自己去聯系人里找。

更棘手的是，現有考試還有另一個缺陷：當AI答錯了，你不知道它到底哪里錯了。是它沒看清屏幕？還是沒理解你說的話？還是走到一半忘了你叫它干什么？就好比一個學生考試考了60分，老師只知道他沒及格，卻不知道他是數學題不會做、還是閱讀理解沒看懂、還是最后幾道題時間來不及了。這種粗糙的評分方式，對改進AI幾乎沒有指導意義。

正是針對這兩個核心痛點——"考的內容不夠真實"和"考完了不知道問題在哪"——螞蟻集團的研究團隊設計了VenusBench-Mobile。

二、這套考試到底考什么：十種真實用戶需求

VenusBench-Mobile的題庫共包含149道主要題目，橫跨十大類用戶需求場景，全部在真實的安卓模擬器環境中運行，涵蓋27款開源Android應用。

第一大類叫做"功能輔助"，針對的是一個很普遍的現實：大多數人并不完全了解手機里每款App能做什么。這類題目包括三種形式。第一種是操作說明，比如"告訴我怎么用ZipXtract這個App解壓文件"，AI需要自己去探索這款App，然后把操作步驟完整地告訴用戶。第二種是功能探索，比如"我想在Markor里新建一個LaTeX文件并編譯成PDF，這個App支持嗎？"AI需要自己去查清楚再回答。第三種是界面導航，比如"幫我找到Fitbook里可以添加體重記錄的那個界面"，AI要把用戶帶到對的地方。

第二大類叫做"沖突處理"。用戶給了一個指令，但實際情況和指令對不上。比如用戶說"刪掉Markor的Algo文件夾里所有3條筆記"，但實際上這個文件夾里有4條。這時AI應該察覺到矛盾，主動聯系用戶確認，而不是自作主張地刪掉3條就算完事。

第三大類叫做"模糊指令"。用戶表達的意思清楚，但省略了關鍵信息，比如沒說用哪個App。"幫我把這個zip文件里的內容找出來"，用戶心里是明白的，但AI要能自己判斷出用ZipXtract來解壓，而不是一臉懵地不知道從何下手。

第四大類叫做"多輪對話"。真實的用戶交互往往不是一次性的。用戶先讓AI"創建一條筆記"，然后說"把標題改一下"，再說"把剛才加的那行字加粗"，最后說"通過短信分享給朋友"。AI需要記住每一輪的上下文，把一系列零散的指令串成一個完整的任務。

第五大類叫做"界面狀態感知"。手機屏幕上的內容是動態變化的，不是靜止等AI去讀的。比如一道題要求AI打開番茄計時器App，等長休息計時跑到18到20秒的時候按下暫停。AI要像真人一樣盯著屏幕上的數字變化，在對的時間做出反應。

第六大類叫做"視覺操作"。有些任務需要在手機屏幕上做精細的圖形操作，比如"打開Draw這個繪圖App，用藍色筆圈出橡皮擦，用紅色筆圈出卷筆刀"。AI必須能準確識別圖片里的具體物體，并在正確位置進行精確的繪制操作。

第七大類叫做"復雜信息瀏覽"。用戶需要在多個頁面、多個來源之間查找并比較信息。這類題目的難度遠超"在搜索框里查個關鍵詞"——比如要求AI閱讀Gallery里存儲的一張外賣截圖，在多個商家的多款飲品中找出30分鐘內能送達的最便宜的美式咖啡，并返回商家名稱和商品全名。

第八大類叫做"噪聲抵抗"?，F實中用手機時，隨時可能有電話打進來、App崩潰、彈出一個無關的廣告窗口。AI在執行任務的途中遭遇這些干擾，能不能處理完干擾后繼續完成原來的任務？這類題目專門測試這種抗干擾能力。研究團隊模擬了四種干擾類型：來電、App崩潰、操作失敗、無關彈窗。

第九大類叫做"超難瀏覽題"，靈感來自斯坦福大學專門用來難倒網絡搜索AI的BrowseComp基準。這類題目把多個約束條件疊加在一起，比如"在這7款App里，找出圖標是藍色的、而且主界面沒有搜索欄的那一款"。AI必須逐一檢查每個App，同時滿足所有條件才能得分。

第十大類叫做"穩定性評測"，這是一個獨立的子集，包含20道基礎題，每道題衍生出四個變體版本：把指令翻譯成中文、換一種語氣但意思相同的英文表達、把手機界面切換成深色模式、把設備換成平板橫屏模式。一道題只有在全部五種條件下都答對，才算真正穩定通過。

三、怎么衡量AI哪里出了問題：五維能力雷達圖

出完題，還需要一套精密的評分體系。VenusBench-Mobile提出了"PUDAM"能力分類框架，把AI需要具備的核心能力拆分成五個維度，每個維度又分四個難度等級。

第一個維度是感知能力，衡量的是AI看懂手機屏幕的水平。最基礎的一級是認識文字和圖標，第二級是理解整體界面的布局和邏輯關系，第三級是精確定位細小的視覺元素，比如一個角落里只有幾個像素大的感嘆號按鈕，第四級是追蹤動態變化，比如實時讀取一個倒計時數字。

第二個維度是理解能力，衡量的是AI讀懂用戶意圖的水平。從理解"點擊確認按鈕"這樣最簡單的單步指令，到處理帶有多個限定條件的復雜指令，再到識別出指令里的隱含矛盾或者信息缺失。

第三個維度是決策能力，衡量的是AI在執行過程中臨機應變的水平。最基礎的是照著既定路線走，不需要臨時調整；高一級的是遇到彈窗、廣告、意外情況時能靈活繞過；最高級的是遇到沖突時主動反思、自我糾錯、評估風險。

第四個維度是操作能力，衡量的是AI在屏幕上執行動作的精準度。從點擊、長按這類基礎操作，到需要拖拽軌跡控制的復雜手勢，再到精確調整滑塊到特定位置，最高級是像人手一樣實時根據視覺反饋調整動作軌跡。

第五個維度是記憶能力，衡量的是AI跨步驟、跨頁面保持任務上下文的能力。最基礎的是在多個步驟中記住自己要干什么；高一級的是在瀏覽多個頁面時積累并記錄信息；再高一級是在整個長任務中追蹤不斷變化的狀態；最高級的是跨越多個獨立任務保留記憶，比如"刪掉我剛才創建的前兩條筆記"。

當AI在某道題上失敗時，研究團隊可以對照這張能力矩陣，精確地找到是哪個維度、哪個難度級別出了問題，而不只是記錄一個"失敗"的結果。

四、考試結果：全軍覆沒的成績單

研究團隊找來了目前業界最強的一批AI手機助手來應考，包括螞蟻集團自家的UI-Venus系列、阿里的Qwen3-VL系列、專門為手機操作訓練的GUI-Owl和MAI-UI等開源模型，以及用谷歌Gemini-3-Pro和OpenAI GPT-5.1作為"大腦"、配合UI-Venus-72B執行操作的商業級方案。

成績出來，場面相當難看。最強的商業方案Gemini-3-Pro加UI-Venus-72B的組合，總體成功率只有36.9%。也就是說，接近三分之二的任務都沒有完成。其余的開源模型更是慘烈，大多數成功率低于15%，Qwen3-VL-8B和GUI-Owl-7B只有6.7%。

這個數字和同一批AI在AndroidWorld（目前業界最主流的舊式評測基準）上的成績相比，差距觸目驚心——平均成功率下降了約50個百分點。換句話說，同一個AI，在舊考試里考了七八十分，在這套新考試里只能考二三十分甚至更低。這說明舊考試確實存在嚴重的"放水"問題，高分并不代表真正有用。

從具體題目類型來看，界面狀態感知和視覺操作是最難攻克的兩類，所有模型的平均成功率分別只有2.5%和4.2%，幾乎全軍覆沒。噪聲抵抗類題目表現稍好，但也只有32.1%的平均成功率，而且高度依賴模型規模——Gemini-3-Pro能達到75%，而小模型們卻普遍跌到個位數。

通過PUDAM框架的細粒度分析，研究團隊找到了失敗的根本原因所在。在所有能力維度中，記憶能力是最致命的瓶頸。幾乎所有的開源小模型，在需要長期追蹤狀態的高難度記憶任務中，成功率接近于零。即使是體量更大的Gemini-3-Pro，記憶維度的成功率也從基礎任務的41%跌到了高難度任務的31%。這說明問題不僅僅是模型不夠大，而是現有的AI在架構層面就缺少持續追蹤信息的機制——單純地擴大"上下文窗口"（也就是AI一次性能記住的內容長度）是不夠的，需要專門設計的狀態追蹤機制。

感知能力是第二個明顯瓶頸，從基礎任務到高難度任務，平均成功率從17.5%跌到10.3%。特別是動態畫面感知——當屏幕上有內容在實時變化時，幾乎所有AI都不知所措。決策能力在高難度場景中也出現了崩潰，大多數開源模型在需要反思和糾錯的任務中跌入個位數，說明它們本質上還是在執行預設腳本，一旦遭遇意外情況就束手無策。

五、穩定性測試：換個皮膚就不認識了

穩定性評測子集的結果揭示了另一個令人不安的現實。

研究團隊給20道基礎題分別出了四種變體，最終統計每個AI能否在全部五種條件下都答對同一道題。這個叫做"穩定通過率"的指標，代表的是AI在輕微的條件變化下是否依然可靠。結果是：絕大多數模型的穩定通過率為零。即使是最強的Gemini-3-Pro組合，穩定通過率也只有15%。GPT-5.1組合是5%，其余全部是0%。

這意味著，哪怕只是把指令從英文翻成中文，或者把手機界面切換成深色模式，又或者換成平板橫屏顯示，本來就有不穩定通過概率的任務，就徹底做不到了。其中影響最大的是平板橫屏模式——很多AI在豎屏手機布局上訓練出來，一換成橫版平板布局，界面元素的位置關系完全變了，AI就徹底迷路。這暴露出一個根本問題：現有AI的"能力"更像是對特定視覺模式的記憶，而不是真正理解了界面背后的邏輯。

六、算力開銷：多想一步要付出多大代價

研究團隊還測量了每個AI在完成任務時消耗的計算資源，用輸出的文字令牌數量來衡量（這也是決定使用商業AI時API費用高低的關鍵指標）。

在單模型方案里，UI-Venus-72B（720億參數的大模型）消耗了85萬個令牌，而GPT-5.1只消耗了16.75萬個令牌，每一步平均只用54.6個令牌，是所有模型里最經濟的，暗示它在處理視覺輸入時用了更高效的壓縮方式。

最引人注目的開銷來自"多智能體框架"——這是一種讓AI通過內部多輪討論和反思來提升效果的方案，由Mobile-Agent-v3加GUI-Owl-7B實現。這套方案消耗了164萬個令牌，每步平均438.7個，是單獨使用GUI-Owl-7B的三倍。這說明"讓AI多想幾步"會帶來巨大的計算開銷，對于需要在手機上實時運行的邊緣部署場景來說，這是一個必須認真對待的工程挑戰。

說到底，這項研究戳穿了一個流行的神話：那些在測評排行榜上大放異彩的AI手機助手，其實并沒有我們想象的那么能干。舊式考試太簡單，太像教科書上的標準題，而真實的用戶需求復雜、模糊、充滿干擾和意外。螞蟻集團這套考試框架，相當于第一次把AI助手放到了接近真實的"工作場景"里來考核，結果自然原形畢露。

更有價值的是能力診斷框架。知道AI"考了15分"不如知道AI"在記憶和感知方面存在根本性缺陷"——后者才能告訴研究者下一步該怎么改進。這就像是從"你這次考試不及格"升級到"你的閱讀理解和長篇綜合題需要重點補強"，指導意義天壤之別。

對于普通用戶來說，這項研究傳遞的信息很實際：目前市面上的AI手機助手，在簡單的單步操作上確實有用，但如果你指望它幫你完成一件跨越多個步驟、需要在不同App之間來回切換的復雜任務，出錯的概率相當高。在AI手機助手真正可靠地進入我們的日常生活之前，還有相當長的路要走。

Q&A

Q1：VenusBench-Mobile和AndroidWorld這類老測評基準的區別是什么？

A：AndroidWorld等舊基準主要圍繞某款App的具體功能出題，題目路徑固定，AI只要按預設步驟操作就能得高分，但這和真實用戶的使用場景差距很大。VenusBench-Mobile從用戶真實需求出發設計題目，涵蓋模糊指令、沖突處理、多輪對話、動態界面感知等十大類場景，并加入了深色模式、平板橫屏、中文指令等變體測試，更貼近實際使用中的復雜情況。

Q2：PUDAM框架具體是如何幫助診斷AI問題的？

A：PUDAM把AI需要的核心能力拆分成感知、理解、決策、操作、記憶五個維度，每個維度分四個難度級別。當AI做某道題失敗時，可以對照這個框架判斷是哪個維度出了問題。比如AI在瀏覽多頁信息后忘記之前讀到的內容，就屬于記憶維度的高難度級別缺陷，而不只是籠統地"失敗了"。這種診斷方式能給AI研究者提供明確的改進方向。

Q3：為什么AI手機助手在平板橫屏模式下成功率會大幅下降？

A：現有的AI手機助手大多在豎屏手機的界面截圖上訓練，學到的更多是對特定視覺布局的記憶，而非對界面邏輯的真正理解。一旦切換到平板橫屏模式，同樣的App界面元素位置、比例和排列方式都會發生變化，AI就像在一個重新擺放了家具的房間里找東西，很容易迷路。這暴露出當前AI缺乏對界面結構的抽象理解能力。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.