<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      螞蟻集團推出"地獄級"手機AI考試,現有智能助手集體翻車

      0
      分享至


      這項由螞蟻集團Venus團隊主導的研究于2026年2月發表,論文編號為arXiv:2604.06182,感興趣的讀者可通過該編號查詢完整論文原文。

      手機里的AI助手,你真的信得過嗎?

      每天早上,你拿起手機叫AI助手幫你訂一張下午三點的火車票,或者問它"能幫我把這份文件壓縮一下發給老王嗎?"這聽起來再普通不過。然而,當你真的依賴這類助手處理日常事務時,它究竟靠不靠譜,是個沒人認真考過的問題——至少,沒有人用真實、復雜的場景認真考過。

      螞蟻集團的研究團隊意識到了這個問題。現有的AI手機助手測評,更像是只考了學生"默寫課文"的能力,卻從沒考過"在嘈雜的圖書館里完成一篇有截止時間的報告"這樣的真實任務。于是,他們設計了一套全新的考試系統,名叫VenusBench-Mobile,專門用來測評那些能自動幫你操作手機的AI智能體(也就是業內說的"移動端GUI智能體")??荚嚱Y果相當令人警醒:就連當前最頂尖的AI系統,也只能完成不到四成的任務。

      這項研究的核心貢獻在于兩件事:一是重新定義"考什么",把考題從"能不能操作某個App"升級為"能不能真正幫到用戶";二是重新定義"怎么考",設計了一套能精確診斷AI哪里出了問題的能力分析框架。

      一、為什么現有的考試都在"放水"

      要理解這套新考試為什么重要,得先明白舊考試哪里出了問題。

      現有的AI手機助手評測基準,大多遵循同一個套路:選幾款App,然后針對每個App出一批操作題。比如選了"備忘錄"這個App,就出題"創建一個新筆記"或者"把某條筆記加粗"。這種設計思路叫做"以App為中心"——App是考試的主角,所有題目都圍繞App能做什么來出。

      問題在于,真實世界里用手機的人,從來不是圍著App轉的。你打開手機的出發點是"我要解決一件事",比如"我想找到上個月花在外賣上的總金額",而不是"我想測試一下Pro Expense這款記賬App的功能"。App只是實現目的的工具,用戶才是主角。

      當考題全都是"打開某某App,點這里,填那里"這種預設好路徑的操作時,AI要做的不過是按圖索驥,跟著確定的腳本走。但現實中,用戶說的話往往是模糊的、帶有上下文的,甚至是不完整的。"幫我把那個壓縮包里的文件找出來發給老王"——這句話里沒有說用哪個App解壓,沒有說發送方式,甚至"老王"是誰也得AI自己去聯系人里找。

      更棘手的是,現有考試還有另一個缺陷:當AI答錯了,你不知道它到底哪里錯了。是它沒看清屏幕?還是沒理解你說的話?還是走到一半忘了你叫它干什么?就好比一個學生考試考了60分,老師只知道他沒及格,卻不知道他是數學題不會做、還是閱讀理解沒看懂、還是最后幾道題時間來不及了。這種粗糙的評分方式,對改進AI幾乎沒有指導意義。

      正是針對這兩個核心痛點——"考的內容不夠真實"和"考完了不知道問題在哪"——螞蟻集團的研究團隊設計了VenusBench-Mobile。

      二、這套考試到底考什么:十種真實用戶需求

      VenusBench-Mobile的題庫共包含149道主要題目,橫跨十大類用戶需求場景,全部在真實的安卓模擬器環境中運行,涵蓋27款開源Android應用。

      第一大類叫做"功能輔助",針對的是一個很普遍的現實:大多數人并不完全了解手機里每款App能做什么。這類題目包括三種形式。第一種是操作說明,比如"告訴我怎么用ZipXtract這個App解壓文件",AI需要自己去探索這款App,然后把操作步驟完整地告訴用戶。第二種是功能探索,比如"我想在Markor里新建一個LaTeX文件并編譯成PDF,這個App支持嗎?"AI需要自己去查清楚再回答。第三種是界面導航,比如"幫我找到Fitbook里可以添加體重記錄的那個界面",AI要把用戶帶到對的地方。

      第二大類叫做"沖突處理"。用戶給了一個指令,但實際情況和指令對不上。比如用戶說"刪掉Markor的Algo文件夾里所有3條筆記",但實際上這個文件夾里有4條。這時AI應該察覺到矛盾,主動聯系用戶確認,而不是自作主張地刪掉3條就算完事。

      第三大類叫做"模糊指令"。用戶表達的意思清楚,但省略了關鍵信息,比如沒說用哪個App。"幫我把這個zip文件里的內容找出來",用戶心里是明白的,但AI要能自己判斷出用ZipXtract來解壓,而不是一臉懵地不知道從何下手。

      第四大類叫做"多輪對話"。真實的用戶交互往往不是一次性的。用戶先讓AI"創建一條筆記",然后說"把標題改一下",再說"把剛才加的那行字加粗",最后說"通過短信分享給朋友"。AI需要記住每一輪的上下文,把一系列零散的指令串成一個完整的任務。

      第五大類叫做"界面狀態感知"。手機屏幕上的內容是動態變化的,不是靜止等AI去讀的。比如一道題要求AI打開番茄計時器App,等長休息計時跑到18到20秒的時候按下暫停。AI要像真人一樣盯著屏幕上的數字變化,在對的時間做出反應。

      第六大類叫做"視覺操作"。有些任務需要在手機屏幕上做精細的圖形操作,比如"打開Draw這個繪圖App,用藍色筆圈出橡皮擦,用紅色筆圈出卷筆刀"。AI必須能準確識別圖片里的具體物體,并在正確位置進行精確的繪制操作。

      第七大類叫做"復雜信息瀏覽"。用戶需要在多個頁面、多個來源之間查找并比較信息。這類題目的難度遠超"在搜索框里查個關鍵詞"——比如要求AI閱讀Gallery里存儲的一張外賣截圖,在多個商家的多款飲品中找出30分鐘內能送達的最便宜的美式咖啡,并返回商家名稱和商品全名。

      第八大類叫做"噪聲抵抗"?,F實中用手機時,隨時可能有電話打進來、App崩潰、彈出一個無關的廣告窗口。AI在執行任務的途中遭遇這些干擾,能不能處理完干擾后繼續完成原來的任務?這類題目專門測試這種抗干擾能力。研究團隊模擬了四種干擾類型:來電、App崩潰、操作失敗、無關彈窗。

      第九大類叫做"超難瀏覽題",靈感來自斯坦福大學專門用來難倒網絡搜索AI的BrowseComp基準。這類題目把多個約束條件疊加在一起,比如"在這7款App里,找出圖標是藍色的、而且主界面沒有搜索欄的那一款"。AI必須逐一檢查每個App,同時滿足所有條件才能得分。

      第十大類叫做"穩定性評測",這是一個獨立的子集,包含20道基礎題,每道題衍生出四個變體版本:把指令翻譯成中文、換一種語氣但意思相同的英文表達、把手機界面切換成深色模式、把設備換成平板橫屏模式。一道題只有在全部五種條件下都答對,才算真正穩定通過。

      三、怎么衡量AI哪里出了問題:五維能力雷達圖

      出完題,還需要一套精密的評分體系。VenusBench-Mobile提出了"PUDAM"能力分類框架,把AI需要具備的核心能力拆分成五個維度,每個維度又分四個難度等級。

      第一個維度是感知能力,衡量的是AI看懂手機屏幕的水平。最基礎的一級是認識文字和圖標,第二級是理解整體界面的布局和邏輯關系,第三級是精確定位細小的視覺元素,比如一個角落里只有幾個像素大的感嘆號按鈕,第四級是追蹤動態變化,比如實時讀取一個倒計時數字。

      第二個維度是理解能力,衡量的是AI讀懂用戶意圖的水平。從理解"點擊確認按鈕"這樣最簡單的單步指令,到處理帶有多個限定條件的復雜指令,再到識別出指令里的隱含矛盾或者信息缺失。

      第三個維度是決策能力,衡量的是AI在執行過程中臨機應變的水平。最基礎的是照著既定路線走,不需要臨時調整;高一級的是遇到彈窗、廣告、意外情況時能靈活繞過;最高級的是遇到沖突時主動反思、自我糾錯、評估風險。

      第四個維度是操作能力,衡量的是AI在屏幕上執行動作的精準度。從點擊、長按這類基礎操作,到需要拖拽軌跡控制的復雜手勢,再到精確調整滑塊到特定位置,最高級是像人手一樣實時根據視覺反饋調整動作軌跡。

      第五個維度是記憶能力,衡量的是AI跨步驟、跨頁面保持任務上下文的能力。最基礎的是在多個步驟中記住自己要干什么;高一級的是在瀏覽多個頁面時積累并記錄信息;再高一級是在整個長任務中追蹤不斷變化的狀態;最高級的是跨越多個獨立任務保留記憶,比如"刪掉我剛才創建的前兩條筆記"。

      當AI在某道題上失敗時,研究團隊可以對照這張能力矩陣,精確地找到是哪個維度、哪個難度級別出了問題,而不只是記錄一個"失敗"的結果。

      四、考試結果:全軍覆沒的成績單

      研究團隊找來了目前業界最強的一批AI手機助手來應考,包括螞蟻集團自家的UI-Venus系列、阿里的Qwen3-VL系列、專門為手機操作訓練的GUI-Owl和MAI-UI等開源模型,以及用谷歌Gemini-3-Pro和OpenAI GPT-5.1作為"大腦"、配合UI-Venus-72B執行操作的商業級方案。

      成績出來,場面相當難看。最強的商業方案Gemini-3-Pro加UI-Venus-72B的組合,總體成功率只有36.9%。也就是說,接近三分之二的任務都沒有完成。其余的開源模型更是慘烈,大多數成功率低于15%,Qwen3-VL-8B和GUI-Owl-7B只有6.7%。

      這個數字和同一批AI在AndroidWorld(目前業界最主流的舊式評測基準)上的成績相比,差距觸目驚心——平均成功率下降了約50個百分點。換句話說,同一個AI,在舊考試里考了七八十分,在這套新考試里只能考二三十分甚至更低。這說明舊考試確實存在嚴重的"放水"問題,高分并不代表真正有用。

      從具體題目類型來看,界面狀態感知和視覺操作是最難攻克的兩類,所有模型的平均成功率分別只有2.5%和4.2%,幾乎全軍覆沒。噪聲抵抗類題目表現稍好,但也只有32.1%的平均成功率,而且高度依賴模型規模——Gemini-3-Pro能達到75%,而小模型們卻普遍跌到個位數。

      通過PUDAM框架的細粒度分析,研究團隊找到了失敗的根本原因所在。在所有能力維度中,記憶能力是最致命的瓶頸。幾乎所有的開源小模型,在需要長期追蹤狀態的高難度記憶任務中,成功率接近于零。即使是體量更大的Gemini-3-Pro,記憶維度的成功率也從基礎任務的41%跌到了高難度任務的31%。這說明問題不僅僅是模型不夠大,而是現有的AI在架構層面就缺少持續追蹤信息的機制——單純地擴大"上下文窗口"(也就是AI一次性能記住的內容長度)是不夠的,需要專門設計的狀態追蹤機制。

      感知能力是第二個明顯瓶頸,從基礎任務到高難度任務,平均成功率從17.5%跌到10.3%。特別是動態畫面感知——當屏幕上有內容在實時變化時,幾乎所有AI都不知所措。決策能力在高難度場景中也出現了崩潰,大多數開源模型在需要反思和糾錯的任務中跌入個位數,說明它們本質上還是在執行預設腳本,一旦遭遇意外情況就束手無策。

      五、穩定性測試:換個皮膚就不認識了

      穩定性評測子集的結果揭示了另一個令人不安的現實。

      研究團隊給20道基礎題分別出了四種變體,最終統計每個AI能否在全部五種條件下都答對同一道題。這個叫做"穩定通過率"的指標,代表的是AI在輕微的條件變化下是否依然可靠。結果是:絕大多數模型的穩定通過率為零。即使是最強的Gemini-3-Pro組合,穩定通過率也只有15%。GPT-5.1組合是5%,其余全部是0%。

      這意味著,哪怕只是把指令從英文翻成中文,或者把手機界面切換成深色模式,又或者換成平板橫屏顯示,本來就有不穩定通過概率的任務,就徹底做不到了。其中影響最大的是平板橫屏模式——很多AI在豎屏手機布局上訓練出來,一換成橫版平板布局,界面元素的位置關系完全變了,AI就徹底迷路。這暴露出一個根本問題:現有AI的"能力"更像是對特定視覺模式的記憶,而不是真正理解了界面背后的邏輯。

      六、算力開銷:多想一步要付出多大代價

      研究團隊還測量了每個AI在完成任務時消耗的計算資源,用輸出的文字令牌數量來衡量(這也是決定使用商業AI時API費用高低的關鍵指標)。

      在單模型方案里,UI-Venus-72B(720億參數的大模型)消耗了85萬個令牌,而GPT-5.1只消耗了16.75萬個令牌,每一步平均只用54.6個令牌,是所有模型里最經濟的,暗示它在處理視覺輸入時用了更高效的壓縮方式。

      最引人注目的開銷來自"多智能體框架"——這是一種讓AI通過內部多輪討論和反思來提升效果的方案,由Mobile-Agent-v3加GUI-Owl-7B實現。這套方案消耗了164萬個令牌,每步平均438.7個,是單獨使用GUI-Owl-7B的三倍。這說明"讓AI多想幾步"會帶來巨大的計算開銷,對于需要在手機上實時運行的邊緣部署場景來說,這是一個必須認真對待的工程挑戰。

      說到底,這項研究戳穿了一個流行的神話:那些在測評排行榜上大放異彩的AI手機助手,其實并沒有我們想象的那么能干。舊式考試太簡單,太像教科書上的標準題,而真實的用戶需求復雜、模糊、充滿干擾和意外。螞蟻集團這套考試框架,相當于第一次把AI助手放到了接近真實的"工作場景"里來考核,結果自然原形畢露。

      更有價值的是能力診斷框架。知道AI"考了15分"不如知道AI"在記憶和感知方面存在根本性缺陷"——后者才能告訴研究者下一步該怎么改進。這就像是從"你這次考試不及格"升級到"你的閱讀理解和長篇綜合題需要重點補強",指導意義天壤之別。

      對于普通用戶來說,這項研究傳遞的信息很實際:目前市面上的AI手機助手,在簡單的單步操作上確實有用,但如果你指望它幫你完成一件跨越多個步驟、需要在不同App之間來回切換的復雜任務,出錯的概率相當高。在AI手機助手真正可靠地進入我們的日常生活之前,還有相當長的路要走。

      Q&A

      Q1:VenusBench-Mobile和AndroidWorld這類老測評基準的區別是什么?

      A:AndroidWorld等舊基準主要圍繞某款App的具體功能出題,題目路徑固定,AI只要按預設步驟操作就能得高分,但這和真實用戶的使用場景差距很大。VenusBench-Mobile從用戶真實需求出發設計題目,涵蓋模糊指令、沖突處理、多輪對話、動態界面感知等十大類場景,并加入了深色模式、平板橫屏、中文指令等變體測試,更貼近實際使用中的復雜情況。

      Q2:PUDAM框架具體是如何幫助診斷AI問題的?

      A:PUDAM把AI需要的核心能力拆分成感知、理解、決策、操作、記憶五個維度,每個維度分四個難度級別。當AI做某道題失敗時,可以對照這個框架判斷是哪個維度出了問題。比如AI在瀏覽多頁信息后忘記之前讀到的內容,就屬于記憶維度的高難度級別缺陷,而不只是籠統地"失敗了"。這種診斷方式能給AI研究者提供明確的改進方向。

      Q3:為什么AI手機助手在平板橫屏模式下成功率會大幅下降?

      A:現有的AI手機助手大多在豎屏手機的界面截圖上訓練,學到的更多是對特定視覺布局的記憶,而非對界面邏輯的真正理解。一旦切換到平板橫屏模式,同樣的App界面元素位置、比例和排列方式都會發生變化,AI就像在一個重新擺放了家具的房間里找東西,很容易迷路。這暴露出當前AI缺乏對界面結構的抽象理解能力。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      33歲章澤天風格大變!穿艷俗紗裙、副乳突出,比實際年齡成熟10歲

      33歲章澤天風格大變!穿艷俗紗裙、副乳突出,比實際年齡成熟10歲

      阿訊說天下
      2026-04-18 14:53:39
      日本突襲!28萬億市場,中國被踢出局,高市早苗亮出3張底牌

      日本突襲!28萬億市場,中國被踢出局,高市早苗亮出3張底牌

      芳芳歷史燴
      2026-04-19 23:49:43
      隨著北京山東獲勝,CBA大變天:廣東壓力大了,遼寧無緣八強!

      隨著北京山東獲勝,CBA大變天:廣東壓力大了,遼寧無緣八強!

      中國籃壇快訊
      2026-04-20 00:01:43
      中國永遠的校長,死于1962年

      中國永遠的校長,死于1962年

      最愛歷史
      2024-05-20 13:30:17
      保利發展裁員2.28萬人

      保利發展裁員2.28萬人

      地產微資訊
      2026-04-19 16:10:55
      一個害國害民的歷史罪人,老百姓還把他當成英雄崇拜

      一個害國害民的歷史罪人,老百姓還把他當成英雄崇拜

      小豫講故事
      2026-04-19 06:00:10
      特朗普:將很快公開涉UFO文件,“非常有趣,令人著迷”!奧巴馬:外星人真實存在,但我沒見過

      特朗普:將很快公開涉UFO文件,“非常有趣,令人著迷”!奧巴馬:外星人真實存在,但我沒見過

      揚子晚報
      2026-04-19 08:06:22
      面多加水,水多加面?外媒痛批:電車3噸重,填鴨式造車不可取!

      面多加水,水多加面?外媒痛批:電車3噸重,填鴨式造車不可??!

      少數派報告Report
      2026-04-17 07:03:05
      都說孔子周游列國,可地圖一攤開,這老爺子基本就沒出過河南省

      都說孔子周游列國,可地圖一攤開,這老爺子基本就沒出過河南省

      長風文史
      2026-04-18 16:39:15
      爸爸夢到已故兒子說腳被刺扎了,立馬驅車來到孩子墓前,眼前的一幕讓人驚呆了!

      爸爸夢到已故兒子說腳被刺扎了,立馬驅車來到孩子墓前,眼前的一幕讓人驚呆了!

      張曉磊
      2026-04-10 11:24:23
      CBA男籃動態更新!廣東VS山西,賽前帶來廣東男籃徐杰、胡明軒、拉克塞維奇以及山西男籃張寧最新消息

      CBA男籃動態更新!廣東VS山西,賽前帶來廣東男籃徐杰、胡明軒、拉克塞維奇以及山西男籃張寧最新消息

      凱豐侃球
      2026-04-20 00:11:09
      紀委不會查這3種情況,很多人不知道,要切記!

      紀委不會查這3種情況,很多人不知道,要切記!

      細說職場
      2026-04-16 15:27:18
      梅西目前在全球范圍內擁有一張令人驚嘆的俱樂部版圖?。?>
    </a>
        <h3>
      <a href=梅西目前在全球范圍內擁有一張令人驚嘆的俱樂部版圖?。?/a> 足球大叔1986
      2026-04-19 06:31:48
      突發劇變!皇馬選帥終極反轉,穆里尼奧回歸伯納烏概率要飆升?

      突發劇變!皇馬選帥終極反轉,穆里尼奧回歸伯納烏概率要飆升?

      林子說事
      2026-04-19 17:40:47
      他是著名演員,從發病到去世僅20分鐘,主持人兒子比他更有名

      他是著名演員,從發病到去世僅20分鐘,主持人兒子比他更有名

      削桐作琴
      2026-03-21 15:03:45
      鄭麗文剛換上中山裝,不到72小時,洪秀柱直奔北京,兩岸共謀統一

      鄭麗文剛換上中山裝,不到72小時,洪秀柱直奔北京,兩岸共謀統一

      健身狂人
      2026-04-20 00:43:59
      醫生:肝癌最危險信號,不是腹痛,而是頻繁出現這幾種異常

      醫生:肝癌最危險信號,不是腹痛,而是頻繁出現這幾種異常

      芹姐說生活
      2026-04-19 12:20:30
      中國人在哈薩克斯坦生活實錄:飯太多、女人太颯、聊天太上頭了!

      中國人在哈薩克斯坦生活實錄:飯太多、女人太颯、聊天太上頭了!

      老特有話說
      2026-04-19 15:29:16
      康凱:把“張飛”演成傻子,無戲可拍11年,如今現狀令人唏噓

      康凱:把“張飛”演成傻子,無戲可拍11年,如今現狀令人唏噓

      流云隨風去遠方
      2026-04-18 15:35:50
      734名美軍火線辭職,白宮陷入徹底恐慌,對伊封鎖淪為笑柄

      734名美軍火線辭職,白宮陷入徹底恐慌,對伊封鎖淪為笑柄

      凡知
      2026-04-19 16:30:29
      2026-04-20 02:08:49
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業世界
      8048文章數 562關注度
      往期回顧 全部

      科技要聞

      50分26秒破人類紀錄!300臺機器人狂飆半馬

      頭條要聞

      半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

      頭條要聞

      半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

      體育要聞

      湖人1比0火箭:老詹比烏度卡像教練

      娛樂要聞

      何潤東漲粉百萬!內娛隔空掀桌第一人

      財經要聞

      華誼兄弟,8年虧光85億

      汽車要聞

      29分鐘大定破萬 極氪8X為什么這么多人買?

      態度原創

      手機
      親子
      本地
      房產
      公開課

      手機要聞

      8.8英寸小鋼炮!REDMI K Pad 2核心配置揭曉

      親子要聞

      孩子總打噴嚏、起疹子,時過敏嗎?

      本地新聞

      12噸巧克力有難,全網化身超級偵探添亂

      房產要聞

      官宣簽約最強城更!??跇鞘校蝗粴⑷肷衩胤科?!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版