網易首頁 > 網易號 > 正文申請入駐

「豆包手機」為何能靠超級Agent火遍全網,我們聽聽AI學者們怎么說

2025-12-10 16:28:59　來源: 機器之心Pro

北京舉報

分享至

機器之心原創

機器之心編輯部

手機上的 AI，從來沒有這么像真人。

最近一個星期，席卷科技圈的一款手機不來自任何一家硬件大廠，而是與字節的豆包聯系在了一起。

這款搭載豆包手機助手的工程機引爆了全網，讓很多人第一次真切地感受到 Agent 已經觸手可及。在某寶平臺上，這款手機的價格被炒到了近五千元。

本月初發布的豆包手機助手，目前還是技術預覽版。與大多數作為獨立 App 存在的 AI 助手都不一樣的是，它通過把 AI Agent 嵌入系統底層的方式，讓手機實現了端側 AI 能力的全面突破，帶來了全新的交互方式和多模態體驗。在不少科技從業者看來，豆包手機助手已經把 AI 工具的認知推向了新的高度，它不再只是一個輔助工具或外置 App，而是與手機操作系統深度綁定的「超級管家」。

畢竟，只需要一句話，豆包手機助手可以真正地實現跨 App 的復雜指令執行。除了其他手機上 Agent 常見的訂餐、記賬、修改設置等能力之外，豆包手機助手能夠攻克相對模糊且復雜的長鏈條需求。

豆包手機助手全程無中斷地完成「地圖上標記餐廳、查找博物館以及旅行平臺訂票」的多需求、長鏈路任務。

這樣的表現讓人直呼：「是不是有點過于智能化了」。

與此同時，圍繞豆包手機助手持續升溫的討論也引出了一些不同觀點與追問：「AI 操作手機」真的是未來人們用手機的常態嗎？要打造這樣一臺 AI 手機，豆包手機助手做對了什么？

在深入了解豆包手機助手背后的技術底座，并與四位學界專家進行一番交流之后，我們對它如何重構交互范式、推動系統級 GUI Agent 實現有了更加立體、清晰的認知。

給手機裝系統級 Agent，為什么這么難？

這兩年，無論是一些新興的 AI 硬件初創公司，還是國內外主流手機廠商呈現出一個明顯的趨勢：探索將原生 AI 能力更深度地融合進設備系統中，最重要的形態之一便是引入 AI Agent。

其中，作為一種由多模態視覺模型驅動的 AI 系統，GUI Agent 在遵循以自然語言提出的指令下，能夠理解屏幕內容、進行自主推理，并在 UI 上執行與人類操作類似的交互，如讀取信息、點擊按鈕、輸入內容等，從而完成特定任務。

隨著 GUI Agent 能力在端側持續增強，以更高集成度、更深層系統權限為特征的系統級 GUI Agent 逐漸成為下一階段的核心目標，這要求不僅高效執行任務，還要理解上下文、協調多 App 流轉等。

但這樣的系統級實現并不容易。從學術與工程落地視角來看，大致需要克服以下四個層面的障礙：

一是感知層：Agent 需要在毫秒級內識別出屏幕上所有的交互元素，比如圖標、按鈕和文本框。此外還需要具備抗動態干擾能力，這是因為 App 界面復雜，彈窗廣告、浮層、動態加載內容會產生視覺噪聲。GUI Agent 要具備「像素級」的精準定位能力，同時理解圖標背后的「功能語義」。

二是規劃層：主要涉及跨 App 的信息流轉，包括 App 切換、上下文記憶提取、剪貼板操作等多個步驟；執行過程中也可能會遇到網絡卡頓、登錄失效、意外彈窗等突發情況，傳統的腳本（workflow）一旦斷裂可能無法繼續。GUI Agent 要維持跨多 App 的邏輯連貫性，并具備自我反思能力，比如發現路徑不通而換一種方式。

三是決策層：GUI Agent 必須具備強泛化能力，不能只在見過的界面上工作，還要能夠在未見過的同類 App 中執行相似操作。同時，手機操作除了點擊之外，還包括長按、滑動和縮放等其他細粒度操作，對 Agent 的反饋回路提出了更高要求，也意味著決策過程必須更加及時與精準。

四是系統層：首先是響應速度，用戶無法忍受長時間的思考；其次是權限壁壘，在 Android 等嚴格的沙盒機制下，無法輕易獲取其他 App 的屏幕信息或進行操作。GUI Agent 要在保證數據隱私安全和低延遲的前提下，打破操作系統內部的數據孤島。

四個層面的障礙共同構成系統級 GUI Agent 落地過程中最核心的挑戰。其中在談到系統級跨 App 操作面臨的難題時，蒙特利爾大學與 MILA 實驗室副教授劉邦提到了感知層的界面理解與元素定位問題，以及規劃層的長鏈路任務規劃與狀態管理。真實用戶任務往往需幾十步、跨多個 App，還可能出現彈窗、網絡延遲、權限請求、驗證碼、異步加載等狀況。Agent 必須記住之前做了什么、當前狀態如何、接下來可能發生什么，還要能應對失敗或異常。

西湖大學通用人工智能（AGI）實驗室負責人、助理教授張馳點出了上下文記憶和推理速度這兩項對 GUI Agent 產品化至關重要的能力。上海交通大學計算機學院教授、博士生導師張偉楠博士認為當前的 AI 大廠往往通過一個或幾個 App 發力，無法獲得最大的數據訪問與操控權限，因此無法對齊用戶上下文，也無法做到用戶可以完成的操作。

浙江大學百人計劃研究員、博士生導師沈永亮總結了幾個難點，包括長鏈路規劃、推理速度以及輕量級模型如何管理短期與長期記憶，這些也是當前學術界普遍關注的核心瓶頸。

對于這樣一項貫穿 AI 技術、終端硬件、操作系統和生態協同的全鏈路重構工程，任何一個環節的不成熟，都可能影響 Agent 走向真正的產品化。近兩年學界和業界開始發力 Agent 載體的能力釋放，包括通用 GUI Agent 研究工作 AppAgent、Mobile-Agent、UI-TARS 等，以及依賴視覺識別與無障礙控制的 Rabbit 式通用 Agent 和手機廠商在 OS 層構建的系統級 Agent。

通過這些嘗試，AI 開始能夠像人類一樣操控手機屏幕并完成一些特定的任務，但依然存在著不少問題，比如不同 App 的權限開放、長鏈路復雜任務成功率低、等待時間長、缺乏處理 UI 突發情況的能力，這些都限制了系統級 GUI Agent 的穩定性和實用性。

豆包手機助手取長補短，采取了「GUI Agent + 系統級權限」的路徑。一方面，在手機上通過深度系統集成獲得了 Android 系統級權限，同時有更嚴格的使用限制，只有在用戶主動授權之后才會調用該權限。這允許豆包手機助手模擬用戶點擊、滑動、鍵入、跨 App 操作。另一方面，借助視覺多模態能力，即識別屏幕 UI、理解界面內容、解析用戶意圖和執行規劃，豆包手機助手自主決定「下一步該點哪兒、輸入什么、跳到哪個 App」。用劉邦的說法，這相當于一個「幽靈手指 + 大腦 + 決策系統」

張馳強調了豆包手機助手的系統級整合能力，通過基礎能力的持續增強和多種技術方案的整合（如系統功能接口調用），做到更好的 GUI Agent 體驗。張偉楠表示，豆包手機助手通過 GUI Agent 打通 App 之間的壁壘，在對齊用戶上下文和操作空間上有了顯著進步。「作為第一個手機廠商和大模型公司主導設計的 AI 手機，設計邏輯上比傳統手機廠商做 AI 轉型設計的手機更具有顛覆性。」

沈永亮同樣突出了豆包手機助手主打的原生 GUI 視覺操作，與手機廠商深度合作達成系統級操作權限，直接向系統內核發送指令來模擬人手指的點擊和滑動。這種基于系統底層的視覺操作與以往依賴無障礙服務的第三方 App 有本質區別，具備了極強的通用性，執行過程更穩定、更像真人，在推理速度與任務完成率上表現平衡，長上下文處理能力相當可觀。

整體看下來，豆包手機助手正在構建一個集「視覺理解、大模型推理與系統級原生執行」于一體的通用 Agent 層，在面對不同 App 和界面形態時實現了可泛化的 UI 操作。

從兼容性、跨 App 自動化執行、長鏈路任務處理、多任務調度等多個維度來看，豆包手機助手已經展現出了優于傳統腳本式自動化或無障礙接口方案的能力。這些都為實現更高階的系統級 GUI Agent 提供了更穩健的基礎能力。

UI-TARS：豆包手機助手背后的自研系統級 GUI Agent 引擎

相信大家已經被豆包手機助手的各種演示刷屏了，無論是跨 App 訂機票、自動比價、修改圖片，還是在手機上絲滑完成一整套復雜流程，這些能力表明：手機不再只是等你點的工具，而是開始具備了主動完成任務的能力。

這些能力的背后，正是字節在 2025 年陸續推出的自研開源模型 UI-TARS。據悉，豆包手機助手使用的是 UI-TARS 閉源版本，不僅性能優于其開源版本，還針對 Mobile Use 進行了大量優化。

UI-TARS 最早可追溯到今年一月，其奠定了字節在 GUI Agent 方向的基礎框架；四月，團隊進一步發布進階版 UI-TARS-1.5，該版本融合了由強化學習帶來的高級推理能力，使模型能夠在執行動作之前先進行思考推演。九月推出的 UI-TARS-2 則將這一體系推進到新的階段。

UI-TARS 包括用于可擴展數據生成的數據飛輪機制、穩定的多輪強化學習框架、融合文件系統與終端的混合式 GUI 環境，以及支持大規模 rollouts 的統一沙箱平臺。

首先，緩解數據稀缺問題。現階段大規模預訓練和強化學習在對話、推理等領域已經非常成熟，但一旦換到需要長鏈操作的 GUI 任務上，就難以直接擴展。因為 GUI 場景不像文本和代碼那樣可以輕松收集海量數據，而是必須記錄完整的操作軌跡，包括每一步的推理、點擊、界面變化和反饋。這類數據不僅難獲取、成本高，而且規模化收集尤其困難。

UI-TARS 設計了可擴展的數據飛輪（Data Flywheel）機制，通過反復的訓練持續提升模型能力和數據質量。在每一輪循環中，最新的模型會生成新的智能體軌跡，這些軌跡隨后會被過濾并分配到最適合的訓練階段。高質量的輸出會被提升到更靠后的階段（如 SFT），而質量較低的輸出則會回收至更早的階段（如 CT）。隨著多次迭代進行，這種動態再分配方式能夠確保每個訓練階段都使用與其最匹配的數據，從而形成一個自我強化的閉環：更好的模型產生更好的數據，而更好的數據又反過來訓練出更強的模型。

其次，需要解決可擴展的多輪強化學習問題。在交互環境里做強化學習很難，因為智能體很難及時知道自己做得對不對：獎勵大多來得很慢、有時甚至沒有；訓練過程也容易不穩定。

為突破這一瓶頸，UI-TARS 構建了一個專門面向長鏈場景的訓練框架，其中包括使用帶有狀態保持能力的異步 rollout 來維持上下文一致性；通過流式更新來避免長尾軌跡導致的訓練瓶頸；以及結合獎勵塑形（ Reward Shaping）、自適應優勢估計和值預訓練的增強版近端策略優化（PPO）算法，以進一步提升訓練效果。

第三，突破純 GUI 操作限制。現實中的許多任務并不能單靠界面點擊完成，例如數據處理、軟件開發、系統管理等，更高效的方式往往是直接操作文件系統、使用終端或調用外部工具。如果智能體只能依賴 GUI 交互，其能力邊界就會非常有限。因此，一個真正高級的 GUI Agent 必須能夠將圖形化操作與這些系統資源無縫結合，使其不僅能點界面，還能執行更真實、更復雜的工作流。

為此，UI-TARS 搭建了一個混合式 GUI 中心環境，使智能體不僅可執行屏幕上的操作，還能調用文件系統、終端及其他外部工具，從而解決更廣泛的真實任務。這意味著，在 UI-TARS 的訓練體系中，智能體的操作空間已經從單純的點擊、輸入、滾動，拓展為能夠自由組合 GUI 操作與系統指令的更高維動作集合。例如，它既可以在文件管理器中拖拽文件，也可以直接通過 Shell 命令處理文本、解壓壓縮包、運行腳本。可以說這是系統級 GUI Agent 能夠走向真實應用的關鍵一步。

最后，即便具備豐富的交互能力，要部署大規模 RL 環境依然是工程瓶頸。因為系統需要在瀏覽器、虛擬機、模擬器里反復跑上百萬次交互，還要保證結果可重復、出錯能恢復、不影響訓練流程。但現實情況是，這類環境往往又慢又貴，還容易崩潰，想長期、穩定地跑大規模 RL 幾乎是件非常困難的工程任務。

為支持大規模訓練與評估，UI-TARS 構建了一個統一沙箱平臺，其核心創新之一是共享文件系統：這使得 GUI Agent 可以在同一個容器實例中實現諸如通過瀏覽器下載文件并立即用 Shell 命令處理連續跨工具操作。該沙箱不僅保持了復雜任務所需的穩定性與可復現性，還在分布式計算資源上支持高吞吐訓練，同時為數據標注、評估和推理提供一致的環境。

依托這四項技術，UI-TARS 為系統級 GUI Agent 提供了真正可落地的基礎能力，使豆包手機助手能夠在真實手機操作系統中穩定執行跨 App、長鏈路的復雜任務，實現從對話智能向行動智能的躍遷。

UI-TARS 的突出表現，也得到了四位學界專家的認可。在劉邦看來：「UI-TARS-2 在學術層面為通用 GUI Agent 路線提供了一套經過驗證、可擴展的基礎框架。」

他特別指出 UI-TARS-2 的研究價值在于它讓 AI 自動操作圖形界面（GUI）具備了通用性與端到端特性：模型只需觀察屏幕截圖，就能通過視覺理解、多模態推理、模型推理、自動點擊、輸入、滾動等操作，模擬人類操作界面。在這一基礎上，UI-TARS-2 通過大規模強化學習、自我生成與迭代的數據飛輪、統一的動作空間設計以及混合式（Hybrid）環境，讓 Agent 在各種不同環境中都有較好表現

張馳也對這項研究給予了客觀評價。他指出，「UI-TARS-2 做出了許多兼具工業價值與學術價值的規模化探索，從模型底層能力入手，對 GUI Agent 進行了系統性的強化。

他進一步強調，與學術界普遍聚焦于 Agent 架構或策略改進不同，字節跳動選擇直接面向模型能力本身發力，用大規模數據、算力與強化學習訓練體系去提升智能體在真實 GUI 環境中的最終效果，補上了學術界在資源與工程實踐方面的短板。

張偉楠表示，UI-TARS 是字節今年推出的杰出科研成果，自己帶領的團隊在推進 GUI Agent 研究時也多次參考并引用了 UI-TARS。在他看來，這套體系不僅為系統級 GUI Agent 提供了清晰的技術路徑，也讓外界看到了字節在智能體方向持續輸出更強研究成果的能力

沈永亮則從初代 UI-TARS 到 UI-TARS 2.0 做了很好的點評：「UI-TARS 1.0 走了一條視覺原生的端到端路線，通過構建人工標注數據和進行大規模的 SFT、DPO 訓練，向行業證明了只要數據飛輪轉起來，不依賴各種花式 workflow 的純視覺方案也能走的通。后續版本這種領先優勢進一步從感知延伸到了推理和環境交互。UI-TARS 1.5 讓我們看到了強化學習在處理復雜任務時的關鍵作用，緊接著 UI-TARS 2.0 推出沙盒環境，讓模型能夠進行無限的數據 Scaling，通過在虛擬環境中不斷試錯和生成數據，實現了左腳踩右腳式的自我迭代提升。這一整套從純視覺感知到沙盒自我進化的研究閉環，無疑是目前行業里最前沿的探索。

從應用體驗到背后的 AI 模型技術，豆包手機助手第一次在端側設備上實現了變革式的 AI 交互體驗升級，或許未來 AI 手機的終極形態，就會從這里開始。

以它為起點繼續推演，在未來的手機上，我們可能面對的將不再是一個個獨立的 App，而是有一個「無所不能」的系統級 GUI Agent 來自動幫我們解決問題。

隨著 AI 能力被內化為核心，手機 OS 系統不再只是資源管理器，而會進化成為你的意圖調度器，實現真正的 AI 原生。各種能力由 AI 調用，交互的范式將會由「人找服務」轉變到「服務找人」。

你的手機將會從一個「能打電話的電腦」，轉變成為一個「擁有自主行動能力的個人智能體」，它會真正成為能與你自然共處、深刻理解你、并能在數字與物理世界為你有效行動的伙伴。

如果當「意圖驅動 + 自動化 + Agent」演變為系統自帶的功能，系統級 GUI Agent 將成為下一代手機操作系統的標配能力，劉邦和張馳都表達出了類似的觀點。張偉楠也認同GUI Agent 是當前 AI 手機的實現路徑之一，并且相信很快可以達到媲美人類的操作智能水平。沈永亮雖然沒有給出明確的答案，但他舉了觸屏手機取代實體鍵盤的例子來說明，當人們習慣了一句話就能讓手機自動幫你完成任務（比如訂票、訂酒店），這種「用了就回不去」的便利性其實已經告訴我們未來會走向哪里

不過仍有一些關鍵挑戰需要解決，包括設備端算力、系統級 Agent 的協調管理權限、兼容與安全機制等。對于 AI 技術本身來說，模型感知的準確度，在復雜任務上的規劃推理能力也是決定智能化程度的關鍵。

未來究竟會發展成什么樣？我們尚不能給出準確的答案，不過可以肯定的是，系統級 GUI Agent 探索所帶來的變革才剛剛開始，想象空間遠比我們當下所能看到的更為廣闊。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.