
作者 | 木子、高允毅
2023 年 4 月,在很多人剛聽說“大模型”這個詞的時候,智譜團隊開始研究一個聽上去不太現實的目標:
讓 AI 真正學會“使用手機”,也就是像真人一樣,對智能手機等設備具有使用能力。
32 個月后,智譜把階段性重要成果、核心 AI Agent 模型:AutoGLM給完整開源了出來,并放話:“每臺手機,都可以成為 AI 手機。”
![]()
AutoGLM 擁有Phone-Use(手機操作)能力,包括點擊、滑動、輸入、截圖理解、流程恢復、噪聲處理……既能穩定完成外賣點單,也能完成機票預訂等長達數十步的復雜操作流程。
目前,AutoGLM 已支持上百個主流 APP,包括以下這些:
![]()
另外,AutoGLM 還能同時在上千臺云端虛擬手機里“練功”,通過強化學習等極大地擴展了 Agent 的準確性和泛化能力。而且它被嚴格關在虛擬設備的安全沙箱里,既能自由試錯,又不會碰到用戶真實手機上的隱私數據。
智譜今天開源的是一整套可以“拿來就用”的能力,具體包括:
訓練好的核心模型;
Phone Use 能力框架與工具鏈;
可直接跑通的 Demo,覆蓋 50+ 高頻中文 App;
針對 Android 的適配層與示例工程;
文檔、快速上手指南
模型會以MIT 開源許可證的形式開放,而所有代碼會以Apache-2.0 開源許可證的形式,托管在 GitHub 倉庫中:github.com/zai-org/Open-AutoGLM。
為什么選擇開源?
“從產品的角度,AutoGLM 已經可以支撐起很多真實場景;從工程的角度,AutoGLM 的積累足夠寫成一大摞技術報告。”
為什么選擇在這個時間點把辛辛苦苦做的東西開源呢?看完官方自白,不得不說,智譜的格局還挺大。
首先,智譜認為“AI 手機”是大勢所趨,但這不是一家公司就能完成的任務,更不應該掌握在極少數廠商手里。
18 年前,蘋果以智能手機奠定生態時代的范式;Siri 問世后,語音助手成了標配,但功能多停留在查天氣、設鬧鐘,距離真正的智能仍相去甚遠。
如今 AI 登場,變革已成共識。大模型不再只是給手機添點“智能”、做做答問,而是深入系統流程,像全能管家般跨 App 完成訂票、點餐、取消續費等復雜操作,讓手機真正邁向下一代計算入口。
也正因為這將重塑手機的能力與地位,一旦被少數廠商壟斷,那么開發者的創新空間,要看平臺愿不愿意開放接口;而用戶日常生活中最重要的那臺設備,也會越來越像“別人家的入口”。
智譜希望:“AutoGLM 的開源,能把這一層能力變成整個行業可以共同擁有、共同打磨的公共底座。”
他們把 AutoGLM 比喻成積木,表示可以拿來即用,成為系統的一部分,也可以拆開、重寫、改造,變成新產品的元素。
其次,隱私是 AI 手機一個避不開的問題。
可以想象,如果 AI 可以操控手機,像管家一樣讀取、操作、解決問題,雖然帶來了便利,但也成為了知曉用戶一切根底的隱形炸彈。
像個人微信、支付、聊天記錄、照片相冊、企業內部系統等等信息,必須掌握在用戶自己手里。
智譜的解法是,通過開源和私有化部署,企業和開發者可以在自己的合規環境中完整掌控數據、日志和權限。也就是說,這個 AI 能力免費發放,數據與隱私永遠留在使用方這一側。
第三,智譜希望“自己吃過的苦,別人別再吃了”。
“把我們走過的路,變成大家在 Agent 爆發時代的起跑線。 AutoGLM 是一條很陡的路:我們啃過的技術難題、踩過的坑、重寫過的框架,在很多場景里都可以復用,也值得被復用。”
他們想在未來看到這樣情形:
商業層面上,有團隊因為 AutoGLM,做出真正意義上的 AI 原生手機;
技術層面上,有研究者因為其中某個模塊,寫出一篇新論文、新算法;
生態層面上,個人開發者可以利用 AutoGLM,做出自己的項目,在某個小眾場景里真正跑起來。
AutoGLM&AI 手機行業前景
其實 AutoGLM 的這些智能手機操作能力,和最近熱門的“豆包手機助手”也有不少異曲同工之處。我們先來回顧一下 AutoGLM 是什么,再來聊聊 AI 手機行業前景。
全球首個手機智能體
2024 年 11 月,有件事在技術圈“小引熱議”:AI 第一次自己發出了一個手機紅包。
這不是腳本自動化,也不是調用某個內部 API,而是一個模型就能“看懂”界面內容,再一步一步完成點擊流程。過去大家普遍認為這件事極其困難,還有人覺得不可能做到足夠穩定。
而這背后的神奇新模型,正是 AutoGLM。
![]()
圖源:智譜官方微信公眾號
簡單來說,它是智譜打造的、用于真實設備 GUI(圖形用戶界面)操作的基礎智能體(foundation agents), 可以在真實或虛擬手機上執行長鏈路、多步驟的操作任務,初代于 2024 年 10 月發布。
AutoGLM 不僅能理解復雜 UI、規劃復雜任務,還具備錯誤恢復能力,這是 Agent 可以部署的前提。
而它之所以能實現 Phone-Use 等強大能力,主要歸功于以下三大核心技術的突破或創新應用。
首先,AutoGLM 創新地把 Agent 的行為拆成兩層:Planner負責思考“做什么”,并輸出動作描述,比如:“點擊右下角的提交按鈕”、“輸入商家名稱并搜索”等;Grounder負責“在哪里執行”,其功能包括識別界面元素、定位坐標、檢測按鈕位置、解析視覺信息等等。
這種結構,讓規劃層更加靈活,解決“LLM 看得懂但點不準”的核心難題,大幅提升跨 APP、跨網頁的泛化能力。
據智譜論文信息,中間接口(Intermediate Interface)設計,讓 GPT-4o 視覺模式的網頁任務執行成功率,從 18%(端到端方式) 提到了36.4%,翻了倍。
![]()
提出 MobileRL、ComputerRL、AgentRL;驗證強化學習規模擴展定律;在上千臺虛擬設備中并行訓練,能力顯著增強。
第二,AutoGLM 的錯誤恢復能力,主要得益于自進化式的Curriculum RL,模型通過這個 RL 框架可以自進化、自我糾錯、自我變強。
通過獎勵模型(RM)評估每一步是否朝正確方向推進,還可以通過 mutate 指令提高或降低任務難度。模型提前在上千個虛擬環境經過大量試錯和恢復訓練,讓其能在真機上順利跑通幾十步流程。
第三,是大規模可控環境,包括 WebArena、AndroidLab,和云手機集群。
其中,WebArena 是真實網頁環境,AndroidLab 是系統級 Android 環境,云手機集群則是上千臺虛擬和真實設備并行訓練。
大量的場景覆蓋和經驗,讓模型具備了出色的泛化能力,這和谷歌的 AutoRT、WebVoyager、Gemini + Android App 等 Agent 技術高度類似。
——模型不是靠記規則,而是靠大量真實任務經驗,學會在陌生場景中穩健執行操作。
值得一提的是,今年初 Manus 橫空出世,讓 AI Agent 迅速爆紅,但 Manus 僅在 3 個月后便迅速撤出了中國市場。不久后,在今年 8 月,智譜發布 AutoGLM 2.0,也是全球首個手機智能體。
但“一花獨放不是春”
在手機 Agent浪潮奔涌之時,智譜愿化作那塊關鍵拼圖,為未來的版圖添上應有的一角:
“‘一花獨放不是春’。Agent 的爆發,需要所有人一起參與。”
至于“AI 手機”這個概念,本質上是把大模型深度塞進手機里,讓其從單一工具升級成能感知、能決策、能跨 App 代辦事務的隨身智能體。
隨著端側 AI 的成熟,AI 手機的盤子正在快速擴張。
據 IDC 預計,2026 年中國新一代 AI 手機出貨量將達到 1.47 億臺,占總體市場的 53%。
而賽迪顧問也發布了一個報告,判斷 2027 年 AI 手機銷量將躍升至 1.86 億部,占比 56.1%,并強調“端側主導、生成式創新與硬件突破”將繼續推進行業高速增長。
![]()
這和之前的數據相比,已有大幅躍升:2023 年,中國 AI 手機銷售量達到 1100 萬部,占全球 AI 手機銷售量 22%。2024 年,中國市場的新型 AI 智能手機出貨量預計將超過 3500 萬部,預估市場占有率為 12%。
但目前 AI 手機效果如何呢?實際體驗仍處在“宣傳大于實際”的早期階段。
今年年初,21 財經曾對六款 AI 手機進行了測評,發現多數智能體在訂咖啡、跨應用操作等場景下不是中途卡住,就是需要多輪確認;能穩定跑完流程的主要是榮耀 YOYO,但離“全自動化”仍有明顯差距,跨 App 操作成功率依然受限于權限、界面變化等工程難題。
![]()
這也讓行業將技術路線分成兩派:依賴 App 授權的“意圖框架”,和無需授權、靠讀屏與模擬操作的“視覺路線(GUI Agent)”。
簡單來說,前者是走“官方通道”,App 得先點頭授權,Agent 才能直接調用它的功能;后者則是“看著學”:智能體自己讀屏幕、看按鈕、模擬人手點來點去,就像站在你旁邊學你怎么操作手機。
最近出圈的“豆包手機”,就是嘗試把 GUI Agent 做到系統級。
豆包手機其實是字節跳動在做的一次低調試水,它由中興代工,首批約 3 萬臺,主要供內部測試,沒有對外銷售。不過據傳,因需求旺盛,目前在閑魚被炒到近 8000 元。
據晚點報道,該手機背后的核心團隊是字節負責 AI 硬件的 Ocean,他們由 PICO、OlaDance、錘子等多個硬件團隊整合而來,目標是探索“大模型 + 超級 App + 硬件”的新形態。
字節原本想把豆包大模型提供給手機廠商作為系統級能力,但多數廠商擔心失去大模型時代的主導權而拒絕合作,最終促使字節決定親自下場做手機,并已啟動第二代產品研發,預計在 2026 年底推出。
高盛在報告中指出,第三方 AI 想在手機里大規模落地并不容易:權限拿不到、數據摸不到、應用不一定愿意配合,導致智能體既難看清手機、也難穩定操作。
如今各大廠商普遍把“大模型”當作下一代手機的靈魂,更傾向與體量更小、可控性更強的大模型公司合作——比如 OPPO 選擇階躍星辰,而榮耀、三星等廠商則采用了智譜。
也正是在這場競爭中,智譜的角色愈發清晰:他們不是要取代手機廠,而是以開放、易集成的底層能力,成為 AI 手機生態里那塊關鍵拼圖,幫助更多廠商真正把“智能體”從概念變成用戶愿意天天依賴的體驗。
AI 手機的下一代入口之爭剛剛開始,而決定最終格局的,將是哪些技術力量能夠真正讓智能體落地、跑穩、跑廣。
傳送門:
github.com/zai-org/Open-AutoGLM
https://arxiv.org/abs/2411.00820
https://www.21jingji.com/article/20250317/herald/6410c6c74c64a254bdc041898ecbd76c.html
聲明:本文為 AI 前線整理,不代表平臺觀點,未經許可禁止轉載。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.