![]()
去年全球手機用戶每天解鎖屏幕96次,平均每次只停留2分47秒。我們花了太多時間在App之間跳來跳去,卻沒人想過:如果手機能自己操作自己呢?
AGI Inc.這家公司做到了。他們的同名App目前在私人測試階段,是全球首個能在設備端運行的智能體(Agentic AI)——不是聽你指揮,而是替你動手。創始人Div Garg告訴我,他們的目標很簡單:讓AI像人類一樣使用手機。
這和Siri那種"打開微信"的語音指令完全不同。AGI能看懂屏幕,理解上下文,然后真的去點按鈕、填表單、發消息。Garg給我演示時,我腦子里只有一個念頭:這就是iOS 27上那個"聊天機器人式Siri"應該有的樣子。
從語音助手到"數字替身":中間隔了多遠
現在的Siri、Google Assistant、Alexa,本質上都是語音搜索引擎。你說"設明天早上7點的鬧鐘",它聽懂關鍵詞,調用系統API,完成動作。這套邏輯用了十幾年,瓶頸也很明顯——它只能做開發者預先寫好的事。
AGI的突破在于視覺理解+動作執行。它的AI會截圖分析當前界面,識別可交互元素,然后生成點擊、滑動、輸入的操作序列。Garg打了個比方:傳統語音助手是"遙控器",AGI是"手"。
我實際測試了幾個場景。讓AGI在Instagram上找到上周點贊過的照片,它自己打開了App,滑到個人主頁,點進"你贊過的內容",篩選時間范圍,全程沒讓我碰屏幕。整個過程用了23秒,比我手動操作慢一些,但我完全不需要知道這個功能藏在哪。
另一個測試更復雜:在Spotify里創建一個新歌單,加入最近30天播放超過5次的歌曲,然后分享給特定好友。AGI花了1分12秒完成,中間還處理了兩次彈窗權限請求。出錯了一次——它把"播放次數"理解成了"收藏次數"——但在我口頭糾正后重新執行,最終成功。
Garg承認準確率還在打磨。目前復雜任務的一次成功率約67%,多輪對話修正后能到89%。"我們不是在追求100%完美,"他說,"而是在追求'足夠好用,讓你愿意等它學會'"。
為什么偏偏是Android先跑通
這里有個反直覺的事實:AGI選擇先在Android上線,不是因為技術偏好,而是蘋果生態的封閉性逼的。
Android的輔助功能(Accessibility Service)允許App讀取屏幕內容并模擬點擊,這套API原本是給視障用戶設計的。AGI團隊發現,這是實現"AI操作手機"的最短路徑。Garg說他們在iOS上做過嘗試,但"連截圖權限都要層層申請,更別說模擬觸摸了"。
高通嗅到了機會。今年MWC上,AGI宣布與驍龍平臺深度合作,針對NPU(神經網絡處理器)做端側優化。Garg給我看了組數據:在驍龍8 Gen 3上,AGI的屏幕分析延遲從云端方案的1.2秒降到180毫秒,功耗降低76%。這意味著AI可以持續"看著"你的屏幕,而不是每次操作前都要聯網等響應。
這對蘋果是雙重刺激。一方面,AGI證明了對設備有深度控制權的AI體驗確實更優;另一方面,高通的芯片+AGI的軟件,正在Android陣營構建一個蘋果短期內難以復制的護城河。
我注意到一個細節:AGI的隱私協議寫得格外謹慎。所有屏幕分析都在本地完成,云端只接收脫敏后的操作日志用于模型改進。Garg說這與"某些公司的商業模式根本沖突"——他沒點名,但顯然在暗指依賴廣告精準投放的巨頭們。
Siri的翻身仗,蘋果準備怎么打
Mark Gurman的爆料已經勾勒了iOS 27的輪廓:Siri將變成"聊天機器人式體驗",支持多輪對話,能處理更復雜的請求。但蘋果沒說的是——它能不能像AGI一樣,真的去點屏幕上的按鈕?
從現有技術儲備看,蘋果有兩張牌。一是Apple Intelligence的端側模型,已經在iOS 18上實現了本地圖像理解和文本生成;二是Screen Awareness API,開發者可以用它讓App"看見"其他App的內容。但把這兩者拼接成"AI操作手機",中間還缺關鍵一環:系統級的輔助功能權限。
這是蘋果最糾結的地方。開放深度系統權限,意味著安全風險陡增;不開放,Siri就永遠是"建議你去設置里找找"的旁觀者。Garg的判斷很直接:"蘋果要么在iOS 27上打破自己的安全架構,要么接受Siri繼續落后一代。"
我傾向于認為蘋果會走中間路線。WWDC上我們可能會看到"有限制的設備操作"——比如Siri可以在蘋果原生App里執行多步驟任務,但第三方App的深控操作仍需用戶手動確認。這樣既展示了能力,又把風險關在籠子里。
但用戶體驗的代差可能就此拉開。AGI在Android上已經能跨App串聯操作,而蘋果的"圍墻花園"策略,在AI時代反而成了枷鎖。一個Instagram用戶想"把昨晚拍的照片發到Twitter并@攝影師",在AGI上是一句話的事,在Siri上可能是"打開照片-選擇-分享-選擇Twitter-輸入文字"的漫長引導。
20人團隊 vs 萬億巨頭:這場不對稱戰爭
AGI Inc.目前全職員工不到20人。Garg之前是Uber的機器學習工程師,2023年離職創業,種子輪拿了約400萬美元。對比蘋果每年200億美元的研發預算,這個數字可以忽略不計。
但小團隊的敏捷正在顯現優勢。AGI的模型迭代周期是兩周,每次更新都基于真實用戶的操作錄像(經脫敏處理)。Garg給我看了他們的"失敗案例庫"——目前積累了超過12萬個任務失敗樣本,涵蓋2000多種App界面變體。這些臟數據,是大公司流程里很難快速獲取的。
更關鍵的是產品定義權。AGI從一開始就不是"語音助手升級",而是"數字替身"。這個定位差異決定了技術路線的分歧:前者優化的是"聽懂率",后者優化的是"完成率"。Garg說他們的核心指標是"用戶完全脫手率"——即AI執行任務時,用戶不需要介入的比例。目前這個數字是34%,目標年底達到60%。
蘋果當然有能力追趕。但組織慣性是真實存在的:Siri團隊過去十年換了四任負責人,戰略方向從"知識圖譜"到"端側智能"搖擺不定。而AGI這樣的創業公司,All in一個賭注,沒有歷史包袱。
我問Garg有沒有被收購的打算。他笑了:"每個禮拜都有人來問。但你看,我們剛和高通達成了獨家合作,這本身就是在說'我們想自己玩'。"
這場競賽的終局可能不是誰消滅誰,而是兩條路徑的分化。Android陣營在AGI這類第三方Agent的推動下,可能更快實現"AI即操作系統"的愿景;蘋果則會在封閉生態內打磨更精致、但更受限的體驗。用戶的選擇,將取決于他們更信任"能幫我搞定一切的AI",還是"不會搞砸一切的AI"。
WWDC倒計時兩個月。Garg說他已經訂好了機票,"去看看對手怎么出牌"。而我想問的是:當Siri終于學會自己點屏幕的時候,你還會記得那個在Android上先跑起來的20人團隊嗎?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.