網易首頁 > 網易號 > 正文申請入駐

蘋果憋了3年的大招，被1個20人團隊截胡了

2026-04-05 14:06:24　來源: 摸魚算法

北京舉報

分享至

去年全球手機用戶每天解鎖屏幕96次，平均每次只停留2分47秒。我們花了太多時間在App之間跳來跳去，卻沒人想過：如果手機能自己操作自己呢？

AGI Inc.這家公司做到了。他們的同名App目前在私人測試階段，是全球首個能在設備端運行的智能體（Agentic AI）——不是聽你指揮，而是替你動手。創始人Div Garg告訴我，他們的目標很簡單：讓AI像人類一樣使用手機。

這和Siri那種"打開微信"的語音指令完全不同。AGI能看懂屏幕，理解上下文，然后真的去點按鈕、填表單、發消息。Garg給我演示時，我腦子里只有一個念頭：這就是iOS 27上那個"聊天機器人式Siri"應該有的樣子。

從語音助手到"數字替身"：中間隔了多遠

現在的Siri、Google Assistant、Alexa，本質上都是語音搜索引擎。你說"設明天早上7點的鬧鐘"，它聽懂關鍵詞，調用系統API，完成動作。這套邏輯用了十幾年，瓶頸也很明顯——它只能做開發者預先寫好的事。

AGI的突破在于視覺理解+動作執行。它的AI會截圖分析當前界面，識別可交互元素，然后生成點擊、滑動、輸入的操作序列。Garg打了個比方：傳統語音助手是"遙控器"，AGI是"手"。

我實際測試了幾個場景。讓AGI在Instagram上找到上周點贊過的照片，它自己打開了App，滑到個人主頁，點進"你贊過的內容"，篩選時間范圍，全程沒讓我碰屏幕。整個過程用了23秒，比我手動操作慢一些，但我完全不需要知道這個功能藏在哪。

另一個測試更復雜：在Spotify里創建一個新歌單，加入最近30天播放超過5次的歌曲，然后分享給特定好友。AGI花了1分12秒完成，中間還處理了兩次彈窗權限請求。出錯了一次——它把"播放次數"理解成了"收藏次數"——但在我口頭糾正后重新執行，最終成功。

Garg承認準確率還在打磨。目前復雜任務的一次成功率約67%，多輪對話修正后能到89%。"我們不是在追求100%完美，"他說，"而是在追求'足夠好用，讓你愿意等它學會'"。

為什么偏偏是Android先跑通

這里有個反直覺的事實：AGI選擇先在Android上線，不是因為技術偏好，而是蘋果生態的封閉性逼的。

Android的輔助功能（Accessibility Service）允許App讀取屏幕內容并模擬點擊，這套API原本是給視障用戶設計的。AGI團隊發現，這是實現"AI操作手機"的最短路徑。Garg說他們在iOS上做過嘗試，但"連截圖權限都要層層申請，更別說模擬觸摸了"。

高通嗅到了機會。今年MWC上，AGI宣布與驍龍平臺深度合作，針對NPU（神經網絡處理器）做端側優化。Garg給我看了組數據：在驍龍8 Gen 3上，AGI的屏幕分析延遲從云端方案的1.2秒降到180毫秒，功耗降低76%。這意味著AI可以持續"看著"你的屏幕，而不是每次操作前都要聯網等響應。

這對蘋果是雙重刺激。一方面，AGI證明了對設備有深度控制權的AI體驗確實更優；另一方面，高通的芯片+AGI的軟件，正在Android陣營構建一個蘋果短期內難以復制的護城河。

我注意到一個細節：AGI的隱私協議寫得格外謹慎。所有屏幕分析都在本地完成，云端只接收脫敏后的操作日志用于模型改進。Garg說這與"某些公司的商業模式根本沖突"——他沒點名，但顯然在暗指依賴廣告精準投放的巨頭們。

Siri的翻身仗，蘋果準備怎么打

Mark Gurman的爆料已經勾勒了iOS 27的輪廓：Siri將變成"聊天機器人式體驗"，支持多輪對話，能處理更復雜的請求。但蘋果沒說的是——它能不能像AGI一樣，真的去點屏幕上的按鈕？

從現有技術儲備看，蘋果有兩張牌。一是Apple Intelligence的端側模型，已經在iOS 18上實現了本地圖像理解和文本生成；二是Screen Awareness API，開發者可以用它讓App"看見"其他App的內容。但把這兩者拼接成"AI操作手機"，中間還缺關鍵一環：系統級的輔助功能權限。

這是蘋果最糾結的地方。開放深度系統權限，意味著安全風險陡增；不開放，Siri就永遠是"建議你去設置里找找"的旁觀者。Garg的判斷很直接："蘋果要么在iOS 27上打破自己的安全架構，要么接受Siri繼續落后一代。"

我傾向于認為蘋果會走中間路線。WWDC上我們可能會看到"有限制的設備操作"——比如Siri可以在蘋果原生App里執行多步驟任務，但第三方App的深控操作仍需用戶手動確認。這樣既展示了能力，又把風險關在籠子里。

但用戶體驗的代差可能就此拉開。AGI在Android上已經能跨App串聯操作，而蘋果的"圍墻花園"策略，在AI時代反而成了枷鎖。一個Instagram用戶想"把昨晚拍的照片發到Twitter并@攝影師"，在AGI上是一句話的事，在Siri上可能是"打開照片-選擇-分享-選擇Twitter-輸入文字"的漫長引導。

20人團隊 vs 萬億巨頭：這場不對稱戰爭

AGI Inc.目前全職員工不到20人。Garg之前是Uber的機器學習工程師，2023年離職創業，種子輪拿了約400萬美元。對比蘋果每年200億美元的研發預算，這個數字可以忽略不計。

但小團隊的敏捷正在顯現優勢。AGI的模型迭代周期是兩周，每次更新都基于真實用戶的操作錄像（經脫敏處理）。Garg給我看了他們的"失敗案例庫"——目前積累了超過12萬個任務失敗樣本，涵蓋2000多種App界面變體。這些臟數據，是大公司流程里很難快速獲取的。

更關鍵的是產品定義權。AGI從一開始就不是"語音助手升級"，而是"數字替身"。這個定位差異決定了技術路線的分歧：前者優化的是"聽懂率"，后者優化的是"完成率"。Garg說他們的核心指標是"用戶完全脫手率"——即AI執行任務時，用戶不需要介入的比例。目前這個數字是34%，目標年底達到60%。

蘋果當然有能力追趕。但組織慣性是真實存在的：Siri團隊過去十年換了四任負責人，戰略方向從"知識圖譜"到"端側智能"搖擺不定。而AGI這樣的創業公司，All in一個賭注，沒有歷史包袱。

我問Garg有沒有被收購的打算。他笑了："每個禮拜都有人來問。但你看，我們剛和高通達成了獨家合作，這本身就是在說'我們想自己玩'。"

這場競賽的終局可能不是誰消滅誰，而是兩條路徑的分化。Android陣營在AGI這類第三方Agent的推動下，可能更快實現"AI即操作系統"的愿景；蘋果則會在封閉生態內打磨更精致、但更受限的體驗。用戶的選擇，將取決于他們更信任"能幫我搞定一切的AI"，還是"不會搞砸一切的AI"。

WWDC倒計時兩個月。Garg說他已經訂好了機票，"去看看對手怎么出牌"。而我想問的是：當Siri終于學會自己點屏幕的時候，你還會記得那個在Android上先跑起來的20人團隊嗎？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.