![]()
作者 | 駱軼航
郵箱 | tluo@pingwest.com
12月1日,豆包手機助手上線。
它偷了螞蟻森林能量,成功了;它在 B 站答題領會員,全程自動操作;有人讓它“把昨天拍的照片在微信上發給我媽”,搞定了。
不到兩天,它就被微信屏蔽了。支付寶、淘寶、美團等等,隨即先后屏蔽了豆包手機助手打開它們的 App。
風波未平,AI 創業公司智譜又上場了。12月9日深夜,智譜開源了 AutoGLM,口號響亮:“讓每臺手機都成為 AI 手機,AI 手機不該掌握在少數廠商手中”,拉高了一波 AI 手機概念股。
在一文中我說過:接下來你會看到更多的“手機助手” 試圖打開你的微信、抖音和支付寶。沒想到這么快就來了。
豆包手機助手的興奮感已經傳到了大洋彼岸,有開發者在 X 上說:“這是我見過第一個真正能用的 AI 手機助手,不是 Siri 那種‘幫你設個鬧鐘’的玩具級功能,是真的能跨應用完成復雜任務鏈。”
它展示了一個強大的 GUI Agent 的真正潛力——不需要 App 開放 API,Agent 直接“看”屏幕理解界面;不需要人工訓練每個 App 的操作路徑,Agent 自主學習,跨應用無縫切換,完成一個完整任務鏈。
難怪 X 上也有評論說:“這是 iPhone 問世以來,手機交互方式最大的一次革命”。
豆包手機助手證明:GUI Agent 作為一種產品形態,是成立的,用戶需求也是真實的,搭載了豆包助手的Nubia M153 工程機在閑魚上的熱銷,超過 99% 天天上播客和 demo day 的 AI 創業項目。
而智譜 AutoGLM 的開源,在豆包把市場教育完,也把雷點踩完之后,以“開源英雄”的人設,收割了一把關注度和認知。
它用了一種更“高明”的辦法:ADB +視覺識別方案,在“云手機”的虛擬環境里操作,操作手機的方式更隱蔽,它無需獲得更高級別的手機系統權限,模擬的是人類用手指點擊屏幕的行為,平臺風控很難區分是真人還是 AI。
AutoGLM 還借此享受了一把開源的聲譽紅利,但不用承擔任何產品的法律風險——用戶怎么部署是他們的事。問題是:配置ADB、開發者模式、部署 9B 的推理模型,這事兒普通人是搞不定的。閑魚上已經有人賣“100元代部署AutoGLM 服務”了。
恕我直言,我覺得智譜 AutoGLM 開源對推動智能手機的 AI 化意義相當有限。
比起豆包是真的想讓一部分人先用上一部“AI 原生” 的手機,AutoGLM 更多的是秀了一把肌肉,收割了一波注意力,以及提供了一種看似目前可以繞開微信、支付寶和美團們“封禁”,然則終將被堵上的技術漏洞。現在已經有開發者出來報錯了:自己部署的 AutoGLM,被微信封了。
該沒解決的問題,一個也沒解決。Super Agent 和 Super App 之間的關系,一點兒也沒理順。
一句話,AI 手機怎么搞,需要產業的廣泛共識,需要 Super Agent 和 Super App 之間的共識。
中國移動生態太發達了,互聯網巨頭們圍繞著 App 建立起來的流量、護城河、生態和利益太豐富了,它已經成為了推動手機 AI 化的 legacy ——打破任何一點現在的格局,都讓巨頭們難受。
但該來的,還是要來。
1
第一個問題:能不能有 AI Agent 認證體系?
豆包助手暴露的問題是:努比亞授權了 AI 能用系統級權限,但 App 廠商不認。
中間缺少的環節是:誰能授權 AI 操作第三方 App?
模擬用戶的點擊、滑動、輸入,是豆包從努比亞獲得的授權。從技術角度看,這是手機操作系統賦予的合法能力。但微信的用戶協議明確禁止“外掛軟件”,任何模擬用戶操作的行為都屬于違規。
這個時候,為什么不能有一個“ AI 代理操作認證體系” 呢?就像網站有 SSL 證書證明身份和安全性,AI Agent 為什么不能有一個“可信代理”認證體系呢?
至少,它能解決三個問題:第一,證明AI的身份——誰家的 AI,什么技術架構;第二,證明AI的授權——用戶讓我干什么,授權范圍是什么,有沒有超出授權;第三,證明AI的安全性——不會亂來,有安全措施,有操作日志,有責任保險。
當年支付寶剛出來的時候,銀行也不舒服,覺得你憑什么代替我跟用戶交互?這是我的客戶,你憑什么中間過一道?后來,有了第三方支付牌照,問題就解決了。規則是:滿足這些條件,你就能做第三方支付;不滿足,就不能做。銀行可以對接,也可以拒絕,但是要有一套通行的依據。
同理,AI Agent 也需要這樣一個“代理操作認證” 體系,它未必是一張牌照,而是一套通行的技術標準。不是誰都能隨便模擬用戶操作,但只要你符合標準,通過認證,平臺就不能無理由拒絕。
別再爭了各位。美國人是最擅長制定這種技術共識標準的,我們達不成共識,最后就還得用 OpenAI 和 Anthropic 制定的標準。
1
第二個問題,能不能把最高權限交給用戶?
聊天記錄、支付記錄、打車訂單,所有權、使用權、授權權分別是誰的?
App 可以認為:用戶的數據在我平臺上,是我的資產。我投入了服務器、帶寬、運維成本,提供了免費服務,數據當然有我的權益。而且用戶協議里寫了,用戶授權我使用這些數據來改進產品、推送廣告。
用戶覺得:這是我的隱私,我的聊天內容,我跟朋友的對話,憑什么不能給我自己的 AI 看?我授權 AI 幫我整理聊天記錄、提取重要信息、提醒我未讀消息,這是我的權利。
AI 模型和 Agent 提供者認為:用戶授權了,我就可以讀取、分析、使用這些數據來提供服務。我不會泄露給第三方,不會用于訓練模型(除非用戶同意),我只是代表用戶行使他/她的權利。
這個時候,明確“數據所有權歸用戶” 的至高原則是非常重要的,它決定了一切用戶授權、AI 代理 和 App 安全防范機制的基礎。
這意味著以下幾點:
用戶在平臺上產生的內容、行為數據,歸根結底屬于用戶本人,平臺提供服務,但不擁有用戶的數據。
數據使用權可以授權,平臺有權使用數據提供服務(比如推薦算法、個性化廣告),這是用戶協議中約定的,但用戶也有權授權第三方 AI 使用數據,這兩個授權之間不應該沖突。
平臺有安全審查權,但不能無理由拒絕,如果 AI通過了認證,證明了安全性,就不該輕易被拒絕。
1
第三個問題,能不能重新創造商業模式?
Super Agent 動了 Super Apps 的蛋糕,這簡直是一定的。
因為人的瀏覽行為被 Agent 取代,推薦算法帶來的注意力機制會被顛覆。這樣,廣告收入會被影響,流量分發的收入來源也會被影響,甚至會員收入也被影響。
但 Super Agent 自己呢?如果它的存在只是削弱了平臺的收入,而自己的 GPU 算力、模型研發和優化等成本又居高不下,久而久之,無人從這場變革中受益,這個游戲就玩不下去了,就會變成雙輸或者多輸的游戲。
在這種情形下,重新想象和創造商業模式就是很重要的。
OpenAI 跟亞馬遜現在關系很緊張,但它與沃爾瑪的合作是一個不錯的例子。現在沃爾瑪 36% 的線上流量來自 OpenAI,盡管現在沒有聽說它們之間又什么分成計劃,但這件事不值得想象么?這就好比是搜索引擎的CPC(按點擊付費)模式:每一個通過 ChatGPT 引導到沃爾瑪的用戶,沃爾瑪付給 OpenAI 一筆費用。
再比如 Agent 的訂閱費用——如果 Agent 購物真的能給一個用戶每年省2000元人民幣的話,一個月收20元的訂閱費不過分吧?這筆錢,Super Agent 是應該分一部分給 Super Apps 的。就像愛奇藝的會員用戶可以付費跳廣告,YouTube 從訂閱費里分成給創作者,是一個道理。
此外,增值服務分層設計是不是可行?基礎功能免費,但限制次數,只能用于常規任務。如果用戶真的有強烈意愿,讓 Super Agent 操作微信自動回復、支付寶賬單管理、滴滴會員卡管理等高級功能的話,還是要為高級功能付費的——也就是執行復雜任務鏈、跨平臺操作,處理敏感信息私有信息,甚至企業定制化等高級功能,都得收錢,這個錢要跟 Super App 分成。
這個問題不解決,平臺就會一直抵制,這也是可以理解的。
1
第四個問題,能不能推廣沙盒確認和分級確認的安全機制?
把“我愛你”發給了男老板而不是女朋友,要轉100元結果轉了10000元,Agent 誤刪重要聊天聯系人,清理垃圾文件把重要工作文檔也刪了……這些事如果出現,責任是誰的?
很多人忽略了,AI 犯錯的成本,往往比人犯錯更高——因為 AI 操作速度快,一秒鐘能完成人需要一分鐘完成的任務,出錯了也是大規模出錯,人想挽回都做不到,標準的手慢無。
AI 被黑客了怎么辦?釣魚郵件和詐騙電話能騙人,就一定騙不了 AI?AI 一定比老頭老太太反詐意識更強?AI 在社交平臺發布不當內容,被封了號算誰的?AI 自己發現刷單能賺錢,用假賬號注冊能領紅包,它會不會自己學會作弊?AI 是通過學習優化的,如果它的目標是幫用戶省錢,作弊是最有效的方式,它真的不會作弊?
為了規避這些問題,類似“沙盒”的模式是重要的。目前豆包助手采用的方式先是預覽操作步驟,用戶確認后再執行,并在執行過程中實時顯示操作過程,這其實已經具備了沙盒思維了,它的本質是一種確認機制。
另一種方式是:AI 可以先在虛擬環境里“練習”,練熟了再上真機。敏感操作必須先在沙盒里預演,系統模擬執行,生成預覽結果,用戶看到“如果執行會發生什么”,確認沒問題后,才在真實環境執行。不需要人自己干,但需要人至少點一次確認。
在這個基礎上,建立分級確認機制也是可行的。不是所有操作都需要用戶確認,那樣太煩,用戶體驗會很差。根據風險等級設計確認流程:讀取信息無需確認;發消息和社交媒體等常規操作,彈窗簡單確認;支付、轉賬、修改密碼、保存和刪除數據,都需要人的多重驗證。
此外,用戶需要有隨時喊停 AI 的權力,一鍵中斷所有正在執行的操作。就像電梯的緊急停止按鈕。而 AI 發現異常也要自動停止——這些方面銀行和自動駕駛企業都已經做過了,AI Agent 服務提供者也應該做好。
一句話,讓用戶承擔全部風險是不對的。
豆包手機助手這次掀起的波瀾,如果說它真正有些意義的話,恐怕在于兩點:
第一,它告訴了人們:GUI Agent 可以成為真正的 Super Agent,它真的創造了手機上的一次交互變革,引發了興奮、爭議、喧嘩和騷動。讓人們知道,AI 真的可以跟你一起操作你的手機。
第二,比起很多智能手機廠商的 Agent 嘗試,它第一次直搗黃龍,代理一小撮追求技術進步的嘗鮮用戶,“操作”了他們的 Super App,比如微信、支付寶、美團和京東,讓如何建立 AI Agent 的產業標準,如何思考 App 這個存在了快20年的物種在 AI 時代該如何變革等一些問題,變得無可回避。
接下來,需要的是共識,以及為了建立共識而繼續的博弈。
點個“愛心”,再走 吧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.