你有沒有想過,如果某一天你說一句話,手機就能自己去打開美團、找到你最愛的咖啡店、選完口味、點好飲料、用優惠券結賬。從今天開始你就可以做到了,這就是AutoGLM 2.0登場的時刻。
![]()
這一杯,也是我喝到的AI為我點的第一杯咖啡。
從年初的Manus開始,我們已經被太多太多的Agent概念轟炸了,他們為你做PPT、寫代碼、分析數據,是你實實在在的生產力助手。
上周受邀去體驗智譜更新的AutoGLM 2.0之后,我立刻看到了這是個不一樣的Agent,它不止于此,它也不是僅給你提供情緒價值的聊天機器人。而更像是一個配備了手機和電腦的生活/工作全能助理的角色。
![]()
其實,早在去年10月份,智譜就發布了全球首個phone use產品AutoGLM,但是當時我沒體驗上。因為當時他們的產品形態是讓Agent直接去操縱使用手機。只有安卓手機可以做到這一點,以及,我多少覺得讓AI來接管自己的手機,并且在AI使用手機進行操作的時候自己還只能干瞪眼看著,多少有些奇怪~
而這次,AutoGLM 2.0我覺得是真的找到了合適的Agent形態,不管是蘋果還是安卓手機的用戶都可以用這個產品了,而且,你并不需要交出你自己手機的使用權。
就像當你讓助理給你點杯咖啡的時候,他也不會非要拿著你手機去點單一樣。
在2.0版本中,智譜為AutoGLM分配了一臺「云手機」和一臺「云電腦」,分別用于適配你的生活和生產力場景,而智能側驅動云手機和云電腦運行的則是他們最新的在Coding和Agentic方面表現出色的模型GLM-4.5 和具有視覺理解能力的GLM-4.5V。
花叔前段時間也寫過關于GLM-4.5的介紹:
關于為什么使用「云手機」,以及關于模型,我都有挺多想說的。
不過,先給大家看看這杯咖啡是怎么點的

從動圖中可以看到,在我表達需求之后:
AutoGLM先做了一次思考,理解我的需求并規劃了執行步驟。
接著,AutoGLM打開云手機開始執行,它實際的操作包括:
1)打開「美團」app
2)搜索「星巴克」
3)在星巴克店鋪搜索「美式咖啡」
4)在彈出的菜單選項中,按我的要求選擇了「超大杯」和「冰」這兩個選項
然后,在需要付款的環節,它放棄了操作,把進程還給我來接管了,讓我完成最終步驟的確認。
大致是出于風險控制的考慮,AutoGLM還不會實際執行最終「付款」的那一步,需要人類來做最后的操作和確認。
為什么是「云手機」?
為什么一定要讓模型來操作手機?這應該是很多人會有的疑問。為什么不是通過API調用或者MCP的方式去執行操作?
畢竟不管是點外賣、打車還是在淘寶/京東搜商品,似乎都是可以和這些大廠有API合作的模式,讓AI理解用戶意圖,然后通過API Call或者MCP的方式和這些產品交互理論上是更標準化,執行風險更小的交互。
確實如此。
但,我突然意識到,如果通過API調用的方式去執行任務的話,那就太標準,但太受限了。你可以接10家、20家的API,但是AI所有的操作會被局限在API局限的范圍之內。
因為人類在用手機,在用app。所以想讓一個產品變得通用,最好的方式就是讓這個產品可以模擬人類的方式,用人類的運行環境進行操作。
這也很像現在機器人領域的「人型」爭議,為什么非要做兩條腿的人型機器人?為什么不是更穩定的四條腿?為什么不是把腿做成移動速度更快的輪胎?因為現在的物理世界是為兩條腿兩只手、1米多身高的人類所準備的,所以機器人想適應人類社會,希望能更「通用」地為人類提供服務,那「人型」會是最正確的選擇。
而現在,人類的內容,服務都是通過手機+app的形態分發的,所以一個合格的「通用」的人類助理,需要具備一個手機,擁有操作手機的能力。
以及,這個「手機」又必須是個「云手機」才行。你并不希望一個AI可以隨便查看和操控你的手機,發出一條指令后,如果自己的手機被AI接管,你就沒法用了的情況挺傻的。
而且,你也不希望AI在你的手機上執行各種可能導致風險的操作。比如給xxx發個微信、比如刪掉某張照片。
所以這么一臺云手機確實是現階段實現通用手機Agent的最佳,或者說唯一正確的選擇。
為什么GLM-4.5很關鍵?
我認為AutoGLM 2.0另一個值得一提的點是他們背后使用的模型完全是他們自研的,純國產的GLM-4.5和GLM-4.5V。
現在很多我們熟知的Agent產品,比如Manus、Genspark等,背后所使用的模型主要是Claude,因為Claude的Agentic和Coding能力確實很強。但這導致的一個問題是因為模型的緣故,這些產品沒法在國內正常使用,只能做出海的市場。
而最近幾個月,國產開源大模型在Agentic能力上都逐步追上了。這讓AutoGLM這款可以面向所有國內所有用戶發布和使用的Agent產品成了可能。
我之前在介紹GLM-4.5的文章里也提到過,他們在API價格比Claude 4低了一個數量級。這也讓AutoGLM這樣的產品在成本上變得更可負擔。據說他們執行一次任務的成本在0.2美元左右,遠低于現在絕大多數主流的Agent產品。
再給大家看幾個我測試的案例:
1)讓AutoGLM打開我B站最新的視頻并點贊、收藏,ta是真一步步幫我打開了我最新一期上傳的視頻
2)讓AutoGLM為我用滴滴叫一個去朝陽公園的「特惠快車」,車型的選擇很準確
3)除了生活類的場景,AutoGLM用云電腦跑工作需求也是有點東西的,我讓AutoGLM幫我搜索了解GPT-5的信息,制作視頻發布到小紅書。ta還居然給我做出了個虛擬人口播視頻出來,并且在小紅書順利完成了視頻上傳和標題、正文內容的填充。如果能再個性化優化優化,比如可以設定自己的虛擬人和口播文案的話,一套成熟的自媒體自動化工作流就出來了。
如果你想試試AutoGLM 2.0的話,這還有一些事實和小tips:
1、目前AutoGLM的云手機內置了20多款主流app,但還不能自主下載其他app,所以你只能執行和這些app相關的任務。這些app包括抖音、小紅書、淘寶、支付寶、高德地圖、快手、美團、大眾點評、滴滴、京東、攜程、微博、拼多多、肯德基、今日頭條、番茄小說、B站、愛奇藝、騰訊視頻等。
2、要執行某個類型的app任務前,你最好提前操作接管手機并且登錄賬號,畢竟AI確實不知道你的賬號密碼(你也不想讓AI知道)。順便提一句,現在AutoGLM的賬號登錄邏輯是你可以自主在云手機上登錄,APP本身沒有直接訪問權限,智譜也不會在云端收集用戶名或密碼信息。云端的基礎設施與安全會由他們的公共云伙伴提供,操作上我倒是沒太大顧慮。
3、最好把執行的任務表述得更具體,比如我讓AutoGLM從「用美團外賣點星巴克」,如果不提美團外賣的話,AutoGLM可能會選擇餓了么,那又會遇到要在餓了么登錄的問題。除非你確實沒有偏好,或者希望AI比價后再下單。以及想要喝什么、杯形、冷熱選擇、糖度選擇都最好明確表達(說實話,這塊我還挺期待AutoGLM能在我逐步使用之后記住我的偏好,能更主動幫我做出更個性化選擇的)
4、你也可以試試需要多個app配合的任務,比如在你準備騎車前,可以讓AutoGLM“打開QQ音樂播放新褲子樂隊的音樂,再打開高德地圖規劃到后海的騎行路線”,然后你就可以帶上耳機,騎上車出門了。
5、AutoGLM包含安卓和iOS版的移動端應用和網頁版,手機應用去各大應用市場下載就好了,網頁版指路https://autoglm.zhipuai.cn/
謝謝你讀到這,歡迎關注、點贊、轉發、評論,這是對我內容最大的支持~
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.