![]()
字節正和多家手機廠商談合作。
文丨賀乾明
“對比一下京東、美團外賣、淘寶上的肯德基香辣雞腿堡哪個更便宜,選價格最低的下單,送到三里屯 SOHO A 座的地址,下單的時候備注 ‘放前臺’,下單后把訂單截圖微信上發給小明,告訴他外賣點完了。”
整個過程,只有付款階段需要人工介入,其他操作全部由 AI 在后臺自動完成。

12 月 1 日,字節發布豆包手機助手預覽版。這是一個面向手機廠商的系統級服務,它將豆包大模型深度融入操作系統,讓用戶只需動嘴(或動一下手指),就能指揮手機去執行那些原本需要點擊幾十次屏幕的繁瑣操作。
我們第一時間拿到了豆包與中興合作開發的搭載豆包手機助手的手機,挑選數十個日常場景,測試了其能力。
作為預覽版,它還有一些不足,但確實提供了與市面量產手機截然不同的交互體驗,相對流暢地實現了不少手機廠商曾在發布會上描繪過、卻難以落地的設想。
豆包手機助手的主力研發團隊,是字節負責 AI 硬件的 Ocean,它隸屬于字節 AI 產品大部門 Flow,主要成員來自字節多年來先后收購的一些硬件產品團隊,如錘子手機、VR 頭顯 PICO、智能耳機 Ola Dance 等,以及近年加入字節的手機、硬件從業者。
這款豆包與中興合作的手機已在豆包手機助手官網及中興商城上架,售價 3499 元。我們了解到,這款手機只是豆包手機助手的 “打樣”。字節正和多家手機廠商談合作。
跨平臺比價點外賣、搜小紅書做攻略,像人一樣操作手機
豆包手機助手最大的突破,在于它是一個 Agent(智能體)。它不僅提供信息,還能跨應用執行復雜操作。
它有系統級的操作權限,能夠識別手機屏幕上的 UI 元素,配合豆包大模型的能力,可以理解用戶需求,然后模擬點擊、滑動和輸入等動作,像人一樣去操作手機中的應用。
外賣大戰中,淘寶、美團和京東投入千億元資金補貼。它們的側重點不同,同一門店、同一餐品的價格在不同平臺會有差異。如果想極致地薅羊毛,每次點外賣都要打開三個應用、搜索,挨個對比價格。
這個活可以交給豆包手機助手干,告訴它 “幫我看看京東秒送、美團外賣、淘寶閃購上的肯德基吮指原味雞哪個更便宜。”
它會在后臺自動打開美團外賣,搜索肯德基,找到商家,進去搜索吮指原味雞,找到后記錄價格信息。

然后它切到京東,點擊秒送頁面,搜索 “肯德基 吮指原味雞”,直接收集在搜索結果頁面顯示出來的價格信息;最后跳轉至淘寶,點擊閃購頁面搜索商品,獲取信息。

在這個過程中,你同樣可以拿著手機刷抖音、回微信或者做其他事情。最后,豆包手機助手會發送一個簡報,列出幾個平臺上肯德基吮指原味雞的價格和結論:兩塊裝的吮指原味雞,京東秒送的到手價 14 元最低。

找到最便宜的外賣平臺后,你可以讓豆包手機助手幫忙下單。等到最后付款的時候,它會讓你手動操作。

如果你信得過它,也可以讓豆包手機助手一次性完成比價、寫備注下單的流程。
類似的,你可以讓它 “去小紅書上多搜索幾篇北京到大同的旅游攻略,根據這些內容,整理出一個周五晚上出發、周日晚上返回的方案”,然后讓它在微信上發給朋友,問問意見。
它會像人刷小紅書那樣,去搜索北京到大同的周末旅游攻略,挑點贊高的帖子看,先左右滑動看圖片,然后再上滑看文字信息。

然后它會把小紅書上收集到的信息,整理成一個大概的方案,打開微信發送給你指定的朋友。

或者讓豆包定時執行任務:“7 點的時候看一下微博熱搜,截個圖存到備忘錄里”。到時間之后,它會在后臺打開微博,找到微博熱搜頁面,把它截圖,然后打開手機備忘錄,上傳到里面。同樣,你也可以讓它每天定時去滴滴里面領優惠券。

現在的豆包手機助手,不是每次都能完美執行任務。不過我們發現豆包手機助手有比較強的 “糾錯機制”,能讓任務執行下去。
比如我們讓它點完外賣,把訂單截圖發給朋友。在這個任務中,它點完外賣,就被彈窗困住了。剛開始,它嘗試關掉彈窗,結果進入另一個頁面,退出時又觸發另一個彈窗。它沒有直接報錯,或者提示讓我們接管,而是反復嘗試 50 秒,最終找到了查看訂單頁面。

專屬按鍵和語音隨時喚起,提取屏幕信息回答問題
這款搭載豆包手機助手的設備,在機身左側配備了一顆獨立的、專屬的物理按鍵。
不論你是刷抖音、回微信,還是手機處于鎖屏狀態,按下這個按鈕,豆包手機助手會以 “疊加層(Overlay)” 的形式出現——它是一個半屏卡片或懸浮氣泡,不打斷當前正在進行的 app 進程。
豆包手機助手有 “屏幕感知” 能力。你在微信上與朋友聊天,看到朋友發來一句 “這周末又得加班,好煩啊”,不知道怎么回復,可以讓豆包安慰朋友。
按下側邊鍵,豆包會自動讀取當前的聊天記錄上下文,據此自動生成回復內容——你不需要復制粘貼,點擊確認后,它會直接發過去。

它不只能提供言語上的安慰,還能上手幫朋友處理工作。比如朋友發來語音,配上了一張圖片。
按下按鈕,你可以讓豆包手機助手看朋友說了什么,幫他解決問題。它把語音轉成文字,提煉出需求:“朋友的老板讓把圖片中的鞋子顏色改成藍色的”。
接著它自動執行操作:先嘗試用微信自帶的圖片編輯功能改色,發現不行,便把圖片保存下來,打開豆包 app,發送圖片請求改色,最后把改好的圖片存下來,通過微信回給朋友。

物理按鍵也能讓你迅速喚出豆包的不同形態。按兩下,可以調出豆包語音通話,讓它給你講冷笑話或陪聊;或者調出視頻通話功能,讓它幫忙看面前的植物是什么,是否需要澆水。
在設置中,你可以將 “按兩下” 定義為調出豆包相機,拍一張凌亂的工位照片,讓它給出整理建議。它會分析圖片中有哪些東西,規劃出方案。

你刷手機看到有價值的信息,可以按這個特定的實體按鍵與音量加鍵,把它存下來,供豆包處理任務的時候參考。這是豆包手機助手全局記憶功能的一部分。
除了手動記憶,你也可以授權讓豆包獲取特定 app 中的收藏內容,自動記憶喜好,以便后續提供個性化的回應。比如它記住你常用的地址后,點外賣時就不會經常讓你確認地址了。
當然,你也可以用語音喚出豆包手機助手,完成以上提到的所有任務。
語音交互在一些場景下更方便。比如你開車的時候,朋友發來消息問 “到哪了”,你可以喊豆包幫你回復:路上有點堵,要晚 10 分鐘才能到,讓他稍微等一會兒。它會自動打開微信,把你說的話轉成文字發送給朋友。

能力還需提升,但新的可能已經出現
豆包手機助手展現出的跨應用操作(Agent)等能力,在各大手機廠商的發布會 PPT 上屢見不鮮,但在實際量產的手機中,能夠落地并執行如此復雜鏈路的產品依然罕見。
最典型的例子是蘋果,他們 2024 年 6 月就全面介紹了系統級的大模型 AI 能力 Apple Intelligence,到現在還沒有完全兌現。
大模型的技術還在迅速發展,資源、算法和數據壁壘越來越高,僅靠手機廠商組建團隊自研,已經越來越難跟上節奏。
手機行業開始接受新的模式:與外部實力強勁的模型供應商合作。11 月初,有市場消息稱,蘋果打算每年花 10 億美元購買 Google 的 Gemini 模型服務,用來強化 Siri 助手。在此之前,三星等手機公司也選擇與 Gemini 深入合作。
豆包手機助手與中興等廠商的合作,也是這一新模式的體現:模型公司提供能力領先的模型,手機廠商提供載體,共同為用戶提供交互更便捷、能力更強的 AI 手機體驗。
客觀來說,豆包手機助手還有提升空間。比如它打開各個外賣平臺比較肯德基吮指原味雞的價格,一共耗時 1 分 56 秒,比我們手動操作慢了將近一分鐘。畢竟它執行每一步動作,都要先理解屏幕信息。
它依靠讀取屏幕信息、模擬人操作手機的邏輯來工作,目前還不能合理地解決長尾需求。比如我刷抖音時,想讓它等到每個視頻播放完后、幫我上滑看下一個。它執行上滑的動作沒有問題,但無法識別出視頻什么時候播放完。
它解決問題的范圍,也受限于底層大模型的能力。比如它不能在你用手機下象棋或斗地主的時候當軍師,實際水平還比不上新手。
我們讓它對比三家外賣平臺的肯德基價格時,如果不指定 “淘寶閃購”,它有時會在淘寶里搜索 “肯德基 吮指原味雞”,最后給一個代下單商品的價格。
底層模型能力的持續迭代能解決一部分問題。字節還在吸引第三方開發者將服務和應用集成到豆包手機助手。這能讓豆包手機助手獲得應用級別的底層權限,解決剩下的多數問題。這必然是一個充滿挑戰的過程,說服應用開發者開放權限普遍困難,說服大型互聯網公司則更難。
一種新可能被擺了出來:用手機處理復雜的跨應用任務時,人可以不用緊盯屏幕、一步步上手操作。就像掃地機器人一樣,它掃得沒有人干凈,也沒有人快,但它有希望解放人的時間。
題圖來源:晚點
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.