![]()
用端云協(xié)同,讓手機(jī)智能體更聰明、更可控。
2026 年都到 2 月了,你要是還沒聽說過 Agentic AI,大概率不只是斷網(wǎng)這么簡單——更像是手機(jī)都丟了。
我自己算是從頭看著這波浪潮起來的。OpenClaw(當(dāng)時(shí)還叫 ClawdBot)火出圈那陣子,很多人第一次真正「看懂」了一件事:我們想象中的 AI Agent 時(shí)代,關(guān)鍵從來不在它能不能聊得更像人,而在它能不能把事辦完。
它能開瀏覽器、能點(diǎn)按鈕、能把一個(gè)原本需要你反復(fù)切 App 的任務(wù)拆成步驟,一路執(zhí)行到結(jié)束。你甚至?xí)谀硞€(gè)瞬間產(chǎn)生錯覺:屏幕那頭像真的坐著一個(gè)很熟練的實(shí)習(xí)助理。
與此同時(shí),自動化操作這股風(fēng),早就吹到手機(jī)上了。無論是豆包手機(jī)這類軟硬件形態(tài),還是各家手機(jī)大廠在系統(tǒng)助手上的「行動化」嘗試,本質(zhì)上都在做同一件事——把 AI 從對話框里拽出來,塞進(jìn)系統(tǒng)和 App 的縫里,讓它去完成那些「明明很簡單但就是很煩」的操作鏈路:打車、下單咖啡、生成文檔。
![]()
然而,單純的云側(cè)智能或單純的端側(cè)執(zhí)行,都有著各自難以逾越的「天花板」。
云側(cè)的 OpenClaw 擁有強(qiáng)大的推理能力,但它看不見你手機(jī)當(dāng)下的屏幕,不知道你此刻的地理位置,更不敢直接操作你本地的微信去發(fā)個(gè)紅包;而市面上常見的純端側(cè)助手,雖然能調(diào)用本地的數(shù)據(jù)和應(yīng)用,卻往往因?yàn)橛布懔ο拗疲诿鎸Ω邚?fù)雜、長流程任務(wù)時(shí)顯得「智商不夠用」。
移動端 AI Agent 的勝負(fù)手,早就不是「做云還是做端」的選擇題,而是如何把兩者的優(yōu)勢真正打通。近期,一家清華系團(tuán)隊(duì)「萬象智維」選擇用「小萬」切入市場,押注的正是這樣一套打通端云的能力體系:讓云端做「大腦」,負(fù)責(zé)復(fù)雜邏輯與規(guī)劃;讓端側(cè)做「手腳」,負(fù)責(zé)感知與最后一公里執(zhí)行。
01
不僅是「能動手」,
更是「分工明確」
在 AI Agent 的應(yīng)用場景中,設(shè)備的定位差異始終是制約體驗(yàn)升級的關(guān)鍵。電腦與云服務(wù)器是天生的效率工具,憑借 7×24 小時(shí)不間斷運(yùn)行的優(yōu)勢,擅長承載復(fù)雜計(jì)算與長期執(zhí)行類任務(wù)。而手機(jī)則是核心生活工具,沉淀著最細(xì)碎、最個(gè)人化的行為習(xí)慣和上下文數(shù)據(jù)。
傳統(tǒng)的思路是:要么把所有數(shù)據(jù)傳上云,但這面臨隱私和延遲的挑戰(zhàn);要么在端側(cè)硬跑大模型,但這會燒穿手機(jī)的電池和算力。
「萬象智維」的解法是「端側(cè) GUI + 云側(cè) CLI」的技術(shù)分工。
在「小萬」的產(chǎn)品架構(gòu)中,手機(jī)被定位為上下文的主要入口與執(zhí)行終端。它天然知道你是誰、你現(xiàn)在在什么時(shí)間和地點(diǎn)、你正在用哪些應(yīng)用。而云端的 OpenClaw 則發(fā)揮其復(fù)雜推理與多任務(wù)調(diào)度能力,負(fù)責(zé)長期運(yùn)行任務(wù)、系統(tǒng)級 API 操作等核心工作。
![]()
我們可以通過兩個(gè)真實(shí)的場景,來看看這種「端云協(xié)同」是如何比單一端側(cè)更聰明的:
場景一:復(fù)雜文檔的「端-云-端」接力
當(dāng)你收到一份幾十頁的技術(shù)文檔時(shí),單純的端側(cè)模型往往讀不懂深層邏輯,而單純的云端模型又無法直接操作你的本地 App。
在「小萬」的流程里,端側(cè) Agent首先接管,利用本地算力提取文檔的關(guān)鍵信息;隨后,任務(wù)流轉(zhuǎn)至云端,由 OpenClaw 進(jìn)行深度的邏輯梳理和摘要生成——這是手機(jī)本地算力難以企及的。最后,處理好的結(jié)論回傳至手機(jī),由端側(cè) Agent再次接手,詢問你是否需要「發(fā)送給同事」或「保存到筆記」,并直接調(diào)用微信完成發(fā)送。
用戶感知到的是一次流暢的服務(wù),但后臺其實(shí)發(fā)生了兩次「端-云-端」的職能交接。
場景二:基于感知的智能通勤
早晨醒來,端側(cè) Agent基于本地傳感器感知到「外面下雨了」,并讀取了你本地日程中「早晨 9 點(diǎn)有會」的信息。
這些上下文被脫敏后發(fā)送給云端,云端大腦迅速規(guī)劃出一條避開擁堵的打車方案,并決策出「需要提前出發(fā)」。
當(dāng)方案確定后,指令回到端側(cè)。此時(shí),「小萬」直接在手機(jī)本地喚起打車 App,自動填寫目的地、選擇車型,并停在支付確認(rèn)頁面等待你點(diǎn)擊。
![]()
這種「端側(cè)感知、云側(cè)決策、端側(cè)執(zhí)行」的高效協(xié)同模式,既規(guī)避了純端側(cè)智能能力不足的短板,也解決了純云端智能缺乏場景感知和隱私顧慮的痛點(diǎn)。
02
真正解決的難點(diǎn):
算力、成本與隱私
從 Demo 走向?qū)嵱茫欢〞龅揭欢延矄栴}。先說最現(xiàn)實(shí)的:成本與效率。
把智能體裝進(jìn)手機(jī)聽起來很容易,但現(xiàn)成方案沒法直接照搬。高頻調(diào)用的日常場景里,Token 成本繞不過去;手機(jī)端還要算清楚內(nèi)存、功耗、溫度、延遲。你可以在云端把模型堆得很大,手機(jī)端必須把每一次 Token、每一次訪存、每一次調(diào)度都算明白。
哪怕是 OpenClaw,也會瘋狂消耗大模型服務(wù)的 Tokens。不少網(wǎng)友在社交媒體吐槽賬單太夸張,很多專業(yè)用戶一天就能跑出數(shù)百美元。如果讓手機(jī)里的每一個(gè)小動作都去問一遍云端大模型,這在商業(yè)上是跑不通的。
「萬象智維」給出的路徑,是算法與系統(tǒng)的深度協(xié)同優(yōu)化,重點(diǎn)做了兩件關(guān)鍵技術(shù)工作。
首先,是對端側(cè)推理框架的「極限壓榨」。
既然是協(xié)同,端側(cè)就不能太弱。「萬象智維」開發(fā)了一套名為「OmniInfer-VLM」的框架,旨在榨干手機(jī) NPU 的性能。數(shù)據(jù)顯示,在不犧牲精度的前提下,該框架能讓多模態(tài)推理速度相對傳統(tǒng) CPU 方案提升接近 20 倍。
![]()
這意味著,像屏幕識別、OCR 提取、簡單的意圖判斷這些高頻操作,完全可以在本地毫秒級完成,無需聯(lián)網(wǎng),既快又省。
在此之上,是以「行為」為核心的記憶系統(tǒng)。
并不是所有任務(wù)都需要「思考」。現(xiàn)實(shí)中,我們每天的點(diǎn)咖啡、打卡路徑是高度重復(fù)的。每次都從零推理不僅慢,也更容易出錯。
團(tuán)隊(duì)引入了一套記憶系統(tǒng),將用戶的高頻操作路徑抽象成數(shù)學(xué)模型記錄在本地。當(dāng)你第十次點(diǎn)同一種咖啡時(shí),系統(tǒng)不再需要云端的大腦重新推理「怎么點(diǎn)」,而是直接調(diào)用本地的行為記憶,進(jìn)行自動化執(zhí)行。
這不僅讓執(zhí)行速度更快,更重要的是,它大幅減少了對昂貴云端算力的調(diào)用次數(shù)——據(jù)測算,這種機(jī)制能讓平均推理延遲降低約 1.49 倍。
此外,還有隱私的「護(hù)城河」。
在 Agent 時(shí)代,隱私不僅是數(shù)據(jù),更是行為。相比于部分方案將每一幀截屏都上傳云端進(jìn)行分析,端云協(xié)同架構(gòu)提供了一種折衷的安全性:敏感的上下文(如微信聊天記錄、支付密碼頁面)始終保留在端側(cè)處理;只有經(jīng)過脫敏、任務(wù)需要的抽象指令才會發(fā)往云端。這雖然無法做到 100% 的物理隔絕,但相比純云端接管,它在架構(gòu)上為用戶保留了數(shù)據(jù)的「所有權(quán)」。
![]()
03
落地與生態(tài):
清華系團(tuán)隊(duì)的工程化答卷
AI 硬件需要的是一種低算力、但在高頻場景下仍然足夠順的解決方案。想走到日常使用,總要面對一個(gè)現(xiàn)實(shí):算力不可能無限,體驗(yàn)卻必須夠穩(wěn)。
目前,這套方案已經(jīng)不僅僅停留在 PPT 上。根據(jù)產(chǎn)品信息,「小萬」目前已實(shí)現(xiàn)了端側(cè)持久化的上下文記憶,在完全依靠端側(cè)自身算力配合云端調(diào)度的條件下,支持約 40 款主流應(yīng)用,覆蓋約 150 個(gè)場景任務(wù)。無論是打車、消費(fèi)、支付等日常任務(wù),還是規(guī)劃相關(guān)日程,都可以通過「小萬」來完成。
![]()
這組數(shù)字雖然不能等同于「全能 Agent」,但卻勾畫了一張清晰的工程化路線圖:先把高頻、可驗(yàn)證的任務(wù)做扎實(shí),再把覆蓋面鋪開。
而在部署上,「萬象智維」同樣把「本地化」當(dāng)成核心能力設(shè)計(jì):「小萬」的端側(cè)任務(wù)主要利用手機(jī)本地算力完成;云側(cè)會為每位用戶開設(shè)獨(dú)立的虛擬云服務(wù)。對有本地部署需求的企業(yè)用戶,他們還提供了本地化部署 OpenClaw 的方案,通過 API 無縫接入「小萬」,進(jìn)一步降低隱私顧慮。
這套成熟的工程化打法背后,是雄厚的技術(shù)積累。「萬象智維」依托清華大學(xué)端智能研究團(tuán)隊(duì)孵化成立,核心團(tuán)隊(duì)在清華大學(xué)計(jì)算機(jī)系任炬副教授與清華大學(xué)智能產(chǎn)業(yè)研究院李元春助理教授的長期指導(dǎo)下,在端側(cè)模型輕量化與高效推理領(lǐng)域有著扎實(shí)積累。公司成立后首輪融資便獲得來自星連資本領(lǐng)投的數(shù)千萬元天使輪投資,也側(cè)面印證了行業(yè)對其技術(shù)路線的認(rèn)可。
04
未來:從人機(jī)交互到
Agent-to-Agent
如果說 OpenClaw 讓我們看到「Agent 可以動手」的可能性,那么「小萬」更像在回答另一個(gè)問題:當(dāng)動手發(fā)生在更多形態(tài)的端側(cè)設(shè)備上,智能體還能不能把事辦完,并且辦得讓人放心?
未來的端側(cè) AI,或許不會局限在手機(jī)這一個(gè)形態(tài)上。眼鏡、手表、甚至是未來的新型終端,它們本質(zhì)上都是一個(gè)個(gè)「端側(cè) Agent」。它們各自擁有不同的傳感器和執(zhí)行能力(有的能看,有的能跑),而云端則是一個(gè)通用的「超級大腦」。
「萬象智維」正在構(gòu)建的,正是連接這兩者的中間層——Agent-to-Agent 的交互網(wǎng)絡(luò)。
在這套網(wǎng)絡(luò)中,任務(wù)不再被綁定在某一臺設(shè)備上,而是由云端統(tǒng)一規(guī)劃,分發(fā)給最合適的端側(cè)設(shè)備去執(zhí)行。移動端 AI 的「動手時(shí)代」已經(jīng)開場。真正的分水嶺,或許不在于誰的模型參數(shù)更大,而在于誰能用最工程化的手段,把聰明(云)和靠譜(端)真正結(jié)合在一起,解決那些用戶每天都要做、又最怕出錯的瑣事。
*頭圖來源:萬象智維
本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請聯(lián)系極客君微信 geekparkGO
極客一問
你如何看待未來的端側(cè) AI?
Sam Altman:Moltbook 或?yàn)橐粫r(shí)狂熱,但 OpenClaw 絕對不是。
點(diǎn)贊關(guān)注極客公園視頻號,
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.