大家好,我是剛哥
最近,大家都被豆包手機(jī)的“AI智能助手”引發(fā)的討論刷屏了。淘寶、微信、銀行APP也紛紛開(kāi)始“封殺”豆包手機(jī)。
說(shuō)實(shí)話(huà)我一開(kāi)始也沒(méi)太當(dāng)回事情,心想只要用戶(hù)授權(quán),安全的使用數(shù)據(jù)就行了,這些大廠就是怕?lián)臄?shù)據(jù)和用戶(hù)被人搶了唄。
直到豆包手機(jī)發(fā)出了“辟謠”公告,我覺(jué)得這件事情不簡(jiǎn)單。他是一直在強(qiáng)調(diào)用戶(hù)授權(quán),數(shù)據(jù)安全是一點(diǎn)都沒(méi)談吶。
![]()
豆包辟謠(來(lái)源網(wǎng)絡(luò))
當(dāng)然,我完全相信,借100個(gè)膽子給豆包手機(jī)也不敢拿用戶(hù)隱私數(shù)據(jù)和資金安全來(lái)開(kāi)玩笑。
那這次豆包為什么會(huì)惹了眾怒呢?我們就從科技的角度來(lái)給大家拆解下,豆包手機(jī)這次事件到底是怎么回事,以及探討下GUI Agent、AI手機(jī)未來(lái)應(yīng)該是什么樣的。
01 豆包到底干了啥
這次豆包手機(jī)使用了GUI Agent的技術(shù),并且與中興通訊聯(lián)合推出的一款OEM工程手機(jī)。所謂的GUI Agent,就是AI代理可以通過(guò)“感知、規(guī)劃、執(zhí)行”來(lái)代替用戶(hù)完成手機(jī)APP的操作處理。
1.GUI Agent原理
![]()
GUI Agent實(shí)現(xiàn)原理(來(lái)源網(wǎng)絡(luò))
這里的感知、規(guī)劃和執(zhí)行,就像人的眼睛、大腦和手一樣讓AI來(lái)幫你操作手機(jī)。因此,需要手機(jī)操作系統(tǒng)和大模型來(lái)提供相應(yīng)的軟硬件功能。
感知(看):相當(dāng)于AI的眼睛,它需要操作系統(tǒng)提供讀取屏幕的功能,用戶(hù)授權(quán)后就能使用了。
規(guī)劃(想):相當(dāng)于AI的大腦,讀取的屏幕界面信息傳遞給大模型來(lái)進(jìn)行處理,如果是沒(méi)有本地模型就需要傳到云端大模型處理。
執(zhí)行(做):相當(dāng)于AI的手,根據(jù)大模型發(fā)送的執(zhí)行指令來(lái)模擬人的操作。這里涉及到對(duì)用戶(hù)APP進(jìn)行操作。為了避免黑客遠(yuǎn)程操控,因此屬于級(jí)別最高的“系統(tǒng)權(quán)限”,只有手機(jī)廠商定制才能進(jìn)行使用。
這次豆包的GUI Agent又是如何實(shí)現(xiàn)的呢,他是怎么實(shí)現(xiàn)“看、想、做”的呢?
![]()
豆包手機(jī)系統(tǒng)架構(gòu)圖
豆包和主流的GUI Agent采用的方式類(lèi)似,只不過(guò)這次為了獲得系統(tǒng)權(quán)限他自己找中興通訊合作,使用nubia M153手機(jī)做了貼牌的工程樣機(jī)。
1)GUI Agent接管系統(tǒng):
豆包通過(guò)用戶(hù)授權(quán)開(kāi)通了APP的接管。通過(guò)接收用戶(hù)的指令就能對(duì)這些APP進(jìn)行自動(dòng)操作。
2)感知(無(wú)障礙輔助):
無(wú)障礙輔助,這個(gè)權(quán)限設(shè)計(jì)的初衷是幫助殘障人士使用設(shè)備而設(shè)計(jì)的。他需要開(kāi)發(fā)者在APP內(nèi)配置,然后通過(guò)用戶(hù)授權(quán)就能獲取。
在豆包手機(jī)的設(shè)計(jì)中,這個(gè)功能被用來(lái)讀取手機(jī)進(jìn)行屏幕。然后通過(guò)安卓的“窗口管理器”來(lái)解析界面元素。
這里存在的爭(zhēng)議,在傳給大模型之前,是否對(duì)安全鍵盤(pán)和敏感的支付、賬戶(hù)、相冊(cè)、視頻等界面在本地過(guò)濾處理,過(guò)濾到什么級(jí)別,復(fù)雜的界面如何處理等問(wèn)題?
3)規(guī)劃(豆包大模型):
整個(gè)思考過(guò)程自然是使用豆包的大模型來(lái)處理,他會(huì)根據(jù)用戶(hù)語(yǔ)音指令和獲取的界面要素進(jìn)行規(guī)劃和決策,然后給出下一步操作的指令。
這里就會(huì)涉及到隱私數(shù)據(jù)的處理了,最合規(guī)的做法就是使用本地大模型來(lái)處理,這樣的話(huà)用戶(hù)隱私數(shù)據(jù)就完全在手機(jī)內(nèi)部封閉了。
根據(jù)豆包公開(kāi)的產(chǎn)品,他有一款UI-TRAS的本地大模型,但是公開(kāi)資料沒(méi)有說(shuō)明這個(gè)模型是完全本地化,還是“本地+云端”協(xié)同。
如果與云端協(xié)同,就需要在上傳云端前,過(guò)濾掉用戶(hù)的隱私數(shù)據(jù),通過(guò)安全的加密鏈路與云端大模型進(jìn)行交互。
這里存在的爭(zhēng)議,是否有云端協(xié)同,協(xié)同的的數(shù)據(jù)有哪些?是否在云端保存了用戶(hù)的隱私、行為數(shù)據(jù)?
4)執(zhí)行(事件注入權(quán)限)
接到大模型發(fā)送到的指令后,GUI Agent就要根據(jù)識(shí)別的界面,模擬用戶(hù)的各種物理輸入來(lái)操作手機(jī)。這里就涉及到“上帝之手”權(quán)限——注入事件(INJECT EVENTS)。
這是系統(tǒng)級(jí)別的權(quán)限,普通APP讓用戶(hù)授權(quán)了也無(wú)法獲取,因?yàn)檫@涉及到操作系統(tǒng)內(nèi)核的輸入。因此,需要手機(jī)廠商單獨(dú)給APP定制。并且為了確保唯一性,要使用與這個(gè)APP匹配的證書(shū)簽名才能訪問(wèn)。
這里存在的爭(zhēng)議,就是權(quán)限是否最小化、用戶(hù)是否可以隨時(shí)暫停操作、操作日志是否記錄并提供用戶(hù)和監(jiān)管機(jī)構(gòu)審計(jì)。
可能有人會(huì)說(shuō),這是都是為了用戶(hù)更好的體驗(yàn),用戶(hù)都同意授權(quán),市面上GUI Agent都是這么干的,這種屬于正常的商業(yè)合作模式。
提出來(lái)反對(duì)的都是“既得利益者”、“阻礙創(chuàng)新”,“怕被AI手機(jī)替代”,“未來(lái)AI手機(jī)不做了嗎?”。那我們來(lái)看下真正的AI手機(jī)應(yīng)該是怎么什么樣子的
02 未來(lái)的AI手機(jī)
下面我們來(lái)看下未來(lái)的“AI 手機(jī)”如何來(lái)平衡上面的這些問(wèn)題和爭(zhēng)議。
![]()
未來(lái)的AI手機(jī)系統(tǒng)架構(gòu)圖
1.新老APP的兼容
未來(lái)會(huì)有適用于AI應(yīng)用場(chǎng)景的“AI原生APP”,也會(huì)保持對(duì)“傳統(tǒng)APP”的兼容,這兩個(gè)類(lèi)APP都能被系統(tǒng)級(jí)的GUI Agent來(lái)管理和調(diào)用,但是權(quán)限可以更加細(xì)分和靈活。
2.系統(tǒng)級(jí)GUI Agent
未來(lái)的AI手機(jī)的GUI Agent不再只是豆包自己的應(yīng)用,而是一個(gè)系統(tǒng)級(jí)的Agent應(yīng)用,它有公開(kāi)的調(diào)用標(biāo)準(zhǔn)、數(shù)據(jù)隱私規(guī)范、統(tǒng)一的界面規(guī)范。
對(duì)于不希望接受Agent調(diào)用的傳統(tǒng)APP也是允許其人工操作。是否改造成“AI原生”,更多的是通過(guò)用戶(hù)和生態(tài)的壓力來(lái)倒逼這些APP升級(jí),而不是強(qiáng)制調(diào)用,引來(lái)相互封殺。
當(dāng)然在也可以通過(guò)國(guó)家標(biāo)準(zhǔn)和行業(yè)規(guī)范來(lái)讓這些傳統(tǒng)APP來(lái)執(zhí)行規(guī)范,接受AI手機(jī)的調(diào)用。
3.應(yīng)用框架的AI擴(kuò)展
未來(lái)的AI手機(jī)應(yīng)用框架是在現(xiàn)有安卓系統(tǒng)上進(jìn)行的AI擴(kuò)展,他兼容新老APP應(yīng)用。
1)AI原生應(yīng)用框架:
他在原有的安卓應(yīng)用框架上擴(kuò)展了適合AI原生的AI框架,它可以提供標(biāo)準(zhǔn)的AI原生應(yīng)用接口、并且可以安全獲取系統(tǒng)級(jí)別的AI權(quán)限。
并且他可以集成本地多模態(tài)大模型,或者與云端大模型協(xié)同。在與云端協(xié)同前會(huì)過(guò)濾掉用戶(hù)的隱私數(shù)據(jù)來(lái)保障安全。
2)全局權(quán)限管理:
他的權(quán)限管理也是全局的,不需要通過(guò)手機(jī)廠商“開(kāi)小灶”來(lái)給應(yīng)用開(kāi)通權(quán)限。并且他的開(kāi)通的權(quán)限將會(huì)更加靈活和最小化。
應(yīng)用的操作過(guò)程也是可以被記錄,并且能接受用戶(hù)、監(jiān)管的審計(jì)。
3)豐富的事件分發(fā):
AI手機(jī)的“看、做”行為,不再是讓APP通過(guò)“截屏”和“模擬操作”來(lái)實(shí)現(xiàn)自動(dòng)化代理。
而是在系統(tǒng)級(jí)別層面實(shí)現(xiàn)了界面元素獲取、解析、以及用戶(hù)行為事件的處理,并且更加安全,可以有效避免權(quán)限被濫用。
可能有人會(huì)說(shuō),要等到這么多規(guī)范和技術(shù)條件成熟,那現(xiàn)在GUI Agent就不發(fā)展了?AI手機(jī)未來(lái)不做了嘛?
03 爭(zhēng)議在于不透明
我前面也說(shuō),我認(rèn)為豆包“沒(méi)必要、也不敢”在用戶(hù)隱私數(shù)據(jù)、資金安全方面“冒險(xiǎn)”。其實(shí)這一切的爭(zhēng)議都來(lái)自于不透明,由此造成了一系列的質(zhì)疑與封殺。
豆包和中興現(xiàn)在一直強(qiáng)調(diào)是擁有用戶(hù)授權(quán),并且僅解釋了用戶(hù)對(duì)于授權(quán)是知情的。但是對(duì)于用戶(hù)隱私數(shù)據(jù)和資金安全方面的都是通過(guò)“辟謠”的方式來(lái)澄清。并且也沒(méi)有任何權(quán)威的第三方對(duì)他的行為進(jìn)行認(rèn)證和審計(jì)。
豆包有必要對(duì)于“用戶(hù)、APP提供商、監(jiān)管”一個(gè)交代。
回應(yīng)大家普遍質(zhì)疑的“隱私數(shù)據(jù)保護(hù)、技術(shù)安全標(biāo)準(zhǔn)、權(quán)限管理、日志審計(jì)、風(fēng)險(xiǎn)管理、合規(guī)性”等方面的問(wèn)題,并且公開(kāi)其標(biāo)準(zhǔn)或者接受權(quán)威機(jī)構(gòu)審計(jì)。
唯有公開(kāi)透明,打消了各方的疑慮,GUI Agent才能真正地發(fā)展起來(lái)。
否則都是“先干再合規(guī),質(zhì)疑靠辟謠”,那只會(huì)引來(lái)全面的封殺。“AI手機(jī)”、“AGI應(yīng)用”也就沒(méi)有未來(lái)。
【群二維碼,有效7天,不聊支付的別加】
【群二維碼失效,可加我個(gè)人微信入群】
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.