![]()
AIX財(cái)經(jīng)(AIXcaijing)原創(chuàng)
作者 | 王璐
編輯 | 魏佳
繼騰訊、阿里、百度、360、微軟、谷歌、ChatGPT等國(guó)內(nèi)外科技巨頭推出AI瀏覽器后,美團(tuán)也加入了戰(zhàn)局。
3月2日,美團(tuán)旗下光年之外團(tuán)隊(duì)上線AI瀏覽器Tabbit,并開(kāi)啟免費(fèi)公測(cè),這一舉動(dòng)很快在業(yè)內(nèi)引發(fā)廣泛關(guān)注。
畢竟,與多數(shù)入局者不同,美團(tuán)既沒(méi)有瀏覽器產(chǎn)品的歷史積累,也沒(méi)有搜索業(yè)務(wù)作為基礎(chǔ)設(shè)施,從“AI原生”的定位直接切入這一賽道顯得有些激進(jìn)。
產(chǎn)品上線后不久,Tabbit即卷入一場(chǎng)抄襲爭(zhēng)議。獨(dú)立開(kāi)發(fā)者“夢(mèng)溪睡了嗎”指出,Tabbit與其開(kāi)源項(xiàng)目“陪讀蛙”(ReadFrog)在界面設(shè)計(jì)、快捷鍵乃至內(nèi)部文件名等方面高度相似,并質(zhì)疑Tabbit未嚴(yán)格遵守GPL開(kāi)源協(xié)議。隨后,Tabbit回應(yīng)稱對(duì)開(kāi)源協(xié)議理解不足,已移除相關(guān)代碼并開(kāi)源了修改后的版本,雙方幾輪公開(kāi)發(fā)聲后,事件最終告一段落。
拋開(kāi)爭(zhēng)議,更值得關(guān)注的是美團(tuán)的戰(zhàn)略選擇。在老牌搜索公司和AI創(chuàng)業(yè)公司扎堆的AI瀏覽器賽道,一家以本地生活起家的平臺(tái)入局,是否具備勝算?更為重要的是,當(dāng)OpenClaw這類系統(tǒng)級(jí)Agent已經(jīng)開(kāi)始直接操控電腦時(shí),AI瀏覽器是否還是一個(gè)有價(jià)值的入口?
Tabbit實(shí)測(cè):一款中規(guī)中矩的AI瀏覽器
AI瀏覽器的概念,從去年開(kāi)始升溫。與傳統(tǒng)瀏覽器的最大區(qū)別在于,面對(duì)用戶拋出的問(wèn)題,它往往會(huì)直接給出總結(jié)后的答案,而非甩出一串鏈接。
從技術(shù)路線上看,可以分成兩類,一是集成技術(shù)路線,在管理網(wǎng)頁(yè)的基礎(chǔ)上,加上AI能力和Chatbot式交互,谷歌、微軟以及國(guó)內(nèi)絕大多數(shù)大廠屬于這類;二是AI原生路線,在開(kāi)發(fā)時(shí)就基于AI原生架構(gòu)打造,國(guó)外代表為Comet、Dia、Fellou AI、ChatGPT的Atlas,國(guó)內(nèi)的Tabbit與夸克AI瀏覽器(以下簡(jiǎn)稱夸克)也屬于這類。
綜合多位Agent從業(yè)者的說(shuō)法,目前無(wú)論是集成路線還是原生路線,AI瀏覽器功能的實(shí)現(xiàn)難度,大致可分為三個(gè)等級(jí):
初級(jí):信息提取與結(jié)構(gòu)化、精確操作與指令跟隨;
中級(jí):視覺(jué)-語(yǔ)言協(xié)同、多步規(guī)劃與頁(yè)面導(dǎo)航;
高級(jí):長(zhǎng)上下文記憶、自主決策與容錯(cuò)能力。
Tabbit對(duì)外宣稱具備智能對(duì)話、智能代理、標(biāo)簽組管理和快捷操作支持等主要功能。為了適配不同行業(yè),它還提供妙招(Skill)和腳本(Script)功能:妙招功能允許用戶將反復(fù)使用的提問(wèn)方式、格式規(guī)范和工作流程保存為一鍵調(diào)用的快捷指令;腳本功能則讓不懂編程的人也能輕松定制瀏覽器。這些能力基本符合當(dāng)前AI瀏覽器產(chǎn)品的普遍形態(tài),但整體來(lái)看并未展現(xiàn)出突破性創(chuàng)新。
為了更直觀地了解其實(shí)際表現(xiàn),「AIX財(cái)經(jīng)」選取了三個(gè)相同場(chǎng)景,對(duì)Tabbit與夸克這兩款同屬AI原生路線的產(chǎn)品進(jìn)行測(cè)試。
場(chǎng)景一:讓AI瀏覽器打開(kāi)雪球網(wǎng)行情頁(yè)面,提取今日漲幅前10的股票名稱、代碼、漲幅百分比,生成表格。
結(jié)果顯示,Tabbit完成了一半任務(wù),給出了前十漲幅表格,但將范圍自動(dòng)縮小到了A股,夸克則在嘗試自動(dòng)化提取雪球網(wǎng)實(shí)時(shí)行情數(shù)據(jù)時(shí)出現(xiàn)了問(wèn)題,顯示無(wú)法直接提取。
![]()
Tabbit成功提取但范圍不準(zhǔn)確
![]()
夸克直接顯示無(wú)法提取
我們進(jìn)一步降低指令難度。讓它們?cè)L問(wèn)豆瓣電影Top250頁(yè)面(
https://movie.douban.com/top250),提取前10部電影的電影名稱、導(dǎo)演、上映年份、評(píng)分,生成Markdown表格。需要指出的是,夸克依托的是千問(wèn)大模型和千問(wèn)助手,且千問(wèn)已深度融合到夸克中,執(zhí)行回郵件、跨標(biāo)簽分析等眾多智能化功能。
![]()
夸克整理的電影排名
![]()
Tabbit整理的電影排名
測(cè)試結(jié)果顯示,Tabbit與夸克均成功完成了數(shù)據(jù)抓取并生成了表格,但兩者輸出的內(nèi)容存在差異。在第三部電影《泰坦尼克號(hào)》的數(shù)據(jù)上出現(xiàn)了分歧。
核查后,我們發(fā)現(xiàn)該片在豆瓣的實(shí)際評(píng)分為9.5分,與Tabbit的抓取結(jié)果一致,夸克存在偏差。這一輪,Tabbit表現(xiàn)更優(yōu)。
場(chǎng)景二:讓AI瀏覽器在京東、天貓、拼多多搜索iPhone16Pro 256GB的價(jià)格和庫(kù)存,需識(shí)別現(xiàn)貨、缺貨、預(yù)售等不同表述,選擇有貨且價(jià)格最低的平臺(tái),加入購(gòu)物車但不支付。
測(cè)試結(jié)果顯示,Tabbit與夸克均無(wú)法直接完成加入購(gòu)物車的自動(dòng)化操作,但兩者呈現(xiàn)出不同的應(yīng)對(duì)策略。
夸克明確提示無(wú)法直接訪問(wèn)電商平臺(tái),更無(wú)法執(zhí)行加購(gòu)操作,轉(zhuǎn)而給出的代替方案是,根據(jù)公開(kāi)資料整理了一份iPhone16Pro 256GB的各平臺(tái)報(bào)價(jià)清單。
Tabbit則呈現(xiàn)出“能訪問(wèn)但執(zhí)行失敗”的狀態(tài)。界面顯示其能夠訪問(wèn)京東、天貓等平臺(tái),并結(jié)合了部分?jǐn)?shù)據(jù)資料,生成了“加入購(gòu)物車”的操作按鈕。
然而,當(dāng)用戶點(diǎn)擊執(zhí)行該操作時(shí),系統(tǒng)顯示報(bào)錯(cuò),實(shí)際并未完成加購(gòu)流程。這表明Tabbit的Agent能力并不穩(wěn)定,最終仍需用戶手動(dòng)跳轉(zhuǎn)至電商平臺(tái)完成購(gòu)買。
![]()
Tabbit顯示系統(tǒng)錯(cuò)誤
場(chǎng)景三:讓AI瀏覽器連續(xù)3天上午10點(diǎn)打開(kāi)某基金凈值頁(yè)面,并復(fù)制數(shù)字到表格上,如果網(wǎng)頁(yè)打不開(kāi),等1小時(shí)再試;如果連續(xù)3次打不開(kāi),就放棄并報(bào)錯(cuò)。
![]()
夸克無(wú)法執(zhí)行定時(shí)任務(wù)
![]()
Tabbit無(wú)法執(zhí)行定時(shí)任務(wù)
結(jié)果顯示,Tabbit與夸克均無(wú)法執(zhí)行該任務(wù),表示不具備定時(shí)任務(wù)和后臺(tái)自動(dòng)訪問(wèn)網(wǎng)頁(yè)的能力。
綜合三組測(cè)試結(jié)果可以看出,Tabbit在信息提取和基礎(chǔ)指令執(zhí)行方面具備一定能力,但在復(fù)雜網(wǎng)頁(yè)環(huán)境、跨平臺(tái)操作等場(chǎng)景下,仍存在不足。這種表現(xiàn)也與當(dāng)前AI瀏覽器整體的發(fā)展階段相符,它們能在部分場(chǎng)景中提升效率,但距離真正的“數(shù)字員工”還存在明顯差距。
既搶入口,也練Agent
在不少?gòu)臉I(yè)者看來(lái),當(dāng)前無(wú)論是國(guó)內(nèi)還是國(guó)外,AI瀏覽器仍是一個(gè)技術(shù)復(fù)雜、尚未成熟的領(lǐng)域,商業(yè)模式也遠(yuǎn)未清晰。即便如此,美團(tuán)依然選擇推出Tabbit,背后與其想要搶占AI時(shí)代的入口有關(guān)。
相比其在本地生活領(lǐng)域穩(wěn)固的地位,美團(tuán)在AI產(chǎn)品尤其是C端產(chǎn)品上的存在感始終不強(qiáng)。
近兩年,美團(tuán)在B端的AI應(yīng)用上已取得一定進(jìn)展,比如面向商家的AI應(yīng)用有“袋鼠參謀”、“袋鼠管家”,但在面向普通消費(fèi)者的C端,始終缺乏一款具有代表性的產(chǎn)品。無(wú)論是此前推出的AI助手“LongCat”,還是美團(tuán)App內(nèi)的智能搜索入口“問(wèn)小團(tuán)”,都未能形成明顯的用戶心智。
與此同時(shí),AI助手的競(jìng)爭(zhēng)已經(jīng)進(jìn)入新的階段。以字節(jié)跳動(dòng)的豆包、阿里的千問(wèn)、騰訊的元寶為代表的產(chǎn)品,正在從“能用”走向“好用”,并不斷向具體場(chǎng)景延伸。大廠的競(jìng)爭(zhēng)焦點(diǎn)已不再是誰(shuí)的AI更聰明,而是看誰(shuí)能成為用戶日常使用AI的主要入口。
在這樣的背景下,AI瀏覽器成為一個(gè)被重新審視的形態(tài)。
與封閉的應(yīng)用不同,瀏覽器天然連接整個(gè)互聯(lián)網(wǎng)信息環(huán)境,這使其具備一種獨(dú)特的能力:在同一界面中完成信息獲取、決策參考乃至后續(xù)操作。疊加AI能力后,理論上可以讓用戶在瀏覽網(wǎng)頁(yè)的過(guò)程中直接調(diào)用智能助手完成任務(wù)。
![]()
圖源 / pexels
有技術(shù)人員以點(diǎn)奶茶舉例,用戶在千問(wèn)APP中點(diǎn)奶茶,通常是通過(guò)API接口完成,只能獲取阿里生態(tài)或合作方開(kāi)放的結(jié)構(gòu)化數(shù)據(jù)(如店名、價(jià)格、庫(kù)存)。而AI瀏覽器模式一旦走通,可直接抓取網(wǎng)頁(yè)上的公開(kāi)信息,包括各外賣平臺(tái)的實(shí)時(shí)價(jià)格,以及社交媒體上的用戶評(píng)價(jià)做參考,最終讓用戶在一個(gè)界面內(nèi)完成查看攻略-比價(jià)?-下單的全流程。
當(dāng)然,正如前文測(cè)試中的表現(xiàn)那樣,這一能力距離完全成熟仍有距離。但對(duì)于像美團(tuán)這樣同時(shí)擁有大量商家資源與消費(fèi)場(chǎng)景的平臺(tái)來(lái)說(shuō),如果AI瀏覽器形態(tài)能逐步走通,未來(lái)確實(shí)有可能串聯(lián)起龐大的B端商家與豐富的C端消費(fèi)場(chǎng)景,構(gòu)建起一個(gè)從信息決策到交易的完整閉環(huán)。
除了入口意義,AI瀏覽器也是美團(tuán)展示Agent能力的重要載體。
資深A(yù)gent領(lǐng)域?qū)<亿w江杰指出,Agent技術(shù)已成為當(dāng)前AI與軟件行業(yè)最受關(guān)注的方向之一。對(duì)美團(tuán)而言,公司需要一個(gè)合適的平臺(tái)來(lái)展示其大模型在任務(wù)規(guī)劃、自主執(zhí)行等方面的能力,但美團(tuán)App功能相對(duì)固化、場(chǎng)景集中,并非理想的測(cè)試環(huán)境。同時(shí),美團(tuán)還需權(quán)衡Agent的自主決策對(duì)平臺(tái)現(xiàn)有商業(yè)模式(如廣告分發(fā)和流量閉環(huán))可能產(chǎn)生的沖擊。因此,選擇更通用、更開(kāi)放的瀏覽器作為入口,自然成為技術(shù)落地的新方向。
同樣還是以“點(diǎn)奶茶”為例,當(dāng)用戶向千問(wèn)發(fā)出指令時(shí),得到的通常只是一個(gè)直接的奶茶推薦結(jié)果,用戶無(wú)法知曉其篩選和決策的過(guò)程,而Tabbit這類AI瀏覽器的核心優(yōu)勢(shì)在于,它能將任務(wù)執(zhí)行過(guò)程可視化。即隨著技術(shù)的成熟,用戶可以親眼看到AI是如何一步步操作的:先打開(kāi)外賣平臺(tái)頁(yè)面,輸入“奶茶”,然后根據(jù)設(shè)定的條件(如價(jià)格、評(píng)分)進(jìn)行篩選,最終將選定的商品加入購(gòu)物車。這種交互形式,比封閉的對(duì)話式響應(yīng)更透明、更可信。
從技術(shù)布局來(lái)看,趙江杰認(rèn)為,美團(tuán)自研的LongCat大模型基礎(chǔ)能力不錯(cuò),但因?yàn)槠鸩捷^晚,與國(guó)內(nèi)頭部梯隊(duì)相比仍有一定距離,但其在Agent方向上投入堅(jiān)決、聚焦明確,此次推出Tabbit,是其將模型能力與實(shí)際應(yīng)用場(chǎng)景結(jié)合的一次重要嘗試。
AI瀏覽器,沒(méi)趕上好時(shí)候?
雖然Tabbit被視為美團(tuán)的一次重要嘗試,但從市場(chǎng)反饋來(lái)看,并沒(méi)有在行業(yè)激起太大水花。
產(chǎn)品上線首日,不少業(yè)內(nèi)人士試用后的評(píng)價(jià)是“與市面上現(xiàn)有的AI瀏覽器功能差異不大”;次日引發(fā)廣泛討論,則是因陷入了抄襲開(kāi)源代碼的爭(zhēng)議。
但許多從業(yè)者認(rèn)為,行業(yè)的冷靜并不完全是Tabbit本身的問(wèn)題,更重要的原因在于,當(dāng)前行業(yè)的注意力已經(jīng)發(fā)生轉(zhuǎn)移。
近期,無(wú)論國(guó)內(nèi)還是海外,AI領(lǐng)域的關(guān)注焦點(diǎn)已明顯轉(zhuǎn)向能夠深度操控操作系統(tǒng)的Agent,討論度最高的就是OpenClaw。其展示出的廣闊想象空間,讓仍停留在應(yīng)用層的AI瀏覽器顯得聲勢(shì)不足。
簡(jiǎn)單來(lái)說(shuō),OpenClaw這類產(chǎn)品的目標(biāo),是讓AI像人一樣操作整臺(tái)電腦:打開(kāi)軟件、填寫表格、發(fā)送郵件,甚至在不同應(yīng)用之間完成復(fù)雜任務(wù)流程。
盡管技術(shù)路徑不同,但在“替代人工完成重復(fù)操作”這一目標(biāo)上,AI瀏覽器與系統(tǒng)級(jí)Agent確實(shí)存在一定重疊。
比如,當(dāng)用戶需要處理一份數(shù)據(jù)表格時(shí),AI瀏覽器可以操作網(wǎng)頁(yè)版Excel,但如果任務(wù)涉及多個(gè)本地應(yīng)用,例如處理Excel后再發(fā)送到微信,目前還難以獨(dú)立完成。而OpenClaw可以直接操作本地Excel文件,并在不同軟件之間切換,完成整個(gè)流程。
這種能力差異的背后,是兩類產(chǎn)品在技術(shù)架構(gòu)上的不同。
許多AI瀏覽器執(zhí)行操作時(shí),會(huì)截圖再由視覺(jué)模型理解畫面,最后決策并執(zhí)行這一套流程,需花費(fèi)較長(zhǎng)時(shí)間。
![]()
圖源 / pexels
而且在處理圖表、游戲等復(fù)雜頁(yè)面時(shí),由于無(wú)法解析底層代碼,只能依賴像素猜測(cè),導(dǎo)致結(jié)果準(zhǔn)確率大大降低。此外,各大網(wǎng)站的防爬機(jī)制也限制了瀏覽器的自動(dòng)化操作。
相比之下,OpenClaw 選擇了一條不同的技術(shù)路徑。它并非AI瀏覽器,而是一個(gè)運(yùn)行在本地的通用AI Agent,其核心能力之一是控制瀏覽器。它的獨(dú)特之處在于,并非依賴多模態(tài)視覺(jué)模型對(duì)頁(yè)面截圖進(jìn)行理解,而是通過(guò)獲取系統(tǒng)的“輔助功能樹(shù)”(Accessibility Tree)快照來(lái)解析頁(yè)面。這些快照會(huì)轉(zhuǎn)換為包含按鈕、鏈接、文本框等元素的文本化頁(yè)面結(jié)構(gòu)描述,大語(yǔ)言模型(LLM)通過(guò)閱讀這些文本來(lái)“看見(jiàn)”并理解界面。
簡(jiǎn)而言之,如果說(shuō)傳統(tǒng)AI瀏覽器是從“系統(tǒng)外部”猜測(cè)界面,那么OpenClaw則是從“系統(tǒng)內(nèi)部”直接理解界面。這種更接近底層、更結(jié)構(gòu)化的理解方式,也是許多用戶感覺(jué)OpenClaw表現(xiàn)更為智能的主要原因。
不過(guò),能力越強(qiáng),也意味著更高的風(fēng)險(xiǎn)與門檻。
一方面,系統(tǒng)級(jí)Agent需要獲得更高的操作權(quán)限,一旦指令理解出現(xiàn)偏差,就可能造成誤操作,造成失控風(fēng)險(xiǎn)。有用戶曾報(bào)告其OpenClaw因指令異常,自動(dòng)刪除郵箱郵件,這也讓安全問(wèn)題成為業(yè)內(nèi)討論的焦點(diǎn)。
另一方面,OpenClaw的使用門檻也較高。其部署過(guò)程復(fù)雜,對(duì)普通用戶不夠友好,甚至催生了從數(shù)百元到數(shù)千美元不等的付費(fèi)教安裝服務(wù)。而且持續(xù)調(diào)用大模型API將產(chǎn)生高昂費(fèi)用,一些重度用戶每月開(kāi)銷可達(dá)數(shù)百美元,被戲稱為“貸款上班”。
從更長(zhǎng)遠(yuǎn)的視角看,AI瀏覽器與系統(tǒng)級(jí)Agent或許并不是簡(jiǎn)單的替代關(guān)系,而更像是Agent發(fā)展的兩條不同路徑:前者依托瀏覽器這一成熟入口,更容易觸達(dá)普通用戶并快速規(guī)模化;后者能力邊界更大,但在安全、成本上仍有門檻。
在這樣的行業(yè)背景下,Tabbit的處境也頗為微妙。它既是在探索AI瀏覽器這一尚未定型的賽道,也不得不面對(duì)一個(gè)現(xiàn)實(shí),行業(yè)注意力正被更具想象空間的系統(tǒng)級(jí)Agent所吸引。Tabbit能否突圍,就得看產(chǎn)品進(jìn)化的速度能不能跟得上大家的期待了。
*題圖來(lái)源于pexels。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.