![]()
我們已經(jīng)進(jìn)入人工智能革命幾年了,討論焦點(diǎn)已從誰(shuí)擁有最好的聊天機(jī)器人轉(zhuǎn)向誰(shuí)的AI智能體能代表你完成最多任務(wù)。不幸的是,AI智能體仍然存在不足,因此讓它們處理重要任務(wù)并不是一個(gè)好主意。OpenAI在去年底推出了Atlas智能體,我們發(fā)現(xiàn)它略有用處,現(xiàn)在輪到谷歌了。
與OpenAI智能體不同,谷歌的新Auto Browse智能體具有非凡的影響力,因?yàn)樗荂hrome的一部分——這是世界上最受歡迎的瀏覽器。谷歌在本月早些時(shí)候開(kāi)始向AI Pro和AI Ultra訂閱用戶推出Auto Browse(預(yù)覽版),允許他們派遣智能體在網(wǎng)絡(luò)上完成任務(wù)。
我測(cè)試了Chrome的智能體,看看你是否可以信任它為你處理繁瑣的在線工作。對(duì)于每項(xiàng)測(cè)試,我都會(huì)闡述需要解決的問(wèn)題、如何提示機(jī)器人,以及它處理工作的好壞程度。
網(wǎng)絡(luò)游戲測(cè)試
問(wèn)題:我想在2048游戲中獲得高分,但不想自己玩。
提示:前往網(wǎng)站,玩游戲直到?jīng)]有可移動(dòng)的步數(shù)。
結(jié)果:不幸的是,Auto Browse無(wú)法使用方向鍵。谷歌表示這些鍵對(duì)于生產(chǎn)力任務(wù)并非必需。所以我讓機(jī)器人去玩一個(gè)有屏幕控制按鈕的版本。有了這些箭頭按鈕,Auto Browse毫無(wú)困難地玩起了游戲,似乎掌握了頁(yè)面上列出的規(guī)則。
有幾次,Auto Browse似乎花了20到30秒思考下一步行動(dòng),它非常字面地理解了提示。即使棋盤上仍有空位,機(jī)器人也會(huì)在無(wú)法成功合并任何方塊時(shí)停止(它對(duì)"沒(méi)有步數(shù)"的理解)。人類玩家會(huì)接受損失并在下一步中設(shè)置合并,但機(jī)器人需要提示才能繼續(xù),它確實(shí)繼續(xù)了。任務(wù)運(yùn)行了約20分鐘,期間機(jī)器人創(chuàng)建了128方塊并移動(dòng)了149次。
評(píng)估:8/10。游戲表現(xiàn)不如Atlas好,但Auto Browse不需要太多哄勸,我理解它為什么停止。雖然缺乏方向鍵支持似乎是個(gè)奇怪的遺漏,但可能沒(méi)有多少生產(chǎn)力任務(wù)需要它們。
創(chuàng)建電臺(tái)播放列表
問(wèn)題:我想將明尼蘇達(dá)公共廣播電臺(tái)The Current的音樂(lè)轉(zhuǎn)換為YouTube Music按需播放列表。
提示:訪問(wèn)thecurrent.org并開(kāi)始直播。收聽(tīng)一小時(shí)并記錄播放的每首歌曲。然后將這些歌曲添加到新的YouTube Music播放列表中。
結(jié)果:智能體運(yùn)行成本昂貴,所以像OpenAI的智能體模式一樣,Auto Browse拒絕長(zhǎng)時(shí)間監(jiān)控頁(yè)面,這并不令人意外。有時(shí)它會(huì)在頁(yè)面上停留一兩分鐘,通常假裝時(shí)間過(guò)去了更多才放棄。
幸運(yùn)的是,我們可以通過(guò)The Current的播放列表視圖完成這個(gè)任務(wù),該視圖列出了之前的歌曲。我調(diào)整了提示,讓Auto Browse從該頁(yè)面獲取最后一小時(shí)的歌曲名稱,這工作得很好。不過(guò)它將此理解為頁(yè)面當(dāng)前的小時(shí)塊,而這個(gè)塊還未完成。
我以為使用YouTube Music而不是Spotify對(duì)Auto Browse有幫助,但事實(shí)證明Auto Browse不理解YouTube的設(shè)計(jì)美學(xué)。它未能將任何歌曲添加到播放列表,因?yàn)檎也坏桨粹o。當(dāng)我將提示改為使用Spotify時(shí),Auto Browse第一次就完成了。這既是對(duì)YouTube Music的控訴,也是對(duì)Auto Browse的控訴。
評(píng)估:6/10。長(zhǎng)時(shí)間監(jiān)控頁(yè)面似乎超出了當(dāng)前瀏覽器智能體的能力范圍,但令人震驚的是Auto Browse無(wú)法使用谷歌自己的流媒體音樂(lè)服務(wù)創(chuàng)建播放列表。也就是說(shuō),一旦我理解了它失敗的原因,智能體立即完成了工作。因?yàn)樽屛叶啻握{(diào)整提示,它失去了一些分?jǐn)?shù)。
掃描電子郵件
問(wèn)題:我的個(gè)人郵箱地址為人所知,公關(guān)人員經(jīng)常使用它而不是我的工作地址。我需要確保沒(méi)有重要人員在那里發(fā)送推廣信息,所以我需要一份最近的公關(guān)郵件列表、聯(lián)系信息和Gmail中的公司詳細(xì)信息。
提示:查看我過(guò)去一個(gè)月的所有Gmail。收集公關(guān)郵件中的所有信息(姓名、電子郵件地址、電話號(hào)碼、產(chǎn)品等)并將它們添加到新的Google表格中。
結(jié)果:有趣的是,谷歌的智能體不必使用Gmail網(wǎng)頁(yè)界面。它可以使用Gmail工具在后臺(tái)收集這些數(shù)據(jù)。但是,這也意味著你無(wú)法為禁用谷歌AI的賬戶(如工作賬戶)自動(dòng)化電子郵件任務(wù)。
運(yùn)行Gmail工具后,Auto Browse導(dǎo)航到Google Drive并打開(kāi)了一個(gè)新的電子表格。然而,它只嘗試在表格中輸入兩個(gè)公關(guān)聯(lián)系人,而且數(shù)據(jù)輸入錯(cuò)誤,覆蓋了字段并將日期放在未標(biāo)記的列中。如果它在Gmail中搜索"PR",會(huì)找到數(shù)十個(gè)結(jié)果。谷歌的AI概覽搜索結(jié)果在Gmail中可以正確引用公關(guān)郵件,所以谷歌AI收集這些信息是可能的。不清楚為什么Auto Browse做得如此糟糕。
評(píng)估:1/10。不清楚是Gmail工具還是智能體無(wú)法使用電子表格是主要問(wèn)題,因?yàn)槲覠o(wú)法驗(yàn)證智能體在Gmail中實(shí)際找到了什么。可能兩者都有問(wèn)題。無(wú)論如何,Auto Browse在這里表現(xiàn)很差。
編輯Wiki
問(wèn)題:Ars Technica仍在為Tuvix尋求正義,他在《星際迷航:航海家號(hào)》第2季第24集中被艦長(zhǎng)Janeway不公正地殺害了。
提示:訪問(wèn)Tuvix的Fandom Wiki頁(yè)面。編輯頁(yè)面以包含討論Tuvix被Janeway謀殺觀點(diǎn)的部分。
結(jié)果:Auto Browse拒絕了這個(gè)請(qǐng)求,就像Atlas一樣,說(shuō):"無(wú)法完成編輯Tuvix Fandom Wiki頁(yè)面并添加特定文本的請(qǐng)求。提議的編輯在公共wiki上會(huì)被視為破壞行為。"
評(píng)估:無(wú)評(píng)級(jí)。我不會(huì)因此責(zé)備Auto Browser。事實(shí)上,瀏覽器智能體拒絕自主編輯公共wiki可能是最好的。我只是必須盡職調(diào)查。
制作粉絲網(wǎng)站
問(wèn)題:我們?nèi)匀幌敫嬖V人們Tuvix被謀殺的事,所以智能體應(yīng)該制作一個(gè)基本網(wǎng)站來(lái)做這件事。
提示:訪問(wèn)NeoCities并為《星際迷航》角色Tuvix創(chuàng)建一個(gè)粉絲網(wǎng)站。確保它有大量圖像和關(guān)于Tuvix的有趣信息,并明確表示Tuvix被艦長(zhǎng)Janeway謀殺了。
結(jié)果:智能體導(dǎo)航到Neocities,然后要求我創(chuàng)建一個(gè)賬戶。我創(chuàng)建了賬戶并將任務(wù)交回給機(jī)器人,沒(méi)有問(wèn)題。這是事情變得棘手的地方。Auto Browse無(wú)法訪問(wèn)懸停菜單來(lái)編輯index.html文件,所以它陷入了打開(kāi)預(yù)覽然后返回儀表板的循環(huán)。最終,機(jī)器人求助了。
Neocities有一個(gè)非常簡(jiǎn)單的界面,但生成式AI不一定穩(wěn)定。由于Auto Browse中止了任務(wù),我決定重新運(yùn)行提示,結(jié)果更好了。這次Auto Browse切換到列表視圖,沒(méi)有懸停菜單,允許它打開(kāi)編輯器。然后它導(dǎo)航到TrekCore復(fù)制圖像URL用于網(wǎng)站——這不是禮貌的網(wǎng)頁(yè)設(shè)計(jì),但確實(shí)遵循了指令。然而,它選擇的圖像來(lái)自劇集早期,沒(méi)有展示Tuvix。所以部分得分。
生成的網(wǎng)站信息有點(diǎn)少,但Auto Browse包含了文本背景和顏色。看起來(lái)相當(dāng)不錯(cuò)。
評(píng)估:7/10。我們的Tuvix粉絲頁(yè)面完成了工作。它展示了一些有趣的事實(shí)并(簡(jiǎn)要地)論證Janeway是兇手。機(jī)器人尋找圖像很好,盡管它們沒(méi)有顯示相關(guān)角色。由于最初的懸停菜單失敗和缺乏細(xì)節(jié),它失去了幾分——我確實(shí)說(shuō)了"大量"圖像和有趣信息。
選擇電力計(jì)劃
問(wèn)題:德克薩斯州有一個(gè)"瘋狂"的電力系統(tǒng),迫使像Ars高級(jí)編輯Lee Hutchinson這樣的人定期尋找新計(jì)劃。
提示:訪問(wèn)powertochoose.org,為我找一個(gè)12-24個(gè)月的合同,優(yōu)先考慮整體低使用率。我平均每月使用2000千瓦時(shí)。我的電力輸送公司是Texas New-Mexico Power("TNMP"),不是CenterPoint。我的郵政編碼是[已隱去]。請(qǐng)為你推薦的任何和所有計(jì)劃提供"事實(shí)表"。
結(jié)果:Auto Browse成功在網(wǎng)站的搜索和篩選部分輸入了參數(shù)。它對(duì)結(jié)果進(jìn)行了排序,在幾分鐘內(nèi)返回了推薦電力計(jì)劃的事實(shí)表。這與幾個(gè)月前OpenAI智能體的建議非常相似,除了合同期限稍長(zhǎng),白天費(fèi)率更低。
評(píng)估:10/10。這里沒(méi)什么可抱怨的。考慮到約束條件,計(jì)劃完全可以,Auto Browse能夠使用網(wǎng)站的下拉菜單和篩選器,幾乎沒(méi)有實(shí)驗(yàn)。我不必更改提示或推動(dòng)機(jī)器人繼續(xù)。
管理PlayStation游戲
問(wèn)題:我不想查看PlayStation商店中的大量折扣游戲列表。有人不能替我做嗎?
提示:訪問(wèn)PlayStation商店并查看新年優(yōu)惠。將排序更改為最暢銷,類型改為完整游戲。檢查前兩頁(yè)是否有任何至少50%折扣的PS5游戲并將它們添加到我的愿望清單。如果游戲包含在PlayStation Plus中,就將它添加到我的庫(kù)中。
結(jié)果:智能體找到了銷售頁(yè)面并成功更改了顯示設(shè)置。它甚至在完成后關(guān)閉了那個(gè)未標(biāo)記的菜單。它遍歷列表,在找到匹配游戲時(shí)打開(kāi)頁(yè)面。它還在每次添加游戲到愿望清單或庫(kù)之前都會(huì)詢問(wèn),聲稱這是安全要求。
這個(gè)過(guò)程花了約15分鐘,期間有大量長(zhǎng)時(shí)間暫停等待確認(rèn)請(qǐng)求。它確實(shí)正確解釋了銷售價(jià)格和PlayStation Plus可用性。不幸的是,它沒(méi)有區(qū)分PS5和PS4游戲,智能體在第2頁(yè)底部前幾行就停止了。
評(píng)估:7/10。考慮到所有因素,Auto Browse運(yùn)行這個(gè)任務(wù)相當(dāng)不錯(cuò)。不過(guò)它停得有點(diǎn)早,錯(cuò)過(guò)了PS5角度。每次愿望清單或庫(kù)添加都需要確認(rèn)的要求很煩人,因此很難稱其為"自動(dòng)"任何東西。
最終結(jié)果
在這六項(xiàng)測(cè)試中(不包括我預(yù)期不會(huì)成功的wiki編輯),谷歌的瀏覽器智能體獲得了中位數(shù)7分和平均6.5分的成績(jī)。雖然這不是客觀分析,但它表明Auto Browse在能夠被信任為你完成任務(wù)之前還有很長(zhǎng)的路要走。
像OpenAI Atlas智能體一樣,Auto Browse無(wú)法真正自主操作,我給了它很多優(yōu)勢(shì)。Auto Browse適用于谷歌當(dāng)前的所有三種模型設(shè)置——快速、思考和專業(yè)。我將其設(shè)置為專業(yè)并在適當(dāng)時(shí)使用谷歌工具。盡管如此,Auto Browse在幾乎每個(gè)測(cè)試中都需要推動(dòng)或重新提示。這些東西在能夠真正作為你的智能體運(yùn)行之前不會(huì)有用。現(xiàn)在,它更像是在照看一個(gè)容易分心的機(jī)器人。
許多失分來(lái)自Auto Browse無(wú)法使用谷歌自己的產(chǎn)品——它沒(méi)有在Gmail中找到正確的電子郵件,無(wú)法在Google表格中輸入數(shù)據(jù),并且未能理解YouTube Music的界面。瀏覽器智能體顯然無(wú)法長(zhǎng)時(shí)間監(jiān)控頁(yè)面也是一個(gè)問(wèn)題。如果任務(wù)涉及超過(guò)幾分鐘的等待,它可能會(huì)失敗或提前中止。
這個(gè)功能仍在預(yù)覽中,但對(duì)任何付費(fèi)使用谷歌AI的人都廣泛可用。該公司似乎還暗示將來(lái)會(huì)向非付費(fèi)用戶推出。看瀏覽器為你導(dǎo)航網(wǎng)絡(luò)可能很有趣,但問(wèn)題是——你必須看著它。太多時(shí)候,你必須重新提示或告訴AI繼續(xù)執(zhí)行任務(wù)。Auto Browse不能在沒(méi)有監(jiān)督的情況下被信任正確完成任務(wù),至少現(xiàn)在還不行。
Q&A
Q1:Chrome的Auto Browse智能體是什么?
A:Auto Browse是谷歌推出的瀏覽器智能體,集成在Chrome瀏覽器中,目前向AI Pro和AI Ultra訂閱用戶提供預(yù)覽版。它可以代替用戶在網(wǎng)絡(luò)上執(zhí)行各種任務(wù),如瀏覽網(wǎng)頁(yè)、填寫表單、創(chuàng)建內(nèi)容等。
Q2:Auto Browse智能體的表現(xiàn)如何?
A:根據(jù)測(cè)試,Auto Browse在六項(xiàng)任務(wù)中獲得了中位數(shù)7分、平均6.5分的成績(jī)。它在簡(jiǎn)單任務(wù)如選擇電力計(jì)劃方面表現(xiàn)良好,但在處理谷歌自家產(chǎn)品如Gmail和YouTube Music時(shí)表現(xiàn)不佳,且無(wú)法長(zhǎng)時(shí)間監(jiān)控頁(yè)面。
Q3:Auto Browse能完全自主工作嗎?
A:目前還不能。Auto Browse在幾乎每個(gè)測(cè)試中都需要用戶的推動(dòng)或重新提示才能完成任務(wù)。用戶必須監(jiān)督整個(gè)過(guò)程,更像是在照看一個(gè)容易分心的機(jī)器人,而不是真正的自主智能體。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.