北京時(shí)間 4 月 16 日凌晨,Google 終于把一件「早就該做的事」補(bǔ)上了:正式上線 Gemini 的桌面應(yīng)用(目前僅 macOS)。
這不是一個(gè)突然的發(fā)布。過(guò)去幾個(gè)月里,關(guān)于 Gemini 將推出桌面客戶端的消息已經(jīng)在外媒間反復(fù)流傳,彭博社就多次爆料 Google 正在推進(jìn) Gemini macOS 桌面端的相關(guān)開(kāi)發(fā),只是節(jié)奏一再拖延。相比之下,OpenAI 和 Anthropic 推出 ChatGPT 和 Claude 的桌面應(yīng)用:
都在 2024 年。
不開(kāi)玩笑,Google 在這一方面確實(shí)太「落后」了,在國(guó)內(nèi)外主流大模型廠商中,也就 DeepSeek、Grok 還沒(méi)有桌面應(yīng)用。所以,當(dāng) Gemini 終于出現(xiàn)在 macOS 上,這件事本身并不讓人意外,反倒更像一次遲到的補(bǔ)課。
![]()
圖片來(lái)源:雷科技
過(guò)去很長(zhǎng)一段時(shí)間里,Gemini 在桌面端的使用方式始終停留在瀏覽器里:打開(kāi)網(wǎng)頁(yè)、進(jìn)入對(duì)話、完成任務(wù),再切回原本的工作流。這個(gè)路徑?jīng)]有問(wèn)題,但在「隨時(shí)可用」的競(jìng)爭(zhēng)里,它顯得太重了。尤其是在 AI 開(kāi)始頻繁介入寫(xiě)作、整理信息、處理復(fù)雜任務(wù)之后,調(diào)用路徑本身就變成了體驗(yàn)的關(guān)鍵一環(huán)。
Gemini 桌面端首先要解決的,正是這個(gè)問(wèn)題。
一個(gè)快捷鍵、一層懸浮窗口,把 AI 嵌進(jìn)正在進(jìn)行的工作流里。這套思路并不新鮮,但已經(jīng)被證明有效。也正因?yàn)槿绱耍珿emini 這次的上線,更值得關(guān)注的其實(shí)不是「有沒(méi)有」,而是「做成什么樣」。
換句話說(shuō),問(wèn)題不在于 Google 終于把 Gemini 帶到了 macOS,而在于已經(jīng)有成熟對(duì)手的前提下,它準(zhǔn)備拿出一套怎樣的體驗(yàn)。
Gemini 桌面端初上手,處處透著「粗糙」
Gemini 可以說(shuō)是我最常用的 AI 之一,但網(wǎng)頁(yè)端始終存在使用上不夠便捷等缺點(diǎn),所以對(duì)于 Gemini 桌面端可以說(shuō)我早就垂涎已久。但實(shí)話實(shí)說(shuō),至少目前上線的這一版,相當(dāng)粗糙。
第一眼只能說(shuō)無(wú)功無(wú)過(guò),沿用了 ChatGPT 定義的對(duì)話框主界面,但默認(rèn)并不打開(kāi)側(cè)邊的對(duì)話列表。
默認(rèn)不打開(kāi)是對(duì)的。因?yàn)橐淮蜷_(kāi)我就覺(jué)得「丑」,對(duì)比網(wǎng)頁(yè)端,這種感覺(jué)只會(huì)更加突出。究其原因,桌面端采用了明顯更大、更粗的字號(hào),但字與字、行與行的間距又太小,就顯得視覺(jué)上相當(dāng)擁擠、不協(xié)調(diào)。
![]()
桌面端,圖片來(lái)源:雷科技
![]()
網(wǎng)頁(yè)端,圖片來(lái)源:雷科技
也不知道是 Google 沒(méi)了設(shè)計(jì)師,還是這版就是用 Gemini 模型 Vibe Coding 出來(lái)的。
當(dāng)然,這些并不影響功能使用。
真正上手之后,會(huì)發(fā)現(xiàn) Gemini 桌面端帶來(lái)最直觀的一個(gè)體驗(yàn)變化就是「喚起」。在網(wǎng)頁(yè)版里,使用 Gemini 的前提是打開(kāi)瀏覽器,進(jìn)入頁(yè)面,再開(kāi)始對(duì)話。這個(gè)過(guò)程本身并不復(fù)雜,但每一步都意味著一次體驗(yàn)上的中斷:你需要離開(kāi)當(dāng)前正在處理的任務(wù),切換到另一個(gè)環(huán)境,再切回來(lái)。
桌面端把這一步壓縮成了一個(gè)動(dòng)作——快捷鍵喚出,在 macOS 上為了避開(kāi)蘋(píng)果自己的 Spotlight(聚焦搜索)和便利性,默認(rèn)通常都是 Option + 空格鍵(也有雙擊 Option)。
![]()
圖片來(lái)源:雷科技
一個(gè)懸浮窗口疊在當(dāng)前界面之上,不需要切換應(yīng)用,也不需要進(jìn)入完整頁(yè)面。這種差異看起來(lái)很小,但在頻繁調(diào)用的場(chǎng)景里,會(huì)被不斷放大。寫(xiě)東西、查資料、改內(nèi)容,這類操作往往是碎片化的,路徑越短,越容易被真正用起來(lái)。
不過(guò)這個(gè)交互設(shè)計(jì)早就成了「標(biāo)準(zhǔn)」。至少以我的使用經(jīng)歷來(lái)說(shuō),幾乎所有 AI 助手/瀏覽器的桌面端都標(biāo)配了這個(gè)功能。硬要說(shuō)的是,主要區(qū)別都是「位置」,比如 ChatGPT 的桌面端提供了「中下」「左下」「右下」以及「記住上次位置」,Gemini 則是強(qiáng)制使用上次位置。
另一個(gè)明顯的變化則是「分享窗口」。
簡(jiǎn)單來(lái)說(shuō),在系統(tǒng)相應(yīng)權(quán)限的授權(quán)之后,可以把某個(gè)應(yīng)用窗口交給 Gemini 作為上下文來(lái)源。和網(wǎng)頁(yè)版相比,「分享窗口」也是一個(gè)完全新增的能力,因?yàn)闉g覽器里的 Gemini 很難直接接觸到系統(tǒng)內(nèi)其他 App 的內(nèi)容。
![]()
圖片來(lái)源:雷科技
不過(guò)從實(shí)際體驗(yàn)來(lái)看,這個(gè)功能的實(shí)現(xiàn)方式并不復(fù)雜,本質(zhì)仍然是基于對(duì)截圖的圖像理解,你甚至可以理解為一次「持續(xù)截圖」。開(kāi)啟之后,Gemini 會(huì)在每次發(fā)出提示詞時(shí)截圖相應(yīng) App 當(dāng)前窗口的畫(huà)面,用來(lái)作為對(duì)話上下文。它的價(jià)值在于減少操作成本。
ChatGPT 桌面端的類似功能叫「屏幕截圖」,但每次都需要手動(dòng)觸發(fā)截圖,再發(fā)起一次新的請(qǐng)求。而 Gemini 則是一次開(kāi)啟之后,可以在對(duì)話過(guò)程中持續(xù)使用。這在處理文檔、表格或者網(wǎng)頁(yè)內(nèi)容時(shí),會(huì)更順手一些。
![]()
ChatGPT 的屏幕截圖,圖片來(lái)源:雷科技
但它能看到的,仍然只是「畫(huà)面」。對(duì)于應(yīng)用內(nèi)部的結(jié)構(gòu)、狀態(tài),或者更細(xì)粒度的信息,當(dāng)前版本并沒(méi)有表現(xiàn)出更深入的理解能力。這一點(diǎn)在復(fù)雜任務(wù)中會(huì)逐漸顯現(xiàn),比如需要精確定位、跨區(qū)域引用內(nèi)容時(shí),仍然會(huì)回到手動(dòng)補(bǔ)充信息的方式。
其他核心功能,Gemini 桌面端目前已經(jīng)對(duì)齊了網(wǎng)頁(yè)端,包括支持制作圖片、音樂(lè)、視頻,還有 Canvas、Deep Research、學(xué)習(xí)輔導(dǎo)模式等。
問(wèn)題比較大的是很多管理、設(shè)置還是要跳轉(zhuǎn)網(wǎng)頁(yè)版進(jìn)行調(diào)整,比如記憶管理,目前在客戶端中只是一個(gè)入口,點(diǎn)擊之后會(huì)直接跳轉(zhuǎn)到瀏覽器中才能繼續(xù)查看和管理。
甚至,Gemini 桌面端的對(duì)話界面里還保留了「在瀏覽器打開(kāi)」這樣的選項(xiàng)。
![]()
Gemini 桌面端,圖片來(lái)源:雷科技
從這個(gè)設(shè)計(jì)來(lái)看,Gemini 桌面端的產(chǎn)品團(tuán)隊(duì)?wèi)?yīng)該也明白目前版本還很粗糙,在比較簡(jiǎn)單的使用需求和場(chǎng)景下或許夠用,但一旦涉及更完整的管理和配置,仍然需要回到網(wǎng)頁(yè)版。
整體看下來(lái),這個(gè)剛上線的 Gemini 桌面端,確實(shí)解決了之前 Gemini 無(wú)法全局快速調(diào)用、需要反復(fù)手動(dòng)截圖的問(wèn)題,但它遠(yuǎn)遠(yuǎn)還稱不上好用。尤其是對(duì)比已經(jīng)迭代了很久的其他競(jìng)品。
從產(chǎn)品角度,Gemini 離 ChatGPT、Claude 還差得遠(yuǎn)
把 Gemini 和 ChatGPT、Claude 的桌面端(僅考慮 macOS 版)放在一起用,很難再用「感覺(jué)」去評(píng)價(jià),差距基本都體現(xiàn)在具體功能上,而且是那種一上手就能察覺(jué)的差別。
先講講 ChatGPT 的桌面端,它已經(jīng)不只是一個(gè)對(duì)話窗口,同時(shí)也在嘗試打造一個(gè)以 ChatGPT 為核心的應(yīng)用生態(tài)。在實(shí)際使用中,可以直接調(diào)用 macOS 本地應(yīng)用,也可以接入一批已經(jīng)打通的第三方工具,比如 Adobe Photoshop、Canva、Figma、Apple Music、OpenTable 等。
![]()
ChatGPT 支持的第三方應(yīng)用,圖片來(lái)源:雷科技
這類能力,更是重要的是給使用方式本身帶來(lái)了變化。直接在當(dāng)前流程里,把相關(guān)內(nèi)容交給 ChatGPT,由它完成分析、生成,甚至一部分操作。這個(gè)過(guò)程中,AI 相當(dāng)于直接嵌進(jìn)了日常的生活和工作流程中,比如直接基于 Figma 讓 AI 快速修改原型設(shè)計(jì)等。
另一方面,雖然在很多核心功能上和 ChatGPT 也差不多,但 Claude 從大模型層面并不像 GPT、Gemini 一樣重視多模態(tài),而是更重視 Agent 代理功能。這一點(diǎn)也體現(xiàn)在桌面端應(yīng)用上。
事實(shí)上,Claude 最早在 2024 年 10 月就嘗試推出了基于 Claude 桌面端的 Computer Use 代理功能,讓 AI 能夠直接代理操作。不過(guò)后續(xù)也發(fā)現(xiàn)從模型、智能體框架到生態(tài)都沒(méi)準(zhǔn)備好,于是從代碼出發(fā)打造了 Claude Code,又延伸出了 Claude Cowork,直接讓 AI 通過(guò) CLI 命令行、GUI 圖形界面直接代理操作計(jì)算機(jī)。
![]()
圖片來(lái)源:X
此外,Claude 還能再基于「連接器」接入 Slack、設(shè)計(jì)工具、文檔平臺(tái)等,把不同工具里的信息拉到一起處理。
而這些都是 Gemini 缺失的。不過(guò)也要說(shuō)明,有些問(wèn)題是桌面端的,有些則不是。尤其是在生態(tài)方面,Google 似乎受制于自身強(qiáng)大但有限的生態(tài),并沒(méi)有像 OpenAI 和 Anthropic 一樣積極介入其他第三方軟件和平臺(tái),導(dǎo)致對(duì)很多人來(lái)說(shuō),并不能無(wú)縫介入實(shí)際的工作流程中。
所以可以說(shuō),這一版 Gemini 的桌面端更像是一個(gè)起點(diǎn),它才剛剛解決了把 Gemini 帶到桌面上的問(wèn)題,但還沒(méi)有回答一個(gè)更關(guān)鍵的問(wèn)題:
當(dāng) AI 已經(jīng)可以參與工作流時(shí),這個(gè)桌面端準(zhǔn)備讓用戶在這里完成多少事情?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.