Claude 靠Opus4.7搶占風頭,Google 也有大招,而且是三連發(fā),咱逐個拆解
![]()
Google Gemini 三連發(fā)全景速覽
從桌面端到開發(fā)者工具,再到語音合成,三條線同時發(fā)力
Google 這波屬于憋了一股勁,要把 Gemini 生態(tài)從頭鋪到尾
一、Gemini Mac 桌面版
Google 首次把 Gemini 帶上了 Mac 桌面
原生 Swift 開發(fā),與 Antigravity 團隊合作,據(jù)說從 idea 到原型只用了幾天
![]()
直接說體驗重點:
① 全局快捷鍵,隨叫隨到
Option + Space任何界面一鍵呼出 Gemini 迷你對話框,就像 Mac 的 Spotlight 一樣
還有Option + Shift + Space可以打開完整聊天界面,兩個快捷鍵都可以自定義
這個體驗真的很順滑
你在寫代碼突然卡殼了,Option + Space 問一句,答完繼續(xù)寫,全程不用切窗口、不用開瀏覽器
![]()
② 窗口共享,看到你在干什么
這是我覺得最有意思的功能
點擊「Add files and tools → Share window」,Gemini 就能看到你當前窗口的內容——文檔、代碼、數(shù)據(jù)表格都行
它會根據(jù)你屏幕上的內容直接給出上下文相關的回答。
舉個例子:你打開一個 Python 腳本,共享窗口后直接問「這段代碼有什么 bug?」,它能直接看到代碼給你分析,不用再復制粘貼了。
![]()
③ 創(chuàng)作能力集成
圖片生成(Nano Banana)、視頻生成(Veo)都內置了
桌面端直接就是一個創(chuàng)作工作站
④ 多設備同步
同一個 Google 賬號,聊天記錄和記憶跨設備同步——手機上聊到一半,Mac 上接著聊
系統(tǒng)要求:
項目
要求
系統(tǒng)版本
macOS Sequoia(15.0)或更高
芯片
僅 Apple Silicon(M 系列)
內存
8 GB 以上
磁盤空間
200 MB 以上
網(wǎng)絡
需要穩(wěn)定連接
費用
? 下載地址:gemini.google/mac
說實話,這個桌面 App 的定位很清晰——不開瀏覽器就能用 AI
對比 ChatGPT 桌面版,Gemini 的窗口共享是差異化亮點,它能直接"看到"你在干什么,上下文理解比純文字對話強多了
不過目前只支持 Apple Silicon,Intel Mac 用戶暫時無緣
而且本質上是聯(lián)網(wǎng)應用,離線場景下幫不了你
二、Gemini CLI 支持 Subagents,重頭戲來了
如果說 Mac App 是給普通用戶的禮物,那 Subagents 就是給開發(fā)者的大殺器
之前用 Gemini CLI 處理復雜任務,最大的痛點是什么?上下文窗口越用越臃腫
查個代碼架構,跑幾輪測試,上下文就爆炸了,后面的對話質量直線下降
這個問題在 Claude Code 里也存在,它的解決方案是 Task 工具
現(xiàn)在 Gemini CLI 的答案是Subagents——一句話概括:主 Agent 終于有了自己的專家團隊。
![]()
Subagents 架構一覽 什么是 Subagents?
Subagents 就是跟主 Agent 并肩作戰(zhàn)的「專家」
![]()
Gemini CLI - Parallel Subagents
每個 Subagent 都有:
獨立的上下文窗口—— 不污染主對話
專屬的系統(tǒng)指令—— 可以定制行為和人設
獨立的工具集和 MCP 服務器—— 精確控制能做什么
執(zhí)行完匯總返回—— 內部可能跑了幾十輪工具調用,但返回給主 Agent 的只是一份精煉總結
這就意味著,你的主上下文永遠干凈利落,不會因為中間過程膨脹變慢。
三個內置 Subagent,開箱即用
名稱
定位
什么時候用
generalist
通用型,繼承所有工具
批量重構、跑大量命令、高輸出量任務
codebase_investigator
代碼庫探索專家
架構分析、依賴追蹤、Bug 根因定位
cli_help
Gemini CLI 使用專家
問配置、問命令、問功能怎么用
還有一個實驗性的browser_agent,可以自動化瀏覽器操作——填表單、點按鈕、提取頁面信息。需要 Chrome 144+ 并在settings.json里手動啟用。=
自定義 Subagent,一個 Markdown 文件搞定
重點來了:一個.md文件 = 一個專家 Agent
舉個例子,定義一個前端專家:
---
name: frontend-specialist
description: Frontend specialist in building high-performance,
accessible, and scalable web applications.
tools:
-read_file
-grep_search
-glob
-list_directory
-web_fetch
-google_web_search
model: inherit
---
You are a Senior Frontend Specialist and UI/UX Architect.
Your goal is to design and implement exceptional,
production-grade user interfaces.### Core Principles:
-Architecture & Scalability
-Performance & Optimization
-Accessibility (A11y)
文件放到.gemini/agents/目錄,Gemini CLI 自動識別。項目級的放.gemini/agents/(團隊共享),個人全局的放~/.gemini/agents/。
配置項也很靈活:
字段
name
唯一標識,也是 @語法 調用時的名字
description
描述,主 Agent 靠這個決定何時派活
tools
可用工具列表,支持通配符(*全部、mcp_*所有 MCP 工具)
model
指定模型,默認inherit繼承主 Agent
temperature
溫度,0-2
max_turns
最大對話輪數(shù),默認 30
timeout_mins
超時時間,默認 10 分鐘
并行執(zhí)行,效率起飛
Subagents支持并行運行。比如你要同時調研 5 個模塊的架構,可以一口氣派出 5 個 Subagent 同步執(zhí)行,總耗時約等于最慢那一個。
你甚至可以直接說:
? "Run the frontend-specialist on each package in parallel."
不過要注意:并行執(zhí)行代碼編輯任務可能會沖突,多個 Agent 同時改文件容易互相覆蓋。并行更適合只讀型任務——分析、調研、測試。
@ 語法直接點名
用@符號可以精準派活,跳過主 Agent 的自動判斷:
@codebase_investigator 幫我梳理認證模塊的調用鏈路安全機制
@generalist 把項目里所有文件的 License 頭更新一遍
@security-auditor 審計 src/api/ 目錄的安全性
工具隔離:每個 Subagent 只能用你明確授權的工具,不會越權
遞歸保護:Subagent不能調用其他 Subagent,防止無限套娃、Token 爆炸。
還可以配合 Policy Engine(策略引擎)做更細粒度的權限控制,比如只允許某個 Subagent 執(zhí)行git push。
用/agents命令可以隨時查看當前所有可用的 Subagent:
![]()
Gemini CLI /agents 命令
我的判斷:Subagents 是 Gemini CLI 迄今最重要的一次更新。之前我給 Gemini CLI 打了 99 分,現(xiàn)在加上 Subagents,可以認真跟 Claude Code 的 Task 工具掰手腕了。核心解決的問題是:讓 AI 編程從「單打獨斗」進化到「團隊協(xié)作」。
? Subagents 文檔:https://geminicli.com/docs/core/subagents/ GitHub:https://github.com/google-gemini/gemini-cli三、Gemini 3.1 Flash TTS:用自然語言「導演」AI 說話
最后一個更新在語音領域
Gemini 3.1 Flash TTS 是 Google 最新的文字轉語音模型,核心賣點三個字:能控制
音質:Elo 1211,性價比最優(yōu)象限
在 Artificial Analysis TTS 排行榜上(基于數(shù)千次人類盲測偏好),3.1 Flash TTS 拿到了Elo 1211 分。更關鍵的是,它被定位在「最具吸引力象限」——質量高、價格低。
在 TTS 領域,這個定位很有競爭力。ElevenLabs 質量確實好,但貴;開源方案便宜,但效果參差不齊
![]()
Artificial Analysis TTS 排行榜 Audio Tags:最大的創(chuàng)新
這是這次 TTS 更新最讓我眼前一亮的功能。你可以在文本里嵌入Audio Tags(音頻標簽),用自然語言直接指導 AI 怎么說話:
場景導演(Scene Direction)設定環(huán)境和對話指令。比如告訴它「這是一個深夜廣播節(jié)目,語氣低沉溫暖」,角色就會保持這個狀態(tài)。
角色級控制(Speaker-level Specificity)為每個角色設置獨立的 Audio Profile——語速、語調、口音都可以分別調。甚至可以用 inline tags 在句子中間切換表達方式。
一鍵導出(Seamless Export)在 Google AI Studio 里調好所有參數(shù)后,可以直接導出為 Gemini API 代碼。調試一次,到處復用。
這個思路很聰明——與其讓用戶在后臺調一堆參數(shù)滑塊,不如讓用戶用自然語言直接「導演」。降低了創(chuàng)作門檻,又給專業(yè)用戶足夠的精細度。
其他亮點
70+ 語言支持,中文在列
原生多角色對話,做播客、有聲書的朋友有福了
SynthID 水印,所有生成音頻都帶不可感知水印,標識 AI 生成內容
? 模型卡片:deepmind.google/models/model-cards/gemini-3-1-flash-audio/總結
Google 這波三連發(fā),覆蓋面很廣:
更新
面向誰
一句話總結
Gemini Mac App
普通用戶
Option + Space
隨時呼出,窗口共享是亮點
Gemini CLI Subagents
開發(fā)者
主 Agent + 專家團隊,上下文不再爆炸
Gemini 3.1 Flash TTS
內容創(chuàng)作者 / 開發(fā)者
Audio Tags 用自然語言控 AI 語音,70+ 語言
三個更新里,我個人最看好Gemini CLI Subagents。它解決了 AI 編程助手最核心的架構問題——單 Agent 上下文有限,復雜任務需要多 Agent 協(xié)作。Google 的實現(xiàn)方式(Markdown 定義 + 工具隔離 + 并行執(zhí)行)簡潔優(yōu)雅,上手成本很低。
桌面 App 方便,TTS 有創(chuàng)新,但真正改變開發(fā)者日常工作流的,是 Subagents。
制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發(fā)和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.