網易首頁 > 網易號 > 正文申請入駐

谷歌Gemini 3 Pro 屠榜，新的Agent IDE 免費使用Gemini 3 Pro、Claude Sonnet 4.5

2025-11-20 15:38:33　來源: 機器學習與Python社區(qū)

北京舉報

分享至

大家好，我是 Ai 學習的老章。

這兩天應該都被 Gemini-3-Pro 刷屏了

號稱通向 AGI 的新里程碑

頂尖的推理能力
?深度多模態(tài)理解
強大的一鍵編碼能力，讓你從提示到應用一步到位
提升的代理能力，可以按照你的指示代你完成任務

本文梳理一下關于 Gemini-3-Pro 的全部情報

大力屠榜

Gemini 3 來的還有點靜悄悄，最開始只是 i 流傳出一個 Model Card，幾乎在所有基準測試中拿下第一

Gemini 3 Pro 憑借最先進的推理與多模態(tài)能力，能夠實現(xiàn)任何創(chuàng)意。它在每一項主要的 AI 基準測試中，表現(xiàn)都顯著超越 2.5 Pro。它以突破性的 1501 Elo 分數(shù)榮登 LMArena 排行榜榜首。在 Humanity’s Last Exam（未使用任何工具的情況下得分 37.5%）和 GPQA Diamond（91.9%）中取得高分，展現(xiàn)了博士級的推理能力。它也為前沿模型的數(shù)學能力樹立了新標準，在 MathArena Apex 上達到了 23.4% 的新高。除了文字，Gemini 3 Pro 也重新定義了多模態(tài)推理，在 MMMU-Pro 獲得 81%，在 Video-MMMU 獲得 87.6%。它還在 SimpleQA Verified 中取得了領先業(yè)界的 72.1%，展現(xiàn)了在事實準確性上的巨大進步。這意味著 Gemini 3 Pro 具備高度可靠性，能夠解決科學和數(shù)學等廣泛主題中的復雜問題。

后續(xù)其他基準測試我就不在放了，只看一下我經常關注的 Artificial Analysis 放出的一個最新指數(shù)——知識和幻覺評估基準 AA-Omniscience

Gemini 3 Pro 在AA-Omniscience指數(shù)中占據(jù)了第一名的位置。

0 表示正確和錯誤答案數(shù)量相當，負分表示錯誤答案多于正確答案。

在評估中，Gemini 3 Pro 的幻覺率為 88%，與 Gemini 2.5 Pro 和 Gemini 2.5 Flash 相同。這表明 Gemini 3 Pro 在知識方面取得了顯著進步。

AA-全知準確率（越高越好）衡量的是模型正確回答的問題數(shù)占總問題數(shù)的比例，不論模型是否選擇作答。

AA-全知幻覺率（越低越好）衡量模型在本應拒絕時答錯的頻率，定義為所有非正確嘗試中錯誤答案的比例。這一部分 Gemini 3 就差點意思了

更多詳情：Artificial Analysis Evaluations

其他細節(jié)-API使用 1. 思考等級 (Thinking Level)

thinking_level參數(shù)用于控制模型在生成回答之前進行內部推理過程的最大深度。

low：低延遲，低成本。適合簡單指令、聊天。
high（默認）：最大化推理深度。適合復雜任務。

注意：OpenAI 的reasoning_effort參數(shù)會自動映射到thinking_level（中等映射到高）。

2. 溫度設置 (Temperature)

對于 Gemini 3，強烈建議將溫度保持為默認值 1.0。 Gemini 3 的推理能力已針對默認設置進行了優(yōu)化。降低溫度可能會導致循環(huán)或性能下降。

3. 媒體分辨率

Gemini 3 提供了更精細的媒體控制：

媒體類型

推薦設置

Token 上限

圖片media_resolution_high

1120

最佳質量，適合分析細節(jié)。

PDFmedia_resolution_medium

560

適合文檔理解，性價比最高。

視頻media_resolution_low

70/幀

適合大多數(shù)動作識別。

4. API 定價與規(guī)格

模型 ID

上下文窗口

知識截止

定價 (輸入/輸出)

gemini-3-pro-preview

100 萬 / 6.4 萬

2025 年 1 月

12 (<200k)
18 (>200k)

價格按每百萬 token 計算。

免費使用的話，強烈推薦這個谷歌剛剛與 Gemini 3 Pro 一同推出的 Google Antigravity：下一代 Agent 開發(fā)平臺，該平臺目前處于免費預覽階段。它由 Gemini 3 Pro 提供支持，支持瀏覽器控制并提供工作證明。此外，該平臺還集成了 Claude Sonnet 和 GPT-OSS。

訪問 antigravity.google/download 免費下載公共預覽版（支持 MacOS、Windows 和 Linux

我看了一下 Price 頁，被感動了：個人用戶目前可以 0 元購，免費使用 Gemini 3 Pro 和 Claude Sonnet 4.5

Antigravity 有三個“面板”：

代理管理儀表板
VS Code 風格的編輯器
深度瀏覽器集成（通過 Chrome 擴展）

整體與 Cusor、Winsurf 幾乎沒啥區(qū)別

總結：Google 這一次不僅在模型性能上重回巔峰，更通過 Antigravity 和全棧生態(tài)的整合，展現(xiàn)了可怕的統(tǒng)治力。Gemini 3 + Android + Workspace，這才是真正的 AI 原生體驗。加上最佳圖像生成- Nano Banana 2、最佳視頻生成- Veo 3.1、最佳模型- Gemini 3，谷歌真就要贏下 AI 競賽了嗎……

老章薦書

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.