網易首頁 > 網易號 > 正文申請入駐

Gemini 3 深夜發布：碾壓GPT-5.1、超越Claude 4.5，中文卻是短板？

2025-11-20 07:56:10　來源: 人人都是產品經理社區

廣東舉報

分享至

從數學競賽的 “地獄級” 突破到智能體開發平臺的生態革新，這場由 TPU 算力支撐的技術爆發，標志著 Google 在 AGI 賽道強勢回歸。但光鮮戰績背后，中文表現與寫作能力的明顯短板，也讓這場 “最好 LLM” 之爭留下了更多懸念。

———— / BEGIN / ————

推特上喊了快 1個月的 Gemini 3「馬上發布」，昨晚狼真的來了！

沒有任何多余的廢話，打開 Model Card，滿眼寫著的只有兩個字：碾壓。連 Sam Altman 都久違地獻上了自己的點贊。

這一次，那個曾經定義了 Transformer、如今「All in Gemini」的巨人，真的殺回來了。

全面霸榜的推理怪獸：SOTA 殺瘋了

事實證明，Google 沒有讓等待的人失望。Gemini 3 Pro 的發布再一次定義了 SOTA（State-Of-The-Art）。

根據 Google 披露的數據，Gemini 3 Pro 在推理、多模態、Agent 工具使用等關鍵基準上，實現了全方位的霸榜。

數學能力的「地獄級」碾壓：在數學競賽的「地獄模式」MathArena Apex 里，當包括 GPT-5.1 在內的其他大模型還在1%上下掙扎時，Gemini 3 Pro 直接干到了23.4%。這就像小學生還在掰手指算加減法，旁邊的 Gemini 3 已經開始徒手搓火箭了。
人類智力的天花板：在 Humanity’s Last Exam（人類最終大考）中，Gemini 3 Pro 轟出了37.5%的高分（GPT-5.1 為 26.5%）。在開啟工具使用后，更是達到了45.8%。
視覺智能的質變：在衡量屏幕理解能力的 ScreenSpot-Pro 測試中，GPT-5.1 得分僅為 3.5%（基本是瞎子），而 Gemini 3 Pro 高達72.7%。這是近乎20 倍的能力碾壓！

但這還不是極限。

Google 還藏了一手Gemini 3 Deep Think（深度思考模式）。

在不使用任何工具的情況下，Deep Think 模式在 Humanity's Last Exam 上的得分飆升至41.0%。

在 ARC-AGI-2 上更是取得了前所未有的45.1%的得分。

這意味著模型在處理復雜學術問題時，已經具備了完全不同的理解深度。

顛覆性的交互體驗：生成式 UI 與 Vibe Coding

Gemini 3 的野心不止于跑分，它正在從 Chatbot 進化為Generative App。

首創「生成式界面」（GenUI）：以前的 AI 給你文字或代碼，現在的 Gemini 3 能直接為你生成一個交互界面。比如搜索「RNA 聚合酶工作原理」，它不再扔給你一堆鏈接，而是利用強大的推理能力，即時生成（Generated on the fly）一個沉浸式的互動 3D 分子模型。你不僅可以瀏覽，還能點進去和里面的元素交互。

Vibe Coding：理解你的「直覺」Gemini 3 引入了「Vibe Coding」概念。你不需要清楚地描述開發要求，它能捕捉你的開發風格和模糊意圖。只用一句話，Gemini 3 就能通過感知你的「編碼直覺」，直接生成全功能的應用程序。

實測了幾個案例，前端能力簡直炸裂：

復刻 Web OS：僅僅輸入一段 Prompt，要求創建一個類似 Windows 的 Web OS。Gemini 3 Pro 寫了將近 2 分鐘，結果真的生造了一個系統！從終端、代碼編輯器到畫圖工具，大部分功能竟然都是可用的。

復古 3D 游戲：編寫一款具有豐富視覺效果的太空飛船游戲，一句話搞定（from 機器之心」

Google Antigravity：Agent 優先的開發平臺

有了最強的模型，Google 直接在應用層「掀桌子」，扔出了小王炸——Google Antigravity。

這不僅僅是一個 IDE，它是 Google 定義的Agent-first（智能體優先）開發平臺。在這里，Gemini 3 化身為擁有編輯器、終端和瀏覽器完整權限的「執行合伙人」。

Antigravity 配置了一個「模型軍團」協同作戰：

Gemini 3：大腦，負責推理和寫代碼。
Gemini 2.5 Computer Use：手眼，控制瀏覽器進行 UI 驗證。
Nano Banana：美工，生成圖像和 UI 素材。

這種打通底層模型到頂層交互的閉環體驗，對于 Cursor 等現有編輯器來說，無疑是一次降維打擊。Agent 可以代表你自主規劃并執行復雜的端到端軟件任務，甚至自己打開瀏覽器驗證 UI，發現報錯自己修。

致命短板：寫作能力慘遭 Claude 4.5 吊打

雖然代碼和推理能力強到讓人頭皮發麻，但在寫作能力上，Gemini 3 Pro 卻讓人大跌眼鏡。

實測顯示，在科普文章寫作方面，Gemini 3.0 的表現幾乎是在「御三家」里墊底。

以「基于上下文工程技術文章寫科普文」為例：

Claude 4.5 Sonnet：寫了 3000 字，場景描述抓人，用咨詢顧問做類比把抽象概念講透，結尾還能升華認知。
Gemini 3.0：輸出只有 1000 多字。雖然開頭用了「你有沒有過這樣的經歷」的套路，但每個觀點點到為止，缺乏展開和讓人眼前一亮的類比。

更讓人抓狂的是，Gemini 3.0 依然保留了老毛病：喜歡在中文后面加括號注釋英文單詞（如「提示詞工程(Prompt Engineering)」），讀起來非常割裂，像是一份沒翻譯完的文檔。

相比之下，Claude 4.5 Sonnet 理解什么時候該鋪墊、什么時候該直給，這一點目前 Gemini 3 確實還做不到。

谷歌王者歸來

Gemini 3 的發布，釋放了一個強烈的信號：算力霸權依然存在。

Gemini 3 Pro 是使用 Google TPU 從頭開始訓練的。當全世界都在等英偉達 GPU 時，Google 坐在自家的 TPU 礦山上，擁有極高的帶寬內存和算力冗余，這給了它肆意擴張參數規模的底氣。

從底層的 TPU 硅基霸權，到中間層的 Antigravity 開發生態，再到頂層的生成式 UI，Google 展示了一個只有巨頭才能構建的嚴絲合縫的未來。

雖然寫作能力略顯拉胯，但在代碼、推理和多模態交互上，Gemini 3 確實已經殺瘋了。

對于開發者而言，會不會寫前端、會不會調框架可能真的不重要了。重要的是你能不能把腦子里的東西，翻譯成精準的 Prompt。

Gemini 3 現已全面開放，即日起可通過 Google AI Studio 體驗。

至于它到底能不能終結「最好的 LLM」之爭？讓子彈（和服務器）再飛一會兒。

本文來自公眾號：餅干哥哥AGI 作者：餅干哥哥AGI

2025AI產品大會，將于12月20-21日在深圳開幕！

聚焦“AI+行業”的落地實踐，分享AI在物流、音視頻、內容、數字化、工業制造、大數據、協同辦公、出海、具身智能、智能硬件等等領域的具體案例。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.