網易首頁 > 網易號 > 正文申請入駐

谷歌Gemini 3震撼發布！全面碾壓GPT-5.1，奧特曼親自祝賀，AI新時代來臨

2025-11-19 18:09:07　來源: 人工智能學家

北京舉報

分享至

來源：AIGC深一度

【北京時間2025年11月19日凌晨】谷歌DeepMind正式發布了新一代旗艦AI模型Gemini 3，這一被業內稱為"史上最強推理+多模態+氛圍編程三合一AI戰神"的模型，在多個基準測試中全面超越OpenAI的GPT-5.1，標志著AI競賽進入全新階段。

深夜突襲，全球AI界為之震動

就在今天凌晨，谷歌毫無預兆地放出了這個重磅炸彈。Gemini 3一出手就是頂配的Pro版本，展現出令人震撼的推理能力、多模態理解和智能體編碼水平。更令人意外的是，發布僅一小時后，OpenAI CEO薩姆·奧特曼就親自發推表示祝賀。

"祝賀谷歌發布Gemini 3！看起來是個很棒的模型。"

奧特曼在推文中寫道。這一罕見的舉動被業界解讀為對Gemini 3實力的認可，也預示著AI領域競爭格局的重大變化。

基準測試全面碾壓，性能實現質的飛躍

Gemini 3 Pro在各項基準測試中的表現堪稱驚艷。從學術推理到多模態理解，從數學能力到編程智能，幾乎在所有核心指標上都實現了對前代產品和競爭對手的全面超越。

在關鍵測試中的表現令人印象深刻：

人類最后考試（HLE）：37.5%（無工具）→45.8%（帶搜索和代碼執行）

GPQA科學知識測試：91.9%的高分，展現博士級推理能力

AIME數學測試：95.0%（無工具）→100%（帶代碼執行）

MMMU-Pro多模態理解：81.0%的優異成績

與Gemini 2.5 Pro相比，3代產品在所有核心指標上都實現了顯著提升。更令人矚目的是，它甚至在多個測試中直接超越了OpenAI剛剛發布的GPT-5.1，展現出谷歌在AI技術上的重大突破。

三大核心突破，重新定義AI能力邊界

突破一：前所未有的推理能力

Gemini 3 Pro最引人注目的特點之一就是其強大的推理能力。該模型在需要深度思考和復雜邏輯推理的任務中表現卓越，能夠處理傳統AI模型難以應對的復雜問題。

"Gemini 3 Pro具備超強的推理能力，能夠深入理解問題本質，提供有見地的回答。"

谷歌DeepMind團隊在官方博客中表示，"特別是在處理復雜科學問題時，它展現出了接近人類專家水平的能力。"

在實際測試中，Gemini 3 Pro不僅能夠解決復雜的數學問題，還能進行科學推理和邏輯分析。例如，它能夠理解并解決托卡馬克裝置中等離子體流動的物理問題，并生成相應的可視化代碼，甚至能夠創作捕捉聚變物理學精髓的詩歌。

突破二：世界領先的多模態理解

Gemini 3在多模態理解方面實現了質的飛躍。該模型能夠無縫處理文本、圖像、視頻、音頻和代碼等多種信息形式，在跨模態理解和生成任務中表現出色。

多模態能力的具體體現：

視頻理解：Video-MMMU測試中獲得87.6%的高分

屏幕理解：ScreenSpot-Pro測試中達到72.7%的準確率

圖表理解：CharXiv復雜圖表推理中獲得81.4%的成績

文檔處理：OmniDocBench OCR測試中錯誤率顯著降低

這種強大的多模態能力使得Gemini 3能夠應用于各種實際場景。例如，用戶可以將手寫食譜拍照上傳，Gemini 3能夠識別不同語言的文字并將其轉換為可共享的電子食譜；或者分析匹克球比賽視頻，提供技術改進建議和訓練計劃。

突破三：革命性的氛圍編程能力

在編程和智能體能力方面，Gemini 3實現了真正意義上的突破。該模型在WebDev Arena排行榜上以1487 Elo高分登頂，在Terminal-Bench 2.0工具使用測試中獲得54.2%的高分，在SWE-bench編碼智能體測試中達到76.2%的準確率。

編程能力的實際演示令人震撼：

一次性生成完整的3D樂高編輯器，包含UI和空間邏輯

僅憑文本提示重現經典iOS游戲《荒謬釣魚》，包含音效和背景音樂

構建功能完備的Game Boy模擬器，并用SVG繪制外觀

創建復雜的3D太空飛船游戲，具有豐富的視覺效果

Google AI Studio負責人Logan在測試后表示："我把彈跳球示例的難度提升了10倍，Gemini 3 Pro一次就完美搞定！這確實不是多次嘗試中的最佳結果，而是第一次提示就完成了。"

Deep Think模式：開啟深度思考新紀元

除了標準版本，Gemini 3還引入了Deep Think模式，這一模式在原有基礎上進一步提升了模型的推理和思考深度。

Deep Think模式在多個高難度測試中表現卓越：

人類最后考試（HLE）：41%的優異成績（無工具）

GPQA Diamond科學知識測試：93.8%的高分

ARC-AGI-2視覺推理謎題：45.1%的歷史新高

這一模式特別適合處理需要深度分析和復雜推理的任務，為研究人員和開發者提供了更強大的工具。

百萬token上下文，全模態能力大爆發

Gemini 3支持高達100萬token的上下文長度，這一突破使得模型能夠處理極其冗長的文檔、視頻或復雜代碼庫。結合其全模態理解能力，Gemini 3為各種復雜應用場景打開了大門。

長上下文能力的實際應用包括：

分析長篇學術論文或技術文檔

處理長達數小時的視頻講座內容

理解和維護大型代碼庫

進行復雜的多步驟任務規劃

這一能力與谷歌搜索中的AI模式相結合，創造了全新的生成式UI體驗。用戶可以通過自然語言查詢獲得沉浸式視覺布局、交互式工具和模擬環境，所有這些內容都是根據查詢實時生成的。

智能體能力飛躍，長程規劃實現突破

Gemini 3在智能體能力方面實現了重大突破，特別是在長程規劃任務中表現卓越。在Vending-Bench 2測試中，Gemini 3 Pro以絕對優勢登頂，這一測試通過模擬運營自動售貨機業務來評估AI在復雜場景下的長期規劃能力。

在整個模擬運營年度中，Gemini 3 Pro通過保持一致的工具使用和決策，實現了顯著更高的回報。這意味著Gemini 3能夠在日常生活中更好地協助人類完成復雜任務，如預定本地服務或整理收件箱，而人類只需把控方向即可。

Google Antigravity：革命性智能體開發平臺

配合Gemini 3的發布，谷歌還推出了全新的智能體開發平臺Google Antigravity。這一平臺允許開發者以"任務"為維度與智能體協同工作，將AI輔助從工具升級為全程參與的主動協作者。

Google Antigravity的特點包括：

為智能體提供專用界面，可直接訪問編輯器、終端和瀏覽器

支持智能體自主規劃并執行復雜的端到端軟件任務

實時驗證生成的代碼質量和功能

與Gemini 3 Pro、Gemini 2.5計算機使用模型緊密集成

在該平臺上，Gemini 3能夠獨立規劃、編寫應用程序代碼，并通過基于瀏覽器的計算機操作驗證其執行效果。例如，它可以驅動飛行跟蹤應用程序的完整開發流程，展現出強大的端到端解決問題的能力。

實際應用演示，展現驚人創造力

Gemini 3發布后，全球開發者紛紛進行實測，結果令人驚嘆。前Anthropic AI工程師Pietro Schirano讓Gemini 3 Pro創建3D樂高編輯器，結果模型僅憑一次生成就完美實現了用戶界面、復雜的空間邏輯以及所有功能。

其他令人印象深刻的演示包括：

生成具有豐富視覺效果的復古3D太空飛船游戲

構建可玩的科幻世界，包含復雜的著色器效果

創建交互式Web UI和應用程序，前端開發效率大幅提升

編寫復雜的科學可視化代碼，如等離子體流動模擬

技術架構與訓練突破

值得注意的是，Gemini 3完全在谷歌自家TPU上完成訓練，這一成就展示了谷歌在硬件和軟件協同優化方面的深厚積累。谷歌的TPU集群為訓練如此大規模的模型提供了必要的算力支持，同時也構成了谷歌在AI競爭中的重要護城河。

在模型架構方面，Gemini 3采用了創新的注意力機制和訓練技術，使其能夠在保持強大性能的同時，實現高效的推理速度。這些技術細節的突破為模型在各種實際應用場景中的表現奠定了堅實基礎。

定價與可用性

即日起，Gemini 3 Pro預覽版已全面上線。在Google AI Studio上，Gemini 3 Pro的API定價如下：

上下文長度≤200,000 tokens：輸入2.00/百萬tokens，輸出12.00/百萬tokens

上下文長度>200,000 tokens：輸入4.00/百萬tokens，輸出18.00/百萬tokens

Deep Think模式預計將在未來向Google AI Ultra訂閱用戶開放。全球開發者現可通過Google AI Studio、Vertex AI、Gemini CLI以及全新的Google Antigravity平臺使用Gemini 3進行應用開發。

AI新紀元已開啟，未來可期

Gemini 3的發布不僅是谷歌在AI領域的重要里程碑，更標志著整個行業進入新的發展階段。隨著多模態理解、深度推理和智能體能力的不斷提升，AI正在從簡單的工具向真正的合作伙伴演變。

"Gemini 3的誕生標志著我們在通往AGI的道路上邁出了重要一步。它能夠幫助人們學習、構建和規劃任何事物，為我們提供了理解信息和表達自我的新方式。"

未來智能實驗室的主要工作包括：建立AI智能系統智商評測體系，開展世界人工智能智商評測；開展互聯網（城市）大腦研究計劃，構建互聯網（城市）大腦技術和企業圖譜，為提升企業，行業與城市的智能水平服務。每日推薦范圍未來科技發展趨勢的學習型文章。目前線上平臺已收藏上千篇精華前沿科技文章和報告。

閱讀最新前沿科技趨勢報告，請訪問歐米伽研究所的“未來知識庫”

https://wx.zsxq.com/group/454854145828

未來知識庫是“ 歐米伽未來研究所”建立的在線知識庫平臺，收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能，數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.