網易首頁 > 網易號 > 正文申請入駐

春節檔大模型再開戰，谷歌 Gemini 3.1Pro跑分超Claude，成本還更低

2026-02-21 10:54:13　來源: 藍鯨新聞

上海舉報

分享至

藍鯨新聞2月21日訊（記者武靜靜）就在開發者社區還在討論各家春節期間的更新時，谷歌深夜放出了新一代模型底座——Gemini 3.1 Pro。谷歌表示，從去年11月至今，用戶真實的反饋，都加速了每一次的研發迭代。

相比去年11月發布的 Gemini 3 Pro，這次版本號只增加了"0.1"，但從官方披露的測試結果來看，3.1Pro在多模態生成和深度推理上躍升了一大步。

最直觀的變化來自推理能力的躍升。在ARC-AGI-2測試中，Gemini 3.1 Pro得分達到77.1%，而Gemini 3 Pro為31.1%，性能直接翻倍以上。在衡量跨學科復雜問題能力的 Humanity’s Last Exam 中，Gemini 3.1 Pro得分44.4%，不僅高于前代的37.5%，也超過了GPT-5.2的34.5%。

在綜合人工智能分析指數中，Gemini 3.1 Pro預覽版同樣位居榜首，領先Claude Opus 4.6約4分，同時運行成本卻不到后者的一半。對于企業和開發者而言，這種"性能提升+成本不升"的組合，往往比單純的榜單排名更具吸引力。

開發者的反饋也集中在這一點上。有開發者評論稱，當Gemini 3在去年11月發布時，其能力覆蓋率就已達到約37.5%，相較此前模型有明顯躍升。而這次更新后，"大家都在關注分數，但真正關鍵的是效率——很多任務成本不到1美元，卻能達到接近80%的完成度"。

從使用路徑來看，谷歌正在繼續強化其平臺化布局。開發者目前可以通過 Gemini API、Google AI Studio、Gemini CLI、Android Studio（預覽版）等工具調用模型；企業側則接入 Vertex AI 和 Gemini Enterprise；普通用戶則可在 Gemini App 和 NotebookLM 中直接使用，其中Pro和Ultra訂閱用戶擁有更高額度。

如果說榜單成績代表能力上限，那么官方展示的案例則更能體現模型能力的進化。

在一個演示中，Gemini 3.1 Pro生成了一套完整的交互式3D椋鳥群舞系統：模型不僅編寫了實時渲染的視覺代碼，還設計了基于手部追蹤的交互邏輯，并生成隨鳥群運動動態變化的音樂。最終呈現的并非單一代碼片段，而是一個融合視覺、動作與聲音的沉浸式體驗原型。

對于研究人員、交互設計師和創意開發者來說，這意味著模型開始具備構建"多感官系統級原型"的能力，而不只是生成單一模態內容。

從官方對比效果來看，Gemini 3.1 Pro在動作連貫性、空間穩定性以及色彩表現上，相較3.0 Pro也有明顯提升，多模態生成正逐步從"可用"走向"可控"。

很多開發者已經開始用Gemini 3.1 Pro手搓各種應用，一位日本用戶分享，他正使用 "Antigravity + Gemini 3.1 Pro" 進行游戲開發，并感嘆："隨著 Gemini 3.1 Pro 的迭代，其對日語的響應范圍和準確度都明顯提升，目前的開發體驗非常不錯。"

另一位網友則直接曬出了落地頁的設計成果，并給出了高度評價："在設計落地頁方面，效果簡直太棒了。" 他還附上了自己在使用過程中的精確提示詞。

值得注意的是，在能力明顯提升的情況下，Gemini 3.1 Pro Preview的定價卻與上一代基本持平：輸入價格為2美元（≤200k tokens）/4美元（>200k tokens），輸出價格為4美元（≤200k tokens）/18美元（>200k tokens）。模型效率顯著提升。

去一年，大模型競爭的核心指標經歷了一次變化：從最初的參數規模，到榜單分數，再到如今的"性能/成本比"。Gemini 3.1 Pro的發布，很大程度上體現了這一趨勢——真正的競爭不再是誰更強，而是誰更便宜地做到同樣強。

模型進化的速度仍然讓人感到不真實。一位開發者在社區感慨："一周前，Claude還是最好的模型；下一周，又換了一個新的冠軍。"

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.