姚順宇參與，谷歌最強Gemini推理模型發(fā)布！測評碾壓Opus 4.6、GPT-5.2

2026-02-13 12:27:47　來源: 智東西

北京舉報

分享至

智東西
作者云鵬
編輯李水青

智東西2月13日消息，今天凌晨，谷歌發(fā)布了Gemini 3 Deep Think專用推理模式的重磅升級，其在“人類終極測試”、競技編程測試、國際數(shù)學奧林匹克競賽，以及國際物理、化學等多領域奧賽中均創(chuàng)下新記錄，全面超越了Claude Opus 4.6和GPT-5.2，也超越了自家Gemini 3 Pro Preview。

▲Gemini 3 Deep Think在ARC-AGI-2、人類終極測試（Humanity’s Last Exam）競技編程基準測試Codeforces、2025年國際數(shù)學奧林匹克競賽四項測試中的成績，得分均超過Claude Opus 4.6和GPT-5.2

毫無疑問，谷歌祭出了當前地表最強AI推理大模型。在Deep Think模式下，一張設計草圖可以快速轉(zhuǎn)化為3D打印文件，圖紙分析、復雜三維建模一氣呵成，用戶將3D打印文件交付給打印機就可以完成實體生產(chǎn)：

▲在Deep Think模式下，一張設計草圖可以快速轉(zhuǎn)化為3D打印文件

谷歌CEO Sundar Pichai和相關高管都在X平臺發(fā)文宣布了這一重磅發(fā)布，此前于去年9月加入谷歌DeepMind的清華物理系傳奇人物姚順宇（Shunyu Yao）也發(fā)文號召大家體驗他們開發(fā)的新模式。

▲谷歌CEO（左）、姚順宇（右）X平臺發(fā)文

此姚順宇非彼姚順雨，后者是姚班出身、今年剛剛加入騰訊混元擔任首席AI科學家的另一位“學神”。前一位姚順宇現(xiàn)任谷歌DeepMind高級研究員，曾在Anthropic的Claude團隊擔任研究員，是拿過清華物理系傳奇特獎的另一位“學神”。

此次的Deep Think模式升級也是姚順宇加入后參與的首個重磅項目。

▲姚順宇（左）和姚順雨（右）

總體來看，Deep Think模式主要用于解決科學、研究和工程領域的挑戰(zhàn)，目前只向Google AI Ultra訂閱用戶開放，不過科研人員、工程師和企業(yè)可以提交申請加入早期測試。

一、高難度基準測試猛刷記錄，碾壓Claude Opus 4.6、GPT-5.2

去年，谷歌已證實Deep Think模式的定制版本能攻克諸多高難度推理難題，在國際數(shù)學和編程錦標賽中達到金牌水準。而這次升級則讓Deep Think模式更進一步支持研發(fā)人員開展研究級（research-level）的數(shù)學探索工作。

升級的Deep Think模式在各類高難度學術基準測試中創(chuàng)下了新紀錄，具體包括：

·在“人類終極測試（Humanity’s Last Exam）”基準測試中，無工具輔助狀態(tài)下取得48.4%的成績，刷新該測試的最佳紀錄（該測試專為檢驗前沿大模型的能力極限設計）；

·在ARC-AGI-2基準測試中獲84.6%高正確率，成績經(jīng)ARC獎基金會認證；

·在競技編程基準測試平臺Codeforces中，Elo評分3455分；

·在2025年國際數(shù)學奧林匹克競賽中，達到金牌水準；

從排名中我們看到，Deep Think模式在上述四項基準測試中，全部領先于Claude Opus 4.6和GPT-5.2。

除數(shù)學和競技編程領域外，升級后的Gemini 3 Deep Think在化學、物理等眾多科學領域同樣表現(xiàn)不錯。

▲Gemini 3 Deep Think在各類測試中的成績表現(xiàn)，所有測試項目均優(yōu)于Claude Opus 4.6和GPT-5.2

根據(jù)谷歌公布測試成績，Deep Think在2025年國際物理奧林匹克競賽和國際化學奧林匹克競賽的筆試環(huán)節(jié)中，均取得金牌水準的成績；在高等理論物理領域也具備出色的應用能力，在凝聚態(tài)理論基準測試CMT-Benchmark中取得50.5%的成績。

同樣，在這些測試項目中，Deep Think的成績?nèi)扛哂贑laude Opus 4.6和GPT-5.2。

二、推動實際應用落地，成為深度專業(yè)研究領域的最強助手

谷歌提到，除了強勁性能表現(xiàn)，Deep Think模式的研發(fā)核心目的是推動實際應用，也就是助力研究人員解析復雜數(shù)據(jù)、幫助工程師通過代碼構(gòu)建物理系統(tǒng)模型。

簡單來說，這些領域的問題往往缺乏明確的指導原則或唯一的正確答案，數(shù)據(jù)也通常是雜亂無章或不完整的。Deep Think可以將深厚的科學知識與日常工程實踐相結(jié)合，去解決這些復雜難題。

目前，谷歌正致力于讓Deep Think模式覆蓋科研和從業(yè)者的核心工作場景。

借助升級后的Deep Think模式，用戶可以很快將一張設計草圖轉(zhuǎn)化為可3D打印的實體模型——Deep Think能自動分析圖紙內(nèi)容、構(gòu)建復雜的三維形狀模型，并生成對應的3D打印文件，實現(xiàn)實體物件的制作。

▲從文件草圖到3D實體模型

此外，從谷歌給出的演示中我們看到，Deep Think可以識別出高專業(yè)度數(shù)學論文中一個此前人工同行評審從未發(fā)現(xiàn)的細微邏輯缺陷。

▲科學家利用Deep Think識別專業(yè)論文中的細節(jié)邏輯缺陷

Deep Think還可以用來優(yōu)化復雜晶體生長的制備方法，用來探索新的半導體材料，在杜克大學的案例中，其設計的方案培育出了尺寸超過100微米的薄膜，技術指標超過此前所有方法。

谷歌研發(fā)主管、前Liftware CEO也用Deep Think來加速物理組件的設計。

可以說，Deep Think是真能搞定復雜的科學、研究和工程領域挑戰(zhàn)。

結(jié)語：推理大模型專業(yè)化進一步加深，AI沖向科研最前線

Gemini 3 Deep Think模式的升級，重點提升了其在諸多科研專業(yè)學術領域解決復雜專業(yè)問題的能力，令其在頂尖專業(yè)領域加速技術研發(fā)的價值進一步凸顯。

目前，AI模型與產(chǎn)業(yè)融合進一步加深，行業(yè)都在思索如何讓模型能更好地在專業(yè)領域提升生產(chǎn)力，AI推理大模型的競爭，跑在了技術與學術的最前沿。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.