![]()
智東西
作者 云鵬
編輯 李水青
智東西2月13日消息,今天凌晨,谷歌發(fā)布了Gemini 3 Deep Think專用推理模式的重磅升級,其在“人類終極測試”、競技編程測試、國際數(shù)學奧林匹克競賽,以及國際物理、化學等多領域奧賽中均創(chuàng)下新記錄,全面超越了Claude Opus 4.6和GPT-5.2,也超越了自家Gemini 3 Pro Preview。
▲Gemini 3 Deep Think在ARC-AGI-2、人類終極測試(Humanity’s Last Exam)競技編程基準測試Codeforces、2025年國際數(shù)學奧林匹克競賽四項測試中的成績,得分均超過Claude Opus 4.6和GPT-5.2
毫無疑問,谷歌祭出了當前地表最強AI推理大模型。在Deep Think模式下,一張設計草圖可以快速轉(zhuǎn)化為3D打印文件,圖紙分析、復雜三維建模一氣呵成,用戶將3D打印文件交付給打印機就可以完成實體生產(chǎn):
▲在Deep Think模式下,一張設計草圖可以快速轉(zhuǎn)化為3D打印文件
谷歌CEO Sundar Pichai和相關高管都在X平臺發(fā)文宣布了這一重磅發(fā)布,此前于去年9月加入谷歌DeepMind的清華物理系傳奇人物姚順宇(Shunyu Yao)也發(fā)文號召大家體驗他們開發(fā)的新模式。
![]()
▲谷歌CEO(左)、姚順宇(右)X平臺發(fā)文
此姚順宇非彼姚順雨,后者是姚班出身、今年剛剛加入騰訊混元擔任首席AI科學家的另一位“學神”。前一位姚順宇現(xiàn)任谷歌DeepMind高級研究員,曾在Anthropic的Claude團隊擔任研究員,是拿過清華物理系傳奇特獎的另一位“學神”。
此次的Deep Think模式升級也是姚順宇加入后參與的首個重磅項目。
![]()
▲姚順宇(左)和姚順雨(右)
總體來看,Deep Think模式主要用于解決科學、研究和工程領域的挑戰(zhàn),目前只向Google AI Ultra訂閱用戶開放,不過科研人員、工程師和企業(yè)可以提交申請加入早期測試。
![]()
一、高難度基準測試猛刷記錄,碾壓Claude Opus 4.6、GPT-5.2
去年,谷歌已證實Deep Think模式的定制版本能攻克諸多高難度推理難題,在國際數(shù)學和編程錦標賽中達到金牌水準。而這次升級則讓Deep Think模式更進一步支持研發(fā)人員開展研究級(research-level)的數(shù)學探索工作。
升級的Deep Think模式在各類高難度學術基準測試中創(chuàng)下了新紀錄,具體包括:
·在“人類終極測試(Humanity’s Last Exam)”基準測試中,無工具輔助狀態(tài)下取得48.4%的成績,刷新該測試的最佳紀錄(該測試專為檢驗前沿大模型的能力極限設計);
·在ARC-AGI-2基準測試中獲84.6%高正確率,成績經(jīng)ARC獎基金會認證;
·在競技編程基準測試平臺Codeforces中,Elo評分3455分;
·在2025年國際數(shù)學奧林匹克競賽中,達到金牌水準;
從排名中我們看到,Deep Think模式在上述四項基準測試中,全部領先于Claude Opus 4.6和GPT-5.2。
除數(shù)學和競技編程領域外,升級后的Gemini 3 Deep Think在化學、物理等眾多科學領域同樣表現(xiàn)不錯。
▲Gemini 3 Deep Think在各類測試中的成績表現(xiàn),所有測試項目均優(yōu)于Claude Opus 4.6和GPT-5.2
根據(jù)谷歌公布測試成績,Deep Think在2025年國際物理奧林匹克競賽和國際化學奧林匹克競賽的筆試環(huán)節(jié)中,均取得金牌水準的成績;在高等理論物理領域也具備出色的應用能力,在凝聚態(tài)理論基準測試CMT-Benchmark中取得50.5%的成績。
同樣,在這些測試項目中,Deep Think的成績?nèi)扛哂贑laude Opus 4.6和GPT-5.2。
二、推動實際應用落地,成為深度專業(yè)研究領域的最強助手
谷歌提到,除了強勁性能表現(xiàn),Deep Think模式的研發(fā)核心目的是推動實際應用,也就是助力研究人員解析復雜數(shù)據(jù)、幫助工程師通過代碼構(gòu)建物理系統(tǒng)模型。
簡單來說,這些領域的問題往往缺乏明確的指導原則或唯一的正確答案,數(shù)據(jù)也通常是雜亂無章或不完整的。Deep Think可以將深厚的科學知識與日常工程實踐相結(jié)合,去解決這些復雜難題。
目前,谷歌正致力于讓Deep Think模式覆蓋科研和從業(yè)者的核心工作場景。
借助升級后的Deep Think模式,用戶可以很快將一張設計草圖轉(zhuǎn)化為可3D打印的實體模型——Deep Think能自動分析圖紙內(nèi)容、構(gòu)建復雜的三維形狀模型,并生成對應的3D打印文件,實現(xiàn)實體物件的制作。
![]()
▲從文件草圖到3D實體模型
此外,從谷歌給出的演示中我們看到,Deep Think可以識別出高專業(yè)度數(shù)學論文中一個此前人工同行評審從未發(fā)現(xiàn)的細微邏輯缺陷。
![]()
▲科學家利用Deep Think識別專業(yè)論文中的細節(jié)邏輯缺陷
Deep Think還可以用來優(yōu)化復雜晶體生長的制備方法,用來探索新的半導體材料,在杜克大學的案例中,其設計的方案培育出了尺寸超過100微米的薄膜,技術指標超過此前所有方法。
谷歌研發(fā)主管、前Liftware CEO也用Deep Think來加速物理組件的設計。
可以說,Deep Think是真能搞定復雜的科學、研究和工程領域挑戰(zhàn)。
結(jié)語:推理大模型專業(yè)化進一步加深,AI沖向科研最前線
Gemini 3 Deep Think模式的升級,重點提升了其在諸多科研專業(yè)學術領域解決復雜專業(yè)問題的能力,令其在頂尖專業(yè)領域加速技術研發(fā)的價值進一步凸顯。
目前,AI模型與產(chǎn)業(yè)融合進一步加深,行業(yè)都在思索如何讓模型能更好地在專業(yè)領域提升生產(chǎn)力,AI推理大模型的競爭,跑在了技術與學術的最前沿。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.