![]()
編輯|澤南
從此以后,AI 不再是工具,要尊稱為「硅基博學(xué)家」了。
北京時(shí)間周五凌晨,谷歌發(fā)布了 Gemini 3 Deep Think 的重大升級(jí),作為專門用于復(fù)雜任務(wù)的推理模式,Deep Think 代表 AI 前沿的最強(qiáng)智能水平,旨在解決科學(xué)、工程領(lǐng)域的諸多挑戰(zhàn)。
![]()
去年 9 月加入 Google DeepMind 的清華物理系傳奇姚順宇(Shunyu Yao)也是這次 Deep Think 新模型的參與者。
![]()
去年,谷歌展示了專門開(kāi)發(fā)的 Deep Think 版本能夠成功應(yīng)對(duì)一些最棘手的推理挑戰(zhàn),并在數(shù)學(xué)和編程世界錦標(biāo)賽上取得了金牌成績(jī)。最近,Deep Think 又使專門開(kāi)發(fā)的智能體能夠進(jìn)行研究級(jí)別的數(shù)學(xué)探索。
更新后的深度思考模式繼續(xù)拓展智能的邊界,在最嚴(yán)格的學(xué)術(shù)基準(zhǔn)測(cè)試中取得了新的高度,其中包括:
- 在「人類的最后考試」(一項(xiàng)旨在測(cè)試現(xiàn)代前沿模型極限的基準(zhǔn)測(cè)試)中,該模型取得了新的 SOTA(48.4%,不使用任何工具)。
- 在 ARC-AGI-2 測(cè)試中取得了前所未有的 84.6% 的成績(jī),并經(jīng) ARC Prize 基金會(huì)驗(yàn)證。
- 在 Codeforces 上取得了驚人的 3455 Elo 分?jǐn)?shù),Codeforces 是一個(gè)包含各種競(jìng)技編程挑戰(zhàn)的基準(zhǔn)測(cè)試平臺(tái)。
- 在 2025 年國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽中取得金牌水平。
![]()
新版 Gemini 3 Deep Think 在 ARC-AGI-1 上的成績(jī)是 96.0%,每任務(wù)花費(fèi) 7.17 美元;在 ARC-AGI-2 上已經(jīng)達(dá)到了 84.6% 的分?jǐn)?shù),每任務(wù)成本為 13.62 美元。
![]()
大約 14 個(gè)月前,OpenAI 模型 o3-preview 的「高計(jì)算」版本在 ARC-AGI-1 測(cè)試中達(dá)到了約 88% 的分?jǐn)?shù),每個(gè)任務(wù)的成本約為 2000 至 3000 美元。而 Gemini 3 Deep Think 的每任務(wù)成本僅為 7.17 美元,成本降低了約 280 至 420 倍。
這意味著我們現(xiàn)在需要再次為 AI 準(zhǔn)備更復(fù)雜的測(cè)試題了。
除了數(shù)學(xué)和編程競(jìng)賽之外,Gemini 3 Deep Think 現(xiàn)在在化學(xué)和物理等廣泛的科學(xué)領(lǐng)域也表現(xiàn)出色。更新后的 Deep Think 模式在 2025 年國(guó)際物理奧林匹克競(jìng)賽和化學(xué)奧林匹克競(jìng)賽的筆試部分取得了金牌級(jí)別的成績(jī)。它還展現(xiàn)了在高等理論物理方面的能力,在 CMT-Benchmark 測(cè)試中取得了 50.5% 的分?jǐn)?shù)。
![]()
還有這個(gè)在 Codeforces 上獲得的 3455 分,Gemini 3 Deep Think 已經(jīng)相當(dāng)于世界排名第八的頂尖競(jìng)技程序員的水平。之前的最佳成績(jī)是來(lái)自一年多以前 OpenAI o3 的 2727 分,排名第 175。
地球上只有 7 個(gè)人能在編程比賽中擊敗 Gemini 3 Deep Think。
![]()
對(duì)于 AI 和整個(gè)科技領(lǐng)域而言,這是一個(gè)以往難以想象的成果。
谷歌與科學(xué)家和研究人員緊密合作,對(duì) Gemini 3 Deep Think 進(jìn)行了升級(jí)。Deep Think 將深厚的科學(xué)知識(shí)與日常工程實(shí)踐相結(jié)合,超越了抽象理論,推動(dòng)了實(shí)際應(yīng)用。
借助更新后的 Deep Think,你可以將草圖轉(zhuǎn)化為可 3D 打印的實(shí)體模型。Deep Think 會(huì)分析圖紙,對(duì)復(fù)雜形狀進(jìn)行建模,并生成用于 3D 打印的實(shí)體文件。

谷歌展示了一些早期測(cè)試用戶使用最新版 Deep Think 的成果:
羅格斯大學(xué)的數(shù)學(xué)家 Lisa Carbone 致力于研究高能物理學(xué)界所需的數(shù)學(xué)結(jié)構(gòu),以彌合愛(ài)因斯坦引力理論和量子力學(xué)之間的鴻溝。由于該領(lǐng)域缺乏大量的訓(xùn)練數(shù)據(jù),她利用 Deep Think 技術(shù)審閱了一篇高度專業(yè)的數(shù)學(xué)論文。Deep Think 成功地識(shí)別出了一個(gè)細(xì)微的邏輯缺陷,而這個(gè)缺陷此前在人工同行評(píng)審中均未被發(fā)現(xiàn)。
![]()
在杜克大學(xué),Haozhe "Harry" Wang 帶領(lǐng)的實(shí)驗(yàn)室利用 Deep Think 技術(shù)優(yōu)化了復(fù)雜晶體生長(zhǎng)的制備方法,以期發(fā)現(xiàn)新的半導(dǎo)體材料。Deep Think 成功設(shè)計(jì)了一種能夠生長(zhǎng)厚度大于 100 微米薄膜的工藝,達(dá)到了以往方法難以企及的精確目標(biāo)。
![]()
或許隨著更多人的使用,我們不久之后能夠基于 Gemini 3 Deep Think 實(shí)現(xiàn)更多科研突破。
全新 Deep Think 現(xiàn)已在 Gemini 應(yīng)用中上線,目前 Google AI Ultra 訂閱用戶可以使用。此外,谷歌首次通過(guò) Gemini API 向部分研究人員、工程師和企業(yè)開(kāi)放 Deep Think 的使用權(quán)限。
參考內(nèi)容:
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/
https://x.com/shaneguML/status/2021999801911718029
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.