網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

剛剛Gemini上新模型，全球只有7人比它會(huì)編程，谷歌姚順宇參與

2026-02-13 11:47:41　來(lái)源: 機(jī)器之心Pro

河北舉報(bào)

分享至

編輯｜澤南

從此以后，AI 不再是工具，要尊稱為「硅基博學(xué)家」了。

北京時(shí)間周五凌晨，谷歌發(fā)布了 Gemini 3 Deep Think 的重大升級(jí)，作為專門用于復(fù)雜任務(wù)的推理模式，Deep Think 代表 AI 前沿的最強(qiáng)智能水平，旨在解決科學(xué)、工程領(lǐng)域的諸多挑戰(zhàn)。

去年 9 月加入 Google DeepMind 的清華物理系傳奇姚順宇（Shunyu Yao）也是這次 Deep Think 新模型的參與者。

去年，谷歌展示了專門開(kāi)發(fā)的 Deep Think 版本能夠成功應(yīng)對(duì)一些最棘手的推理挑戰(zhàn)，并在數(shù)學(xué)和編程世界錦標(biāo)賽上取得了金牌成績(jī)。最近，Deep Think 又使專門開(kāi)發(fā)的智能體能夠進(jìn)行研究級(jí)別的數(shù)學(xué)探索。

更新后的深度思考模式繼續(xù)拓展智能的邊界，在最嚴(yán)格的學(xué)術(shù)基準(zhǔn)測(cè)試中取得了新的高度，其中包括：

在「人類的最后考試」（一項(xiàng)旨在測(cè)試現(xiàn)代前沿模型極限的基準(zhǔn)測(cè)試）中，該模型取得了新的 SOTA（48.4%，不使用任何工具）。
在 ARC-AGI-2 測(cè)試中取得了前所未有的 84.6% 的成績(jī)，并經(jīng) ARC Prize 基金會(huì)驗(yàn)證。
在 Codeforces 上取得了驚人的 3455 Elo 分?jǐn)?shù)，Codeforces 是一個(gè)包含各種競(jìng)技編程挑戰(zhàn)的基準(zhǔn)測(cè)試平臺(tái)。
在 2025 年國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽中取得金牌水平。

新版 Gemini 3 Deep Think 在 ARC-AGI-1 上的成績(jī)是 96.0%，每任務(wù)花費(fèi) 7.17 美元；在 ARC-AGI-2 上已經(jīng)達(dá)到了 84.6% 的分?jǐn)?shù)，每任務(wù)成本為 13.62 美元。

大約 14 個(gè)月前，OpenAI 模型 o3-preview 的「高計(jì)算」版本在 ARC-AGI-1 測(cè)試中達(dá)到了約 88% 的分?jǐn)?shù)，每個(gè)任務(wù)的成本約為 2000 至 3000 美元。而 Gemini 3 Deep Think 的每任務(wù)成本僅為 7.17 美元，成本降低了約 280 至 420 倍。

這意味著我們現(xiàn)在需要再次為 AI 準(zhǔn)備更復(fù)雜的測(cè)試題了。

除了數(shù)學(xué)和編程競(jìng)賽之外，Gemini 3 Deep Think 現(xiàn)在在化學(xué)和物理等廣泛的科學(xué)領(lǐng)域也表現(xiàn)出色。更新后的 Deep Think 模式在 2025 年國(guó)際物理奧林匹克競(jìng)賽和化學(xué)奧林匹克競(jìng)賽的筆試部分取得了金牌級(jí)別的成績(jī)。它還展現(xiàn)了在高等理論物理方面的能力，在 CMT-Benchmark 測(cè)試中取得了 50.5% 的分?jǐn)?shù)。

還有這個(gè)在 Codeforces 上獲得的 3455 分，Gemini 3 Deep Think 已經(jīng)相當(dāng)于世界排名第八的頂尖競(jìng)技程序員的水平。之前的最佳成績(jī)是來(lái)自一年多以前 OpenAI o3 的 2727 分，排名第 175。

地球上只有 7 個(gè)人能在編程比賽中擊敗 Gemini 3 Deep Think。

對(duì)于 AI 和整個(gè)科技領(lǐng)域而言，這是一個(gè)以往難以想象的成果。

谷歌與科學(xué)家和研究人員緊密合作，對(duì) Gemini 3 Deep Think 進(jìn)行了升級(jí)。Deep Think 將深厚的科學(xué)知識(shí)與日常工程實(shí)踐相結(jié)合，超越了抽象理論，推動(dòng)了實(shí)際應(yīng)用。

借助更新后的 Deep Think，你可以將草圖轉(zhuǎn)化為可 3D 打印的實(shí)體模型。Deep Think 會(huì)分析圖紙，對(duì)復(fù)雜形狀進(jìn)行建模，并生成用于 3D 打印的實(shí)體文件。

谷歌展示了一些早期測(cè)試用戶使用最新版 Deep Think 的成果：

羅格斯大學(xué)的數(shù)學(xué)家 Lisa Carbone 致力于研究高能物理學(xué)界所需的數(shù)學(xué)結(jié)構(gòu)，以彌合愛(ài)因斯坦引力理論和量子力學(xué)之間的鴻溝。由于該領(lǐng)域缺乏大量的訓(xùn)練數(shù)據(jù)，她利用 Deep Think 技術(shù)審閱了一篇高度專業(yè)的數(shù)學(xué)論文。Deep Think 成功地識(shí)別出了一個(gè)細(xì)微的邏輯缺陷，而這個(gè)缺陷此前在人工同行評(píng)審中均未被發(fā)現(xiàn)。

在杜克大學(xué)，Haozhe "Harry" Wang 帶領(lǐng)的實(shí)驗(yàn)室利用 Deep Think 技術(shù)優(yōu)化了復(fù)雜晶體生長(zhǎng)的制備方法，以期發(fā)現(xiàn)新的半導(dǎo)體材料。Deep Think 成功設(shè)計(jì)了一種能夠生長(zhǎng)厚度大于 100 微米薄膜的工藝，達(dá)到了以往方法難以企及的精確目標(biāo)。

或許隨著更多人的使用，我們不久之后能夠基于 Gemini 3 Deep Think 實(shí)現(xiàn)更多科研突破。

全新 Deep Think 現(xiàn)已在 Gemini 應(yīng)用中上線，目前 Google AI Ultra 訂閱用戶可以使用。此外，谷歌首次通過(guò) Gemini API 向部分研究人員、工程師和企業(yè)開(kāi)放 Deep Think 的使用權(quán)限。

參考內(nèi)容：

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/

https://x.com/shaneguML/status/2021999801911718029

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.