<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      谷歌Deep Think八語奧賽屠榜!自主攻克4大未解難題,科研壁壘崩塌

      0
      分享至


      新智元報道

      編輯:元宇

      【新智元導讀】谷歌Deep Think橫掃亞歐多語種競賽,AI科研工具的語言壁壘正在被拆掉,數學與科學發現進入AI驅動新時代。

      「Deep Think」在所有競賽中都擊敗/媲美競爭對手」!

      剛剛,Google DeepMind高級研究員Conglong Li在X平臺連發12條帖子,甩出了一張前所未見的成績單。



      一個AI,同一個大腦,八張不同語言的試卷,全部高分交卷。

      在任何一個模型身上,這樣的成績實屬罕見。

      從IMO金牌到區域賽全覆蓋

      這次Deep Think拿下多個榜單高分,并非突然的單點爆發,而是一條已經持續了近一年的能力演進曲線。

      首先登頂最硬核的推理賽場。

      2025年7月,Gemini Deep Think首次在國際數學奧林匹克(IMO)達到金牌標準,42分拿下35分。同期在ICPC世界決賽也取得類似高水平表現。

      這兩個成績,DeepMind官方博客已經正式公布。

      Google DeepMind隨后把這兩項成績都寫進了官方博客,作為Deep Think邁過數學與編程「世界級競賽門檻」的標志。

      接著,Deep Think開始從「世界冠軍級單項突破」,走向「跨語言、跨學科、跨場景的系統驗證」。

      2026年2月,Google連發三篇博客。

      一篇介紹Gemini 3.1 Pro模型本體,一篇介紹Deep Think專用推理模式的重大升級,一篇來自DeepMind科學發現團隊,直接把Deep Think定位成「人類智力倍增器」。

      升級后的Deep Think交出了一串硬指標:

      Humanity's Last Exam拿下48.4%(無工具輔助),ARC-AGI-2達到84.6%(ARC Prize基金會官方驗證),Codeforces競賽編程Elo評分3455,2025國際物理奧賽和化學奧賽筆試部分達到金牌水平。


      這條路線非常清楚:先用IMO、ICPC這樣的世界級競賽,證明它的強大推理能力,然后再用多語種、區域賽和跨學科奧賽成績,證明它的跨語言、跨領域穩定遷移的通用深度推理能力。


      Gemini Deep Think從IMO金牌到PhD級科研加速的能力演進

      8語言成績單逐項細看

      現在,把這張成績單真正攤開來看。

      日語最亮眼。

      2025年第35回日本數學奧賽本選(JMO Finals),滿分。

      ICPC亞洲日本初賽,滿分。


      其中,JMO本選這項成績甚至超過了當屆最高得分對應的80%水平,達到官方所說的「金獎相當」標準。

      法語同樣滿分,100%。

      中文就有意思了。

      第41屆中國數學奧林匹克(CMO),Deep Think拿到86.3%,相當出色。但中國信息學奧賽(NOI)只有63.3%。

      86.3%和63.3%之間的落差,畫出了AI推理能力的真實邊界。

      在數學競賽里,模型面對的是抽象推導、證明構造和多步演繹,這恰好是Deep Think最擅長的能力帶。

      但到了信息學競賽,問題就不只是「想明白」,還包括把邏輯翻譯成可執行代碼、控制邊界條件、兼顧復雜度約束,并且在實現層面避免失誤。

      前者更接近純推理,后者則要求「推理+算法設計+工程化實現」同時過關。

      其它語種,韓語、印地語、越南語、俄語、葡萄牙語對應的競賽結果里,Deep Think 也都實現了擊敗對手或至少持平。

      如果把日語、法語、中文再合起來看,這次最不尋常的一點其實不是某一門單科刷到滿分,而是同一個模型、同一種Deep Think推理系統,在多種語言的競賽試卷上,都交出了第一梯隊的成績。

      這份成績單可靠嗎?

      但這里有一個關鍵的缺失:

      Conglong Li并沒有列出競品的具體對比數據:所有成績,全部來自Google內部評測。沒有第三方獨立復現,沒有競賽官方認證,評測方法完全沒有公開。

      每道題是做一次還是做很多次取最優?推理時用了多少算力?有沒有人工提示工程介入?

      這些直接影響成績含金量的細節,也都沒提。

      還有一點容易被忽略:這些考試全部是各國區域選拔賽,不是國際決賽。

      區域賽的題目難度和國際決賽之間,隔著一個量級。

      研究員明確說了,這些成績「將被納入模型卡」,截至發稿,模型卡尚未正式更新。

      所以,目前這仍然好像是一張由考生自己打分、自己公布、尚未交給教務處蓋章的成績單。

      多語言科研公平性

      被忽視的真正戰場

      為什么Google要專門花精力做8種語言的區域賽評測?

      當前AI推理能力的評測,幾乎全部基于英語。

      MATH、GSM8K、HumanEval、ARC-AGI……這些都是英語。

      全世界的數學家、物理學家、工程師,只要母語不是英語,在使用AI科研工具時都要先過一道語言關。

      Google選的這8種語言不是隨機的。

      日語、韓語、中文覆蓋東亞科研重鎮,印地語、越南語覆蓋新興市場,法語、俄語、葡萄牙語覆蓋歐洲和南美。

      加在一起,這是全球科研產出的大半壁江山。

      DeepMind在官方博客里把Deep Think定位為「人類智力倍增器」,說它能「處理知識檢索和嚴格驗證,讓科學家專注于概念深度和創造性方向」。

      結合這次的多語言成績,這句話的潛臺詞不難理解:這個倍增器,不僅限英語的科學家用。

      更值得注意的是Deep Think在科研落地上已經走了多遠。

      DeepMind公布了一個叫Aletheia的數學研究智能體,基于Deep Think驅動,能自主生成、驗證、修訂研究級數學問題的解法。


      Aletheia由Deep Think驅動,能夠對研究級數學問題進行迭代式生成、驗證與修正

      Aletheia已經參與產出了多篇研究論文,其中一篇完全由AI自主完成,計算了算術幾何中的特定結構常數。


      另外,在700個開放數學問題的半自主評估中,它還獨立解決了4個此前未解的問題。

      Gemini Deep Think模式在計算機科學、物理學、經濟學等領域也展現出巨大潛力。

      在計算機科學領域,Deep Think幫助推翻了一個懸而未決十年的猜想,在物理學領域找到了宇宙弦引力輻射的新型解析解,在經濟學領域擴展了一個拍賣理論定理。


      AI推理流程的示意圖,展示了在網絡層進行的大規模解空間探索如何被匯聚為結構化推理,并通過自動化與人工驗證加以確認。

      通過與專家合作解決18個研究難題,Gemini Deep Think的高級版本幫助突破了算法、機器學習與組合優化、信息論以及經濟學領域長期存在的瓶頸。

      這已經遠遠超出了「做競賽題」的范疇。

      當競品還在卷英文benchmark排行榜的時候,Google已經在「AI科研加速器」領域找到了新戰場。

      這件事請最重要的東西其實不是分數,它背后真正的信號是:AI科研工具的語言壁壘正在被當作一個工程問題來解決。

      如果這條路走通了,全世界用日語、韓語、中文、印地語做研究的科學家,將第一次和英語母語者站在同一條起跑線上。

      這一次,Google已經把牌攤在了桌上。

      至于競爭對手誰會跟牌,相信我們很快也將看到。

      參考資料:

      https://blog.google/intl/ja-jp/company-news/technology/gemini-31-pro-gemini-31-pro-deep-think/%20

      https://deepmind.google/blog/accelerating-mathematical-and-scientific-discovery-with-gemini-deep-think/%20

      https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/%20

      https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      違規使用劣質螺栓!致13死3失聯!川青鐵路在建大橋重大垮塌事故原因公布

      違規使用劣質螺栓!致13死3失聯!川青鐵路在建大橋重大垮塌事故原因公布

      閃電新聞
      2026-04-09 14:10:58
      華為Mate 80 Pro Max 風馳版硬核挑戰:手機風扇從夯到拉誰更強?

      華為Mate 80 Pro Max 風馳版硬核挑戰:手機風扇從夯到拉誰更強?

      極果酷玩
      2026-04-02 18:51:42
      難以置信啊!一餐吃掉562339.80元,上海一張消費清單刷爆網絡

      難以置信啊!一餐吃掉562339.80元,上海一張消費清單刷爆網絡

      火山詩話
      2026-04-10 06:49:46
      湖人完勝勇士,重回西部第四!詹姆斯父子合砍36分,創NBA歷史

      湖人完勝勇士,重回西部第四!詹姆斯父子合砍36分,創NBA歷史

      老梁體育漫談
      2026-04-10 12:23:27
      蓄電池生產企業要求員工體檢前吃排鉛藥“不吃藥不讓上班” 官方確認情況屬實

      蓄電池生產企業要求員工體檢前吃排鉛藥“不吃藥不讓上班” 官方確認情況屬實

      閃電新聞
      2026-04-10 10:21:21
      俄烏雙方進行新一輪陣亡軍人遺體交換,俄方向烏方移交了1000具遺體,烏方向俄方移交了41具遺體

      俄烏雙方進行新一輪陣亡軍人遺體交換,俄方向烏方移交了1000具遺體,烏方向俄方移交了41具遺體

      瀟湘晨報
      2026-04-09 19:50:06
      不要再向以色列提供一架戰斗機!

      不要再向以色列提供一架戰斗機!

      武器縱論
      2026-04-09 22:35:26
      震驚!網傳282群群主是上海經管學校2009屆,網友:必須繩之以法

      震驚!網傳282群群主是上海經管學校2009屆,網友:必須繩之以法

      火山詩話
      2026-04-10 06:20:37
      別查了,受不了!巴拿馬外長終于急了:請中國尊重我!

      別查了,受不了!巴拿馬外長終于急了:請中國尊重我!

      青青子衿
      2026-04-10 01:19:51
      美軍上校說了大實話!派B2深入中國核心區,就像派出老頭樂

      美軍上校說了大實話!派B2深入中國核心區,就像派出老頭樂

      風雨與陽光
      2026-04-09 18:32:59
      湖北一男子涉嫌殺害4歲女兒后報溺水假警被刑拘,細節曝光:案發前5個月曾給女兒投保意外險,事發當天將女兒拋入江中,假意對遺體實施急救

      湖北一男子涉嫌殺害4歲女兒后報溺水假警被刑拘,細節曝光:案發前5個月曾給女兒投保意外險,事發當天將女兒拋入江中,假意對遺體實施急救

      揚子晚報
      2026-04-10 11:22:32
      奉陪到底,中方專機抵朝前,朝鮮亮出集束彈頭,日韓防長緊急通話

      奉陪到底,中方專機抵朝前,朝鮮亮出集束彈頭,日韓防長緊急通話

      共工之錨
      2026-04-10 01:25:50
      80后,正在成為全社會最隱形的高危人群

      80后,正在成為全社會最隱形的高危人群

      經濟學教授V
      2026-04-09 18:19:13
      伊朗媒體:哈拉齊傷重不治

      伊朗媒體:哈拉齊傷重不治

      中國基金報
      2026-04-10 06:44:44
      陳麗華追悼會這天,江湖地位、人情冷暖,在她身上展現的淋漓盡致

      陳麗華追悼會這天,江湖地位、人情冷暖,在她身上展現的淋漓盡致

      阿纂看事
      2026-04-09 17:06:27
      庫里缺席今日湖勇大戰,本賽季常規賽詹庫四次交手機會均錯過

      庫里缺席今日湖勇大戰,本賽季常規賽詹庫四次交手機會均錯過

      懂球帝
      2026-04-10 09:20:13
      為什么現在的美女都長一個樣?因為她們整容用的都是同一套醫美模版

      為什么現在的美女都長一個樣?因為她們整容用的都是同一套醫美模版

      三言四拍
      2026-04-10 08:36:03
      “張雪是初中生,我是清華博士”:我們相互成就,學歷代表不了啥

      “張雪是初中生,我是清華博士”:我們相互成就,學歷代表不了啥

      江山揮筆
      2026-04-10 09:35:30
      “留學回來,15次相親失敗”,杭州女孩被拆穿:連繁殖能力都沒有

      “留學回來,15次相親失敗”,杭州女孩被拆穿:連繁殖能力都沒有

      千言娛樂記
      2026-04-09 09:17:50
      領袖之路背后的朝鮮權力暗戰

      領袖之路背后的朝鮮權力暗戰

      貓智深
      2026-04-09 19:43:30
      2026-04-10 12:35:00
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14939文章數 66763關注度
      往期回顧 全部

      科技要聞

      程序員驚喜,每月100美元!OpenAI推新套餐

      頭條要聞

      牛彈琴:巴基斯坦被以色列激怒了 這是一個不祥的信號

      頭條要聞

      牛彈琴:巴基斯坦被以色列激怒了 這是一個不祥的信號

      體育要聞

      17歲賺了一百萬美元,25歲被CBA裁員

      娛樂要聞

      夏克立婚內出軌 曾參加《爸爸去哪兒》

      財經要聞

      愛爾眼科一院長被指猥褻 總部:已被停職

      汽車要聞

      全新一代理想 L8 五座旗艦+5C增程系統 三季度交付

      態度原創

      數碼
      親子
      本地
      游戲
      公開課

      數碼要聞

      REDMI Book Pro 2026官宣本月發布:酷睿Ultra X7 358H+99Wh巨無霸電池

      親子要聞

      科普|孩子反復鼻癢、咳嗽?您需要了解“鼻炎-哮喘綜合征”

      本地新聞

      12噸巧克力有難,全網化身超級偵探添亂

      一邊抗癌一邊玩游戲!患癌玩家收到PSV后找回笑容

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版