<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      谷歌AI連發6篇數學論文!Gemini攻入博士級科研,91.9%刷爆SOTA

      0
      分享至


      新智元報道

      編輯:桃子 好困

      【新智元導讀】今天,谷歌DeepMind「AI數學家」Aletheia徹底殺瘋了,攻克數學猜想,獨立寫論文。更令人震驚的是,拿下金牌的Gemini一舉橫掃18大核心科研難題。

      下一個諾獎得主,Gemini提前預定了!

      谷歌DeepMind再次向全球科研圈扔出炸彈,一口氣放出兩篇重磅論文——

      Gemini Deep Think成為「科研合伙人」,連破數學、物理和計算機科學領域研究級難題。


      以前,AI可以拿下IMO、ICPC國際大賽金牌,已經很牛了....

      這一次,Gemini徹底開掛,真正搞起了科研!

      谷歌打造了一款基于Gemini「AI數學家」,代號Aletheia。它在博士級難題上,取得了多項科研里程碑。

      其中包括,獨立撰寫發表學術幾何論文,還對「Erd?s猜想」數據庫中700個開放問題,完成系統性評估。

      在IMO-ProofBench基準測試中,Aletheia一騎絕塵,拿下91.9%的成績刷爆SOTA


      更具顛覆性的,它具備了人類最核心的技能:自我糾錯,還會主動承認自身無法解決的問題。

      所謂的千禧年大獎難題,或許離逐一破解的那天也不遠了。


      不僅如此,在物理學和計算機科學,Gemini Deep Think聯手專家,攻克了18個長期停滯的研究難題。

      涵蓋了終結十年子模優化猜想、突破離散算法瓶頸、機器學習與組合優化、信息論與經濟學等,斐然的成績足以載入史冊。


      此時此刻,人類的科研工作流正在醞釀著一場顛覆性的變革。

      Gemini加速進化正以一種近乎「降維打擊」的方式,在多個科研領域暴力破局。



      谷歌「AI數學家」Aletheia重磅出世

      干翻博士級難題

      2025年夏天,Gemini Deep Think(高級版)首次拿下了IMO金牌,緊接著,在ICPC大賽中一舉奪冠。

      如今,Gemini徹底跨越了競賽門檻,正式攻入人類智慧的「深水區」。

      與IMO級的競賽難度不同,研究級數學問題需要,從浩如煙海的文獻中調用「高級技術」。

      雖然「基礎模型」(FM)知識淵博,但缺少專業數據,難免在處理高級學科時往往會理解不到位,甚至產生「幻覺」。

      為此,谷歌DeepMind內部構建了一個數學研究AI智能體——Aletheia,背靠強大的Gemini Deep Think。


      論文地址:https://github.com/google-deepmind/superhuman/blob/main/aletheia/Aletheia.pdf

      在古希臘語中,Aletheia代表著「真理」。

      它做到了在自然語言中「端到端」迭代生成、驗證和修改解決方案。


      具體來說,Aletheia自帶一個「自然語言驗證器」,能挑出候選方案中的毛病,并實現「生成-修改」的迭代過程。

      最關鍵的是,它能承認自己解不出來,這一特性大大提高了研究人員的效率。


      Aletheia概覽:這是一個由Deep Think驅動的數學研究AI智能體,能夠針對研究級數學問題進行迭代式的生成、驗證和修正

      總言之,驅動Aletheia的三大核心技術支柱是:

      • Gemini Deep Think高級版專門用來死磕那些極難的推理題;

      • 新穎的推理時Scaling Law它的能力跨度極大,上能搞定奧數級難題,下能應付博士級的專業練習;

      • 強大的工具調用能力深度集成Google搜索和網頁瀏覽,以此攻克數學研究中老大難問題, 瞎編參考文獻、計算不準的情況幾乎不存在。

      自2025年7月達到IMO金牌水準以來,Gemini Deep Think進步謂之神速。

      隨著推理時計算量(inference-time compute)的增加,它在IMO-ProofBench高級測試中的得分高達90%。

      谷歌DeepMind證明了,即便從奧賽級別跨越到博士級練習題(根據內部FutureMath Basic基準),Scaling Law依然有效

      值得注意的是,Aletheia即便用更少推理算力,也能實現更高的推理質量。



      截至2026年1月,Deep Think的最新進階版在奧賽級題目上的表現已大幅超越IMO金牌版本(2025年7月)。推理時的Scaling Law同樣適用于博士級練習題。Aletheia在推理質量上實現了進一步的飛躍,且推理時的計算量更低。所有結果均由人類專家評分

      首批6篇論文,AI手搓一篇,3篇已發表

      在研究級數學的實戰中,Aletheia的實力可不是鬧著玩的,已取得了許多令人矚目的「自主突破」。

      在Aletheia完成的首批六篇論文中,一共包括以下幾類——

      • 獨立完成,0人類

      論文「

      Eigenweights for arithmetic Hirzebruch Proportionality
      」完全由Aletheia生成,沒有任何人工干預。


      它計算了算術幾何中被稱為「特征權重」(eigenweights)的某些結構常數。


      論文地址:https://arxiv.org/abs/2601.23245

      • 人類與AI協作

      論文「

      Lower bounds for multivariate independence polynomials and their generalisations
      」是由人類與Aletheia協作完成,共同證明了相互作用粒子系統(稱為獨立集)的界限。


      論文地址:https://arxiv.org/abs/2602.02450

      • 大規模半自主評估,攻克Erd?s猜想難題

      論文「

      Semi-Autonomous Mathematics Discovery with Gemini: A Case Study on the Erd?s Problems
      」針對 Bloom的「Erd?s猜想」數據庫中的700個開放問題進行了評估,并自主解決了其中列出的四個未解之謎。

      在Erd?s-1051問題上,模型給出了自主解答,并推動了另一篇研究「

      Irrationality of rapidly converging series: a problem of Erd?s and Graham
      」中報告的推廣性成果。


      論文地址:https://arxiv.org/abs/2601.22401


      論文地址:https://arxiv.org/abs/2601.21442

      此外,Aletheia還在如下另外兩篇論文中,貢獻了中間命題。


      論文地址:https://arxiv.org/abs/2601.18557


      論文地址:https://arxiv.org/abs/2601.23229

      值得一提的是,之前也有Gemini進行研究級數學探索的工作,但在合作規模和解決問題的數量上都相對較小。

      此外,谷歌DeepMind還建立了一個分類法,根據重要性和AI貢獻程度對「AI輔助數學研究」進行分級——

      下表中,已被列為第2級(可發表質量)的成果已提交給知名期刊

      目前,谷歌尚未通過Gemini獲得任何第3級(重大進展)或第4級(里程碑式突破)的成果。


      本研究涵蓋的所有AI輔助數學成果的分類表。表中列為第2級的成果已投稿發表

      終結十年猜想,攻克18大研究難題

      除了在數學方面大展身手,Gemini Deep Think在計算機科學和物理學領域,也表現出了巨大的潛力。

      論文「

      Accelerating Scientific Research with Gemini: Case Studies and Common Techniques
      」建立在類似的智能體推理思路之上,并總結出了高效合作的「秘籍」,特別是「顧問」(Advisor)模式:

      即人類通過迭代的「直覺驗證」(Vibe-Proving)循環來引導 AI,以驗證直覺并完善證明。


      論文地址:https://arxiv.org/abs/2602.03837

      此外,谷歌還詳細介紹了一些戰術技巧,比如「平衡提示詞」(balanced prompting)。

      ——要求AI同時嘗試證明或反駁以防止確認偏誤,以及代碼輔助驗證。

      這些方法,結合模型通過深層結構連接跨越不同科學領域的能力,正在改變理論研究的開展方式。

      這項工作,是建立在成功部署Gemini Deep Think進階版協助審查STOC’26會議CS理論論文的基礎之上的。


      AI推理流程示意圖:展示了網絡層如何對解題空間進行廣泛探索,然后收斂為結構化的推理,并最終通過自動化驗證與人工審核進行確認

      通過與專家合作攻克18個研究難題,Gemini Deep Think進階版幫助打破了算法、機器學習、組合優化、信息論以及經濟學領域長期存在的瓶頸。

      ICLR 2026已錄用

      論文「

      Accelerating Scientific Research with Gemini: Case Studies and Common Techniques
      」中的亮點包括:
      • 跨越數學邊界解決網絡謎題

      像「最大割(Max-Cut)」(高效分割網絡)和「施泰納樹(Steiner Tree)」(連接高維點)這類經典計算機科學問題的進展一度停滯。

      Gemini通過打破「思維定勢」破解了這兩個僵局。

      它從完全不相關的連續數學分支中搬來了高深工具——比如Kirszbraun定理、測度論和Stone-Weierstrass定理——成功解決了這些離散算法謎題。


      • 終結在線子模優化領域十年的猜想

      2015年的一篇理論論文為數據流提出了一個看似顯而易見的規則:復制一個新到達的項目永遠比簡單地移動原始項目價值低。專家們花了十年時間試圖證明這一點。

      Gemini設計了一個極其刁鉆的「三項目組合反例」,嚴格證明了這一長期以來的人類直覺是錯的。

      • 機器學習優化

      訓練AI過濾噪聲通常需要工程師手動調整一個數學上的「懲罰項」。

      研究人員發明了一種能自動調整的新技術,但無法從數學上解釋為什么有效。

      Gemini分析了方程并證明了該方法的成功機理:它在運行過程中秘密生成了自己的「自適應懲罰」。

      • 升級AI時代的經濟理論

      最近一個關于拍賣AI生成Token的「顯示原理(Revelation Principle)」在數學上僅在投標被限制為有理數時才成立。

      一旦將范圍擴展到連續的實數,原始證明就失效了。Gemini利用先進的拓撲學和序理論擴展了該定理,使其能適應現實世界中連續的拍賣動態。

      • 宇宙弦物理學

      計算來自宇宙弦的引力輻射需要找到包含「奇點」的棘手積分的解析解。

      Gemini利用「蓋根鮑爾多項式」(Gegenbauer polynomials)找到了一個新穎的解法。這自然地吸收了奇點,將無限級數坍縮成了一個封閉形式的有限和。


      這些成果橫跨了從信息與復雜性理論到密碼學和機制設計的各個領域,展示了AI正如何從根本上改變研究工作。

      考慮到計算機科學領域那種流動性強、以會議為導向的發表機制,我們按學術軌跡而非僵化的分類法來描述這些成果。

      以上大約一半的成果瞄準了頂級會議,其中一篇被ICLR ’26錄用,剩下的大部分將在未來在期刊投稿。

      無論是通過識別錯誤,還是反駁猜想來糾正領域方向,這些成果都凸顯了AI作為高水平科學協作者的價值。

      Gemini重塑科研,人類「倍增器」來了

      基于谷歌此前的突破,這項工作表明,通用的基礎模型,聯動智能體推理工作流,可以成為強大的科學伙伴。

      在數學家、物理學家和計算機科學家等專家的指導下,Gemini Deep Think模式正在那些以復雜數學、邏輯和推理為核心的領域證明其實用性。


      我們正在見證科學工作流的根本性轉變。

      隨著Gemini的進化,它正在成為人類智慧的「倍增器」,負責處理知識檢索和嚴格驗證等工作,讓科學家能夠專注于概念的深度和創新的方向。

      無論是完善證明、尋找反例,還是連接看似不相關的領域,AI正在成為科學進步新篇章中不可或缺的協作者。

      參考資料:

      https://deepmind.google/blog/accelerating-mathematical-and-scientific-discovery-with-gemini-deep-think/

      https://mathstodon.xyz/@tao/116053101218408010


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      飛機懵了,高鐵呆了,萬萬沒想到,今年春運出風頭的是綠皮火車

      飛機懵了,高鐵呆了,萬萬沒想到,今年春運出風頭的是綠皮火車

      深度報
      2026-02-15 23:00:51
      再見哈根達斯!雀巢效仿聯合利華大撤退,冷鏈生意的苦日子到頭了

      再見哈根達斯!雀巢效仿聯合利華大撤退,冷鏈生意的苦日子到頭了

      無月可歸辛
      2026-02-21 16:39:04
      亞伯拉罕:英超爭冠?我們距離榜首并不遠,誰知道會發生什么

      亞伯拉罕:英超爭冠?我們距離榜首并不遠,誰知道會發生什么

      懂球帝
      2026-02-22 01:54:13
      我國崩塌最徹底的專業,從年薪20萬到找不到工作,畢業即失業!

      我國崩塌最徹底的專業,從年薪20萬到找不到工作,畢業即失業!

      黯泉
      2026-02-10 22:00:47
      萬萬沒想到!美國對華最大的失算,是讓中國90后、00后徹底清醒了

      萬萬沒想到!美國對華最大的失算,是讓中國90后、00后徹底清醒了

      遠方風林
      2026-01-07 11:40:08
      劍南春|皇馬1-2遭奧薩蘇納絕殺,巴爾韋德一條龍助攻維尼修斯破門

      劍南春|皇馬1-2遭奧薩蘇納絕殺,巴爾韋德一條龍助攻維尼修斯破門

      懂球帝
      2026-02-22 03:30:31
      潘林儒:蘇州市政協原主席兼中共蘇州市委政法委書記

      潘林儒:蘇州市政協原主席兼中共蘇州市委政法委書記

      觀星賞月
      2026-02-21 22:52:28
      別被馬斯克忽悠了!星鏈撐不起人類通訊,中國通信基建才是底氣

      別被馬斯克忽悠了!星鏈撐不起人類通訊,中國通信基建才是底氣

      像夢一場a
      2026-02-13 20:20:26
      史詩級封殺!2000萬網紅“聽風的蠶”徹底涼了

      史詩級封殺!2000萬網紅“聽風的蠶”徹底涼了

      互聯網品牌官
      2026-02-12 01:17:23
      林俊杰們用行動證明:男人的終極審美,真的很一致

      林俊杰們用行動證明:男人的終極審美,真的很一致

      橙星文娛
      2026-01-03 21:41:06
      米蘭冬奧會賽程全掌握!一鍵收藏,觀賽不迷路→

      米蘭冬奧會賽程全掌握!一鍵收藏,觀賽不迷路→

      海外網
      2026-02-04 15:03:52
      留影:一種對抗遺忘的溫柔抵抗

      留影:一種對抗遺忘的溫柔抵抗

      疾跑的小蝸牛
      2026-02-21 22:52:14
      “趕緊還錢!”關稅政策被判違法后,加州州長呼吁美政府立即“連本帶利”退還稅款

      “趕緊還錢!”關稅政策被判違法后,加州州長呼吁美政府立即“連本帶利”退還稅款

      環球網資訊
      2026-02-21 09:38:25
      亞朵,擠滿偷偷開房的成年人

      亞朵,擠滿偷偷開房的成年人

      廣告案例精選
      2025-10-03 15:00:51
      男子拿錯快遞,把白糖當底沙倒進魚缸!網友:魚要崩潰了……

      男子拿錯快遞,把白糖當底沙倒進魚缸!網友:魚要崩潰了……

      環球網資訊
      2026-02-21 16:00:42
      中國第一監獄:關的幾乎全是高官,為防止泄密,牢房內有特殊布置

      中國第一監獄:關的幾乎全是高官,為防止泄密,牢房內有特殊布置

      瓦倫西亞月亮
      2026-02-20 17:37:18
      換心風波僅1個月,李連杰再傳噩耗,淪落到如今的下場怪不了別人

      換心風波僅1個月,李連杰再傳噩耗,淪落到如今的下場怪不了別人

      鄉野小珥
      2026-02-05 15:03:34
      糖尿病治愈療法來了,最快今年上市

      糖尿病治愈療法來了,最快今年上市

      醫學界
      2026-02-21 18:39:50
      又一行業沒落!曾是世界第一,如今18家大國企幾乎全軍覆沒

      又一行業沒落!曾是世界第一,如今18家大國企幾乎全軍覆沒

      走進事件的中心
      2026-02-19 21:52:28
      斯諾克賽程:產生決賽席位,趙心童背靠背沖冠,小特復仇希金斯?

      斯諾克賽程:產生決賽席位,趙心童背靠背沖冠,小特復仇希金斯?

      劉姚堯的文字城堡
      2026-02-21 08:29:05
      2026-02-22 06:12:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14566文章數 66631關注度
      往期回顧 全部

      科技要聞

      智譜上市1月漲5倍,市值超越京東、快手

      頭條要聞

      貝加爾湖7名遇難者身份全部確認 1家4口僅1人生還

      頭條要聞

      貝加爾湖7名遇難者身份全部確認 1家4口僅1人生還

      體育要聞

      徐夢桃:這是我第一塊銅牌 給我換個吉祥物

      娛樂要聞

      黃曉明澳門賭博輸十幾億 本人親自回應

      財經要聞

      一覺醒來,世界大變,特朗普改新打法了

      汽車要聞

      比亞迪的“顏值擔當”來了 方程豹首款轎車路跑信息曝光

      態度原創

      藝術
      親子
      旅游
      時尚
      游戲

      藝術要聞

      他的肖像畫和人體畫,竟讓人贊嘆不已!

      親子要聞

      中韓寶寶得要從小灌輸中國文化 真正的年味是什么?

      旅游要聞

      上海的氣韻 | 馬上啟程來上博,博物館里過大年

      冬天穿衣盡量別露腿,這些基礎穿搭可嘗試,簡單大方又不挑人

      卡婊總算玩明白了,《安魂曲》雙主角盤活生化30周年

      無障礙瀏覽 進入關懷版