<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      超越IMO金牌?谷歌創(chuàng)超難FirstProof數(shù)學挑戰(zhàn)新紀錄

      0
      分享至

      去年 7 月的 IMO 數(shù)學奧林匹克競賽中,兩大人工智能公司搶奪競賽「金牌」成績的鬧劇搞得沸沸揚揚。

      當時 OpenAI 和 谷歌 同時聲稱取得競賽金牌,而 OpenAI 因,遭到廣泛吐槽;谷歌 DeepMind 的 Gemini 進階模型。

      競賽與真正的數(shù)學研究之間,仍然存在一道明顯的分界線。

      在此之后,AI 智能體飛速發(fā)展,解決數(shù)學問題的能力不再僅依靠模型的推理能力。AI 智能體已經(jīng)可以開始自己做數(shù)學,不只是解題,更能夠進行數(shù)學研究,而且研究的還是頂尖數(shù)學家都要撓頭的問題,這意味著什么?

      近日,來自谷歌 DeepMind ,由 Gemini 3 Deep Think 驅(qū)動的最新數(shù)學研究智能體 Aletheia 在首屆 FirstProof 挑戰(zhàn)中,自主解決了 10 道高難度研究問題中的 6 道,成為創(chuàng)下了該數(shù)學挑戰(zhàn)賽的最佳紀錄。


      曾帶隊實現(xiàn) AI IMO 金牌成績的 DeepMind 超人類推理方向負責人 Thang Luong 表示,這一成果的分量超過去年 AI 在 IMO 測試中獲得金牌的表現(xiàn)

      相關(guān)論文《Aletheia tackles FirstProof autonomously》已發(fā)布在 arXiv,并且團隊在 Github 上公開了解決 FirstProof 問題的提示詞與輸出結(jié)果。


      • 論文標題:Aletheia tackles FirstProof autonomously

      • 論文鏈接:https://arxiv.org/pdf/2602.21201

      • 提示詞與輸出結(jié)果:https://github.com/google-deepmind/superhuman/tree/main/aletheia

      FirstProof:把 AI 放進真實的數(shù)學研究現(xiàn)場

      FirstProof 是一項專門為評估 AI 數(shù)學研究能力而設(shè)計的實驗性挑戰(zhàn)。項目由多位活躍在不同數(shù)學分支的一線研究者發(fā)起,題目全部來自真實科研過程中的命題,被提出作為評估當前人工智能能力的測試。

      這些問題挑戰(zhàn)啟動前從未公開證明,組織方提前將標準證明加密保存,以盡量排除訓練數(shù)據(jù)泄露的可能。最終提交的答案,需要由領(lǐng)域?qū)<胰斯忛?/strong>,判斷其邏輯嚴密性與學術(shù)可接受度。評價標準接近論文審稿,而非自動判分。

      這種設(shè)計刻意提高了門檻。它測試的,是 AI 在陌生問題上進行長期推理與結(jié)構(gòu)構(gòu)造的能力。換句話說,F(xiàn)irstProof 關(guān)心的,是系統(tǒng)是否具備參與數(shù)學研究的潛力。

      這些問題于 2026 年 2 月 5 日發(fā)布,并設(shè)定了截止時間為太平洋時間 2026 年 2 月 13 日晚上 11:59 ,解決方法在截止后在互聯(lián)網(wǎng)上發(fā)布。

      這項評估本身極其困難,能夠真正理解這些問題的專家屈指可數(shù)。關(guān)鍵的一點是:Aletheia 的所有解答均在沒有任何人工干預(yù)的情況下生成,并且在 FirstProof 挑戰(zhàn)規(guī)定的時間范圍內(nèi)提交。



      研究團隊執(zhí)行整體流程

      FirstProof 的第一作者確認了這一事實:


      研究團隊運行了兩個版本的 Aletheia(兩者僅在底層基礎(chǔ)模型上有所不同),它們都由 Gemini DeepThink 提供支持。綜合多數(shù)專家評審意見,這兩個系統(tǒng)共同解決了 10 道題中的 6 道(第 2、5、7、8、9、10 題)。我們注意到,專家們對第 8 題的評估并不完全一致。



      Aletheia 在 FirstProof 上的性能總結(jié)。專家評估列顯示了在咨詢的總專家人數(shù)中,有多少專家將解決方案評為正確。僅在 P8 上的評估不是一致的。

      Aletheia 的「解題分析」

      兩個智能體在同樣的 FirstProof 十個問題的執(zhí)行結(jié)果如下所示:


      在 FirstProof 的 10 道問題中,Aletheia 為其中 6 道題(P2、P5、P7、P8、P9、P10)生成了候選解答。在「best-of-2」的評估設(shè)置下,根據(jù)多數(shù)專家的評審意見,這 6 道題都被認定為在該解釋框架下已正確解決。

      Aletheia A 與 Aletheia B 針對相同的六道題目都生成了候選解答。單獨來看,每個智能體都至少出現(xiàn)過一次「假陽性」(false positive),但在 best-of-2 的評估機制下,它們共同為六道題目都提供了可信的解答。這一結(jié)果相比 2025 年 12 月用于解決 Erd?s 問題的 Aletheia 版本,在準確率上有明顯提升。

      不過,P8 的評估并非一致通過 ——7 位專家中有 5 位給出了「Correct」的評價。對于另外 4 道題(P1、P3、P4、P6),兩個智能體都沒有給出解答:要么明確輸出「No solution found」(未找到解答),要么在時間限制內(nèi)沒有返回任何結(jié)果。

      研究團隊認為,Aletheia 具備一種「自我篩選」機制,這也是 Aletheia 的關(guān)鍵設(shè)計原則之一。

      在將 AI 擴展為數(shù)學研究助手的過程中,可靠性才是首要瓶頸。如果智能體給出錯誤的「幻覺」答案,會極度浪費人類專家用于驗證結(jié)果的時間與精力,與提高研究效率和自動化的目標背道而馳。

      此外,解決問題的推理成本也是非常重要的指標。


      在圖中展示了每個候選解的推理成本,并將其表示為相對于 Erd?s-1051 解答推理成本的倍數(shù)。不難發(fā)現(xiàn),Aletheia 在所有問題上,推理成本都高于 Erd?s-1051

      尤其是 P7,其推理成本比此前觀察到的規(guī)模高出一個數(shù)量級。研究者稱,這一方面是因為 Generator 子智能體在生成候選解時消耗了大量計算資源,另一方面是因為需要更多輪交互才能通過 Verifier 子智能體的驗證。

      總結(jié)

      數(shù)學研究包含多個環(huán)節(jié):提出問題、建立框架、尋找關(guān)鍵結(jié)構(gòu)、完成證明。當前系統(tǒng)顯然還無法全面承擔所有角色,但它已經(jīng)開始在證明與驗證環(huán)節(jié)發(fā)揮作用。

      未來的研究場景或許會發(fā)生變化。人類研究者提出方向與核心思想,AI 負責高強度的路徑搜索與形式化驗證,再由人類進行理論整合與升華。這種協(xié)作模式,正在逐漸成形。

      數(shù)學長期以來被視為人類理性能力的高地。如今,AI 正在這里取得實質(zhì)性突破。當機器開始穩(wěn)定地完成研究級證明,我們或許需要重新思考一個問題:

      在未來的數(shù)學論文作者名單中,AI 會以什么身份出現(xiàn)?

      ? THE END

      文章來源:機器之心。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      有錢有閑有福氣的三大生肖,2026花的理直氣壯,過得瀟灑自由!

      有錢有閑有福氣的三大生肖,2026花的理直氣壯,過得瀟灑自由!

      毅談生肖
      2026-04-17 10:48:55
      老彩民發(fā)現(xiàn)彩票玄機,中獎8000萬,私下透露:一個被人忽略的細節(jié)

      老彩民發(fā)現(xiàn)彩票玄機,中獎8000萬,私下透露:一個被人忽略的細節(jié)

      紅豆講堂
      2025-11-26 12:55:06
      零涂層電飯煲降價42%:松下這次押對了什么

      零涂層電飯煲降價42%:松下這次押對了什么

      我是一個粉刷匠2
      2026-04-16 15:15:17
      張婉婷直播對齊溪開火,諷刺齊溪七年不生娃,離婚一年就王懷上了

      張婉婷直播對齊溪開火,諷刺齊溪七年不生娃,離婚一年就王懷上了

      童叔不飆車
      2026-04-17 10:41:01
      1998年,媽媽年輕時算不算美女?

      1998年,媽媽年輕時算不算美女?

      華人星光
      2026-03-19 12:03:59
      豆包最實用的10個AI功能,強烈建議收藏!

      豆包最實用的10個AI功能,強烈建議收藏!

      秋葉PPT
      2026-04-15 18:58:59
      向太拿煙頭燙繼女的內(nèi)幕!

      向太拿煙頭燙繼女的內(nèi)幕!

      八卦瘋叔
      2026-04-17 10:47:50
      醫(yī)生坦言:只要血脂報告里沒有這2個詞,血管健康就不用太擔憂

      醫(yī)生坦言:只要血脂報告里沒有這2個詞,血管健康就不用太擔憂

      健康科普365
      2026-04-07 11:35:05
      馮白駒晚年坦言:瓊崖縱隊能幸存,靠的不是深山,而是人心

      馮白駒晚年坦言:瓊崖縱隊能幸存,靠的不是深山,而是人心

      掠影后有感
      2026-04-17 10:07:18
      女演員千萬別整容《八千里路云和月》看43歲萬茜和24歲王和就知道

      女演員千萬別整容《八千里路云和月》看43歲萬茜和24歲王和就知道

      亦暖追劇隨筆
      2026-04-17 12:28:50
      有趣的醫(yī)學案例:直腸射精!

      有趣的醫(yī)學案例:直腸射精!

      黯泉
      2026-04-07 21:58:25
      以色列和黎巴嫩政府和談,真主黨面臨徹底覆滅的危險

      以色列和黎巴嫩政府和談,真主黨面臨徹底覆滅的危險

      高博新視野
      2026-04-17 07:30:13
      太可憐了!2張照片,幾乎就是張雪峰人生的最後定格

      太可憐了!2張照片,幾乎就是張雪峰人生的最後定格

      魔都姐姐雜談
      2026-03-28 04:04:21
      伊朗革命衛(wèi)隊稱抵抗陣線向曼德海峽船只發(fā)出警告

      伊朗革命衛(wèi)隊稱抵抗陣線向曼德海峽船只發(fā)出警告

      每日經(jīng)濟新聞
      2026-04-17 10:17:20
      廣州市中心一路口左轉(zhuǎn)車占道嚴重,阻擋右轉(zhuǎn)車通行,交警:已整體改造

      廣州市中心一路口左轉(zhuǎn)車占道嚴重,阻擋右轉(zhuǎn)車通行,交警:已整體改造

      環(huán)球網(wǎng)資訊
      2026-04-17 10:01:12
      陪玩陪睡已過時!繼被注射藥物、熱巴事件后,王陽再爆圈內(nèi)陰暗面

      陪玩陪睡已過時!繼被注射藥物、熱巴事件后,王陽再爆圈內(nèi)陰暗面

      小椰的奶奶
      2026-04-17 06:51:33
      張?zhí)m:咱就不服,隔空否認要放棄事業(yè),給汪小菲馬筱梅帶孩子!

      張?zhí)m:咱就不服,隔空否認要放棄事業(yè),給汪小菲馬筱梅帶孩子!

      小娛樂悠悠
      2026-04-17 09:47:41
      捷豹路虎中國宣布26年款攬勝正式上市

      捷豹路虎中國宣布26年款攬勝正式上市

      界面新聞
      2026-04-16 21:09:39
      斯坦丘沒被挖角,大連主場復(fù)仇+為保級打基礎(chǔ) 李國旭破河南鐵桶陣

      斯坦丘沒被挖角,大連主場復(fù)仇+為保級打基礎(chǔ) 李國旭破河南鐵桶陣

      替補席看球
      2026-04-17 12:05:21
      大佬站隊、鄭麗文得強援!國民黨1人嚇破膽,連忙否認“2個太陽”

      大佬站隊、鄭麗文得強援!國民黨1人嚇破膽,連忙否認“2個太陽”

      云景侃記
      2026-04-17 09:48:27
      2026-04-17 13:11:00
      算法與數(shù)學之美 incentive-icons
      算法與數(shù)學之美
      分享知識,交流思想
      5478文章數(shù) 64623關(guān)注度
      往期回顧 全部

      科技要聞

      Anthropic推出Opus 4.7,坦言依不及Mythos

      頭條要聞

      毛焦爾當面"逼宮"匈牙利總統(tǒng):你不配 趕緊辭職走人

      頭條要聞

      毛焦爾當面"逼宮"匈牙利總統(tǒng):你不配 趕緊辭職走人

      體育要聞

      贏下快船,這場很庫里,很格林,很科爾

      娛樂要聞

      劉德華摯友潘宏彬離世 曾一起租房住

      財經(jīng)要聞

      海爾與醫(yī)美女王互撕 換血抗衰誰的生意?

      汽車要聞

      又快又穩(wěn)的開掛動力! 阿維塔06T全系搭分布式電驅(qū)

      態(tài)度原創(chuàng)

      健康
      教育
      家居
      游戲
      軍事航空

      干細胞抗衰4大誤區(qū),90%的人都中招

      教育要聞

      “恭喜你成太子太傅了”,沙特王子報考上交大研究生,評論區(qū)炸鍋

      家居要聞

      法式線條 時光靜淌

      《繕寫室:羊皮卷大師》現(xiàn)已登陸Steam平臺

      軍事要聞

      美宣布黎以停火10天 以方稱不會撤軍

      無障礙瀏覽 進入關(guān)懷版