<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      11位頂尖數學家發了篇沒結果的論文,陶哲軒推薦都關注一下

      0
      分享至

      獲陶哲軒轉發,arXiv上的一篇新論文正在引起巨大關注!

      擠進前排后發現,原來這是一項由11位全球頂尖數學家發起的AI實驗——

      讓AI在規定期限內,解決他們各自在真實研究過程中產生的10道“研究級”難題,以此探索“AI+數學”的能力邊界。

      而且走的還是高斯時代的路子——人類先證明出來,但先不公布答案和過程,等到了合適時間再公開,避免AI偷偷看答案。

      以前這是一項為保護數學家證明自己優先解決某道問題的做法,而在AI時代卻有了新玩法。



      在陶哲軒看來,這項實驗非常有意思:

      • 當前“一次性”AI提示似乎難以解決這些問題,但它們已被人類領域專家攻克。可以預見,配備AI工具的其他領域專家也能解決其中相當一部分。這些問題的技術門檻相當高,非領域專家難以驗證AI生成的任何輸出結果
      • 因此在我看來,要讓非專家解決其中任何一個問題都極具挑戰性——當然,意外驚喜也并非不可能。在截止期限前,這項實驗能否產生任何顯著成果,將十分值得關注。



      好好好,既然老陶如此安利了,咱這就開扒完整實驗過程(doge)。

      解完10道數學題,然后…藏起證明過程

      概括而言,通過提出一套名為First Proof的實驗方案,這群數學家想做一件事——

      檢驗當前AI系統,是否具備獨立解決研究級數學問題的能力



      在這之前,雖然很多商用AI成了數學家手中的實用工具(如用于文獻檢索、代碼編寫、手稿校驗等),但對于AI是否具備他們想驗證的能力,學界始終缺乏相關清晰結論。

      這背后一個很重要的原因,就是評測手段的缺失。

      放眼市面上的數學AI基準,目前絕大多數都聚焦于競賽題,此類題目雖然便于規?;瘻y試,卻與真實的數學研究存在本質差異(甚至可能存在數據污染問題)。

      而數學家面對的真實情況往往是——

      問題并非精確定義完成,解法也不存在明確模板,需要在大量試探、修正和結構性判斷中逐步推進。

      基于這樣的背景,這群來自斯坦福、哥倫比亞、哈佛等高校及科研機構的數學家們齊聚一堂,設計了10道研究級數學問題,覆蓋代數組合學、譜圖論、代數拓撲、隨機分析、辛幾何等多個數學分支。

      這里補充一下,一開始其實是20道題,不過按4個標準篩選后最終只留下了10道——AI能理解問題表述、無隱藏公開答案、作者同意按要求發布證明、每位團隊成員僅貢獻1道題。

      完整10道題目指路論文以下位置:



      論文表示,First Proof區別于現有基準的地方在于:

      • 問題來自數學家當前研究中發現的真實疑問,答案為證明過程,需人類專家評分;
      • 問題全公開但答案無任何公開記錄,供社區驗證但不可重復使用,同時徹底消除數據污染;
      • 允許AI無限制使用網絡搜索等外部資源,貼近真實研究場景。



      劃重點,這10道題均來自作者自身的研究過程,是未來發表成果中的小型核心引理,未在互聯網、會議等任何公共渠道發布,從根源避免數據污染。

      每道題的人類證明不超過5頁(適配當前AI的技術限制),且加密發表于下面的這個網站。



      最終答案將于2026年2月13日公開,在此之前全球用戶均可以用這10道題來測試他們想要考驗的AI。

      GPT和Gemini先來挑戰一波

      而在廣發全球英雄帖之后,這群數學家也先自己測試了一波:

      邀請GPT 5.2 Pro和Gemini 3 Deepthink,對10道題進行一次性作答測試。

      他們明確表示,First Proof僅聚焦數學研究最后、也是最明確的階段——

      在問題表述和研究背景已經清晰給定的前提下,檢驗AI是否能夠完成嚴謹的數學證明,而不評估AI提出研究問題、構建新理論框架或發明新定義的能力。

      換言之,這是一場單純的能力邊界測試。在假設所有前期研究工作已經完成的情況下,看看AI能否獨立走完“從命題到正確證明”的最后一公里。

      而實驗結果顯示:

      • 在當前公開可用的最佳AI系統,僅有一次作答機會的情況下,它們難以解答我們提出的多數問題

      不過作者也預計,如果允許人類與AI反復對話、追問、引導,就很有可能讓AI給出更好的答案。



      再劃重點,為了最大程度減少這一實驗可能造成的數據污染問題,他們還有這樣的舉措:

      • 我們關閉了用于訓練和改進模型的數據共享選項,但我們知曉谷歌仍會保留數據3天,而OpenAI會保留30天。
      • (即便如此)在整個過程中,我們始終盡力確保所提問題的答案保持私密。

      未來,這群數學家也計劃在數月內設計第二套問題集,并在實驗設計上進一步收緊變量——

      在與相關模型方達成明確協議的前提下,先讓前沿AI系統完成測試,再統一公開問題與答案,從而將First Proof逐步發展為一個可復用、可比較的研究級數學能力基準。

      在此基礎上,實驗設置也將逐步“去人工化”。例如,放寬當前對證明長度、表達形式等人為限制,引入來自不同數學分支的問題,使測試不再局限于某一類技術路徑,而是覆蓋更廣泛的研究場景。

      更進一步,作者也明確表示,長期目標并不只是評估AI在“解題”階段的表現,而是逐步探索更高階能力的評測方式,比如這次先忽略的提出新問題、構建新理論框架的能力。



      不得不說,以上種種也符合陶哲軒一直以來對AI的判斷——

      未來的趨勢不是AI代替數學家,而是講求人機協作。

      而First Proof的價值,也不在于給AI下一個“及格或不及格”的結論,而在于第一次用真實、未公開、研究級的問題,來試圖界定AI當前所能觸及的邊界。

      換言之,即使只完整解出一道題,也足以成為AI數學研究史上一個值得記錄的節點。

      就是這時間會不會有點太短了?(截止到2月13日)



      論文:
      https://arxiv.org/abs/2602.05192
      答案加密地址:
      https://1stproof.org/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      太歹毒了!把他倆放在同一部影片里,是誰想出來的?

      太歹毒了!把他倆放在同一部影片里,是誰想出來的?

      錢小刀娛樂
      2026-02-20 22:48:28
      宇樹CEO王興興:當前機器人技術接近10歲孩子水平,大規模應用或需3至5年,最長不超10年

      宇樹CEO王興興:當前機器人技術接近10歲孩子水平,大規模應用或需3至5年,最長不超10年

      大象新聞
      2026-02-21 20:44:06
      民企已經到了“斬殺線”:25%躺平,38%絕望,80%內卷

      民企已經到了“斬殺線”:25%躺平,38%絕望,80%內卷

      蘇格拉高
      2026-02-21 19:53:50
      NBA官宣罰單!戈貝爾累計7個惡犯積分 禁賽1場損失20萬美元薪水

      NBA官宣罰單!戈貝爾累計7個惡犯積分 禁賽1場損失20萬美元薪水

      羅說NBA
      2026-02-22 05:29:57
      前烏軍總司令扎盧日內爆出猛料,俄烏開戰前夕,澤連斯基多次誤判

      前烏軍總司令扎盧日內爆出猛料,俄烏開戰前夕,澤連斯基多次誤判

      碳基生物關懷組織
      2026-02-21 22:57:12
      斯諾克賽程:19局10勝決出冠軍,希金斯或3連亞,趙心童破紀錄?

      斯諾克賽程:19局10勝決出冠軍,希金斯或3連亞,趙心童破紀錄?

      劉姚堯的文字城堡
      2026-02-22 08:54:00
      河北“釣帝”黑大爺因病去世,享年75歲,家屬:告別儀式已舉辦完畢;此前戶外垂釣多年被曬成“老抽色”走紅

      河北“釣帝”黑大爺因病去世,享年75歲,家屬:告別儀式已舉辦完畢;此前戶外垂釣多年被曬成“老抽色”走紅

      大風新聞
      2026-02-22 08:46:03
      事發上海和平飯店門口!一聲悶響,民警狂奔吶喊,救援爭分奪秒

      事發上海和平飯店門口!一聲悶響,民警狂奔吶喊,救援爭分奪秒

      環球網資訊
      2026-02-22 07:25:07
      至少在已經過去的25年里,中國的“財神”不是趙公明,而是WTO!

      至少在已經過去的25年里,中國的“財神”不是趙公明,而是WTO!

      細雨中的呼喊
      2026-02-21 06:59:07
      媽祖開始懲罰這位姓許的有錢人了

      媽祖開始懲罰這位姓許的有錢人了

      麥杰遜
      2026-02-21 18:12:33
      泰國清邁12天死亡72只老虎,無證據指向故意投毒或其他人為因素

      泰國清邁12天死亡72只老虎,無證據指向故意投毒或其他人為因素

      大風新聞
      2026-02-22 08:56:03
      8連勝來了!趙心童背靠背進決賽,沖140萬冠軍獎金,手握3大優勢

      8連勝來了!趙心童背靠背進決賽,沖140萬冠軍獎金,手握3大優勢

      劉姚堯的文字城堡
      2026-02-22 07:49:21
      撞臉吳京!杭州地鐵這位趙Sir火了,春節假期被問幾百遍去西湖怎么走

      撞臉吳京!杭州地鐵這位趙Sir火了,春節假期被問幾百遍去西湖怎么走

      環球網資訊
      2026-02-21 15:49:47
      四川一男子搭載妻女高速匝道逆行!駕駛人:“沒想到這么嚴重!”

      四川一男子搭載妻女高速匝道逆行!駕駛人:“沒想到這么嚴重!”

      封面新聞
      2026-02-21 21:09:07
      爆冷!皇馬遭絕殺,姆巴佩出奇低迷,西甲勁旅終結15年21場痛苦!

      爆冷!皇馬遭絕殺,姆巴佩出奇低迷,西甲勁旅終結15年21場痛苦!

      話體壇
      2026-02-22 04:03:42
      從9億回升至15億,《鏢人》逆跌奪得亞軍,吳京開啟漫長回本之路

      從9億回升至15億,《鏢人》逆跌奪得亞軍,吳京開啟漫長回本之路

      電影票房預告片
      2026-02-20 22:51:47
      湛江媽祖事件持續發酵!許老板坐不住了,得罪兩廣、福建的生意人

      湛江媽祖事件持續發酵!許老板坐不住了,得罪兩廣、福建的生意人

      火山詩話
      2026-02-21 05:13:01
      大年初二黃海斗法:解放軍用實力告訴美軍,這兒的規矩姓“中”

      大年初二黃海斗法:解放軍用實力告訴美軍,這兒的規矩姓“中”

      未來展望
      2026-02-21 14:42:14
      太囂張!那藝娜被湖北官方列為劣跡藝人,團隊硬剛:是地區黑公關

      太囂張!那藝娜被湖北官方列為劣跡藝人,團隊硬剛:是地區黑公關

      離離言幾許
      2026-02-21 14:46:36
      摘桃者毀根基:張晶執教理念讓中國短道速滑淪為保守主義犧牲品

      摘桃者毀根基:張晶執教理念讓中國短道速滑淪為保守主義犧牲品

      老馬拉車莫少裝
      2026-02-22 04:56:32
      2026-02-22 10:36:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12186文章數 176389關注度
      往期回顧 全部

      教育要聞

      萊頓大學排名:前十中國大學8所,浙大超哈佛,鄭州大學超斯坦福

      頭條要聞

      河北"巧克力釣魚大爺"因病去世享年75歲 家屬發聲

      頭條要聞

      河北"巧克力釣魚大爺"因病去世享年75歲 家屬發聲

      體育要聞

      徐夢桃:這是我第一塊銅牌 給我換個吉祥物

      娛樂要聞

      黃曉明澳門賭博輸十幾億 本人親自回應

      財經要聞

      特朗普新加征關稅稅率從10%提升至15%

      科技要聞

      智譜上市1月漲5倍,市值超越京東、快手

      汽車要聞

      比亞迪的“顏值擔當”來了 方程豹首款轎車路跑信息曝光

      態度原創

      房產
      本地
      手機
      藝術
      親子

      房產要聞

      窗前即地標!獨占三亞灣C位 自貿港總裁行宮亮相

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      手機要聞

      真我新機海外市場發布,Buds T500 Pro耳機曝光

      藝術要聞

      這本書法,80%的人無法讀懂!網友直言:看到第二字就傻眼!

      親子要聞

      為什么小男孩小時候要比小女孩難養好多?網友:通常精力充沛

      無障礙瀏覽 進入關懷版