<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      字節Seed發布最強數學模型:一招“打草稿”,IMO銀牌變金牌

      0
      分享至

      魚羊 發自 凹非寺
      量子位 | 公眾號 QbitAI

      字節最新數學推理專用模型,剛剛刷新戰績:拿下IMO金牌成績。

      Scaling Law加持下,這個名為Seed Prover 1.5的模型,在16.5小時內,順利解決IMO 2025的前5道題目,在僅失一題的情況下拿到35分,達到今年IMO的金牌線。



      這一成績與7月官方認證的IMO金牌“選手”谷歌Gemini打平。而字節自己的前代模型,當時的成績是3天完成了6道題目中的4道,以及一道題的部分證明,達到銀牌成績。

      同時,Seed Prover 1.5也在北美本科級別數學競賽Putnam這一基準上,大幅刷新了SOTA成績。



      模型尚未開源,但技術報告已經公開。

      值得關注的是,Seed Prover 1.5強調了大規模強化學習給數學模型帶來的性能提升,也證明,在推理階段增加計算資源,可以顯著提高解題率。

      即,驗證了測試時Scaling和強化學習訓練時的Scaling的有效性。

      草稿引導的高效形式化證明

      具體來看技術報告。Seed Prover 1.5的參數規模與Seed 1.6相同,230B總參數,23B激活。

      主要創新有兩點:

      • Agentic Prover:一種新的形式化數學推理范式
      • Sketch Model:自然語言到形式語言的翻譯器

      Agentic Prover

      相較于通用模型用自然語言解答數學問題的方式,數學推理專用模型采用的是形式化數學推理,也就是用Lean等形式語言,構建可在公理系統中機械驗證的證明,以確保結果更加可靠。

      其難點在于,形式化證明比自然語言證明更加困難。根據“De Bruijn factor”經驗法則,一行普通的數學推導,通常需要擴展成4到10行復雜的代碼。

      這要求模型不僅懂數學,還要精通編程和類型論,而這一高門檻導致形式化證明在效率和成功率上一直遠落后于自然語言推理。

      以往的研究中,形式化證明器通常分為兩類:

      • Step-prover:一步一步證明,效率很低;
      • Whole-prover:一次性生成完整證明,但中間一旦出錯就會前功盡棄。

      Seed Prover 1.5為了平衡兩種方法的優缺點,提出了一種全新的Agentic Prover架構:

      模型將Lean語言視為一種工具,且在證明過程中可以自主地調用其他多種工具。

      • Mathlib搜索工具:類似于程序員查閱技術文檔,模型可以主動檢索Lean龐大的數學庫 Mathlib,尋找可用的定理和定義,而非依賴不可靠的隱式記憶。
      • Python代碼執行:遇到需要計算的部分,模型可以編寫并運行Python腳本來輔助驗證直覺。
      • 增量式引理驗證:模型不再被迫一次性生成整個證明,而是將復雜問題拆解為若干引理。每證明出一個引理,系統就會將其保留并復用,作為后續推理的基石。

      這樣一來,模型既可以像人類一樣先使用“草稿紙”(自然語言)進行推理,又能夠與Lean環境及多種工具進行交互,隨時調用工具來驗證猜想。



      就是說,Seed Prover 1.5采用的是基于引理的交互方式,既不是一次性生成整個證明,也無需每一步都做交互驗證。

      官方技術報告中還提到,Seed Prover 1.5進行了大規模的Agentic RL。

      實驗證明,隨著強化學習訓練步數的增加,模型在訓練集上的證明通過率從初始的50%升至接近90%。

      Agentic RL還帶來了大幅的效率提升。在對比測試中,Seed Prover 1.5僅需少量的計算資源,就能在Putnam和Fate等高難度數據集上,擊敗消耗大量算力的上一代Seed Prover模型。



      Sketch Model

      為了讓模型能更好地“打草稿”,研究人員還專門訓練了Sketch Model,來模擬人類數學家解決問題的方式:

      數學家在證明一個復雜定理時,通常不會直接寫出每一步嚴絲合縫的代碼。他們會先在紙上寫下一個非形式化的證明草稿,列出關鍵的中間步驟、引理和大致思路。

      Sketch Model同樣不糾結于具體的語法細節,而是專注于邏輯路徑的規劃。它可以將自然語言證明拆解為若干個獨立的、難度更低的引理,并暫時跳過具體證明,僅保留整體的邏輯骨架。

      這就將原本不可解的復雜命題,轉化成了難度更低的子目標。

      研究人員采用混合獎勵信號的強化學習策略,來訓練這一模型:

      • 信號一:Lean編譯器驗證生成的草圖是否完全正確。
      • 信號二:自然語言Prover會逐一檢查引理,一旦發現任一引理在數學上不成立,整個草稿即被否決。
      • 信號三:引入基于長思維鏈的Rubric評分模型,從語義層面評估草稿的質量——考量引理是否與自然語言證明對齊、拆解的粒度是否合適、是否真正降低了原題的難度。

      當草稿在形式驗證、數學正確性和整體評分上均滿足要求時,才會獲得正向獎勵。



      測試時工作流

      以上創新最終構成了一個分層級的多智能體協作系統:

      • Natural Language Prover負責提供高層的數學直覺和自然語言證明。
      • Sketch Model將自然語言轉化為形式化的引理結構。
      • Agentic Prover并行地攻克每一個被拆解出的引理。

      如果某個引理太難證明,系統還會遞歸地調用Sketch Model再次進行拆解。這不僅規避了長文本生成的錯誤累積問題,更提升了推理的并行度和成功率。



      研究人員還驗證了這一工作流的測試時Scaling特性。

      如上圖所示,投入更多的計算資源,Seed Prover 1.5對問題的解決率會呈對數線性增長。

      這項研究來自字節Seed AI4Math團隊。

      量子位捕捉到了其中幾位作者的蹤跡。

      Zheng Yuan,清華統計學博士。今年6月剛剛加入字節,此前在阿里Qwen團隊負責對齊和推理方向工作。

      Hanwen Zhu,本科畢業于牛津大學數學與計算機科學專業,目前在CMU讀研,即將加入字節Seed。

      鄭澤宇,CMU在讀博士,字節Seed實習生,專業方向同樣是數學與計算機科學聯合方向。

      論文鏈接:
      https://arxiv.org/pdf/2512.17260
      參考鏈接:
      [1]https://mp.weixin.qq.com/s/vcciJWK9KfDBM4FBIJwTfw?click_id=2
      [2]https://x.com/GanjinZero/status/2001948751871815741

      — 完 —

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      中國網貸公司在印度幾乎全軍覆沒,違約率最高達80%!

      中國網貸公司在印度幾乎全軍覆沒,違約率最高達80%!

      胡華成
      2025-12-24 16:47:03
      萬萬沒想到,46條中日航線剛全部取消,就炸出來一群“妖魔鬼怪”

      萬萬沒想到,46條中日航線剛全部取消,就炸出來一群“妖魔鬼怪”

      策略述
      2025-12-24 12:22:15
      大跌眼鏡!美國斬殺線讓美國破了大防!

      大跌眼鏡!美國斬殺線讓美國破了大防!

      小莜讀史
      2025-12-24 13:06:02
      紅軍城再次遇險,美國股神巴菲特之子加入烏軍

      紅軍城再次遇險,美國股神巴菲特之子加入烏軍

      史政先鋒
      2025-12-24 21:03:28
      太諷刺!龐家無償捐4700平米祖宅,院長雙謊被戳穿,省多部門介入

      太諷刺!龐家無償捐4700平米祖宅,院長雙謊被戳穿,省多部門介入

      好賢觀史記
      2025-12-23 18:14:27
      看呆!一家六口上廁所不用紙,共用一把“刮屎刀”?!然后她親上去了...了...

      看呆!一家六口上廁所不用紙,共用一把“刮屎刀”?!然后她親上去了...了...

      英國那些事兒
      2025-12-24 23:22:56
      向太曝馬伊琍已再婚:當年文章過不了心理那關

      向太曝馬伊琍已再婚:當年文章過不了心理那關

      娛樂看阿敞
      2025-12-12 15:50:00
      國產3nm芯片殺出來了!張忠謀還敢喊“聯合美扼殺大陸”嗎?

      國產3nm芯片殺出來了!張忠謀還敢喊“聯合美扼殺大陸”嗎?

      壹只灰鴿子
      2025-12-24 16:39:45
      江西49歲女園長駕車墜泥塘致8死,小兒也在車上,丈夫是校車司機

      江西49歲女園長駕車墜泥塘致8死,小兒也在車上,丈夫是校車司機

      Mr王的飯后茶
      2025-12-24 15:40:24
      雷軍急推YU9被質疑,網友:中年人怎敢把全家托付給小米!

      雷軍急推YU9被質疑,網友:中年人怎敢把全家托付給小米!

      熱點菌本君
      2025-12-23 19:06:18
      太豪了!馬伯騫新家登上時尚芭莎,父子倆出鏡,像住在世外桃源!

      太豪了!馬伯騫新家登上時尚芭莎,父子倆出鏡,像住在世外桃源!

      阿纂看事
      2025-12-24 23:36:35
      孔令輝現狀:賭場風波前程盡毀,如今低調生活,開了紫砂壺工作室

      孔令輝現狀:賭場風波前程盡毀,如今低調生活,開了紫砂壺工作室

      以茶帶書
      2025-12-04 00:55:02
      為什么我們不再熱衷過圣誕節了?

      為什么我們不再熱衷過圣誕節了?

      小卿情感說
      2025-12-24 21:16:17
      南博事件升級!參與定"偽"的專家徐沄秋被扒,果然有情況

      南博事件升級!參與定"偽"的專家徐沄秋被扒,果然有情況

      鋭娛之樂
      2025-12-21 08:30:41
      新一期新秀榜:狀元弗拉格穩居榜首,榜眼哈珀升至第五

      新一期新秀榜:狀元弗拉格穩居榜首,榜眼哈珀升至第五

      懂球帝
      2025-12-25 07:19:22
      南博事件,“舉報人”郭禮典危險了

      南博事件,“舉報人”郭禮典危險了

      林中木白
      2025-12-24 20:19:50
      明年養老金繼續漲?人社部部長表態了!不按工齡調整可行嗎?

      明年養老金繼續漲?人社部部長表態了!不按工齡調整可行嗎?

      李健政觀察
      2025-12-25 09:27:54
      兩名朝鮮俘虜公開表態:寧愿去韓國,也不愿返回朝鮮

      兩名朝鮮俘虜公開表態:寧愿去韓國,也不愿返回朝鮮

      老馬拉車莫少裝
      2025-12-24 21:30:46
      重磅!首款“液體”偉哥橫空出世,宣稱對比傳統口服有4大優勢

      重磅!首款“液體”偉哥橫空出世,宣稱對比傳統口服有4大優勢

      思思夜話
      2025-12-25 14:08:36
      全球最精確預言家:2026,歷史性的一年, 能說的都在這里

      全球最精確預言家:2026,歷史性的一年, 能說的都在這里

      神奇故事
      2025-12-24 23:34:15
      2025-12-25 16:20:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      11914文章數 176342關注度
      往期回顧 全部

      科技要聞

      屠龍少年被"招安"!英偉達平安夜豪擲200億

      頭條要聞

      男子信訪被勸返收鎮干部4300元路費獲罪 二審駁回上訴

      頭條要聞

      男子信訪被勸返收鎮干部4300元路費獲罪 二審駁回上訴

      體育要聞

      單賽季11冠,羽壇“安洗瑩時代”真的來了

      娛樂要聞

      金莎小19歲男友求婚成功!兩人雪地擁吻

      財經要聞

      時隔15月,人民幣升破7,三大推手曝光

      汽車要聞

      預售31.3萬元起 全新奧迪Q5L將于1月內上市

      態度原創

      旅游
      時尚
      游戲
      家居
      本地

      旅游要聞

      偶遇大理上關花天龍洞景區,感覺挺有意思的,可惜還沒來得及去

      對不起周柯宇,是陳靖可先來的

      玩家討厭游戲教程!填鴨式教程如何消磨熱情?

      家居要聞

      經典彌新 品味浪漫居所

      本地新聞

      云游安徽|亳州晨暮皆成史,街巷縱橫印春秋

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 忘忧草社区在线www| 色偷偷亚洲女人天堂观看| 国产超碰人人| 玖草视频在线观看| 玩弄人妻少妇500系列视频| 丰满人妻熟妇乱又伦精品软件 | 久久香蕉国产线看观看精品yw| 中文字幕亚洲乱码熟女在线萌芽| 这里只有精品在线播放| 国产人妻人伦AV片三A级做爰| 欧洲综合色| 人妻激情文学| 亚洲精品国产av一区二区| 亚洲天堂av在线免费| 馆陶县| 亚洲一区二区三区 无码| 成人A级片| 中文字幕日韩有码| 武夷山市| 久久精品国产久精国产| 国产波霸爆乳一区二区| 人妻无码| 久久福利导航| 中文日产乱幕九区无线码| 亚洲综合婷婷| jizz麻豆| 洪洞县| 国产无遮挡又黄又爽在线视频| 亚洲成人无码在线观看| 黑人无码av| 亚洲无码日日| 免费三级网站| 亚洲2区3区4区产品乱码2021| 亚洲尤物你懂的视频在线看| 涡阳县| 黑人好猛厉害爽受不了好大撑| 久久久久久久一线毛片| 超碰在线成人| 久久XXX| 欧美一区二区三区久久综合| 最新的国产成人精品2020|