<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      字節Seed發布最強數學模型:一招“打草稿”,IMO銀牌變金牌

      0
      分享至

      魚羊 發自 凹非寺
      量子位 | 公眾號 QbitAI

      字節最新數學推理專用模型,剛剛刷新戰績:拿下IMO金牌成績。

      Scaling Law加持下,這個名為Seed Prover 1.5的模型,在16.5小時內,順利解決IMO 2025的前5道題目,在僅失一題的情況下拿到35分,達到今年IMO的金牌線。



      這一成績與7月官方認證的IMO金牌“選手”谷歌Gemini打平。而字節自己的前代模型,當時的成績是3天完成了6道題目中的4道,以及一道題的部分證明,達到銀牌成績。

      同時,Seed Prover 1.5也在北美本科級別數學競賽Putnam這一基準上,大幅刷新了SOTA成績。



      模型尚未開源,但技術報告已經公開。

      值得關注的是,Seed Prover 1.5強調了大規模強化學習給數學模型帶來的性能提升,也證明,在推理階段增加計算資源,可以顯著提高解題率。

      即,驗證了測試時Scaling和強化學習訓練時的Scaling的有效性。

      草稿引導的高效形式化證明

      具體來看技術報告。Seed Prover 1.5的參數規模與Seed 1.6相同,230B總參數,23B激活。

      主要創新有兩點:

      • Agentic Prover:一種新的形式化數學推理范式
      • Sketch Model:自然語言到形式語言的翻譯器

      Agentic Prover

      相較于通用模型用自然語言解答數學問題的方式,數學推理專用模型采用的是形式化數學推理,也就是用Lean等形式語言,構建可在公理系統中機械驗證的證明,以確保結果更加可靠。

      其難點在于,形式化證明比自然語言證明更加困難。根據“De Bruijn factor”經驗法則,一行普通的數學推導,通常需要擴展成4到10行復雜的代碼。

      這要求模型不僅懂數學,還要精通編程和類型論,而這一高門檻導致形式化證明在效率和成功率上一直遠落后于自然語言推理。

      以往的研究中,形式化證明器通常分為兩類:

      • Step-prover:一步一步證明,效率很低;
      • Whole-prover:一次性生成完整證明,但中間一旦出錯就會前功盡棄。

      Seed Prover 1.5為了平衡兩種方法的優缺點,提出了一種全新的Agentic Prover架構:

      模型將Lean語言視為一種工具,且在證明過程中可以自主地調用其他多種工具。

      • Mathlib搜索工具:類似于程序員查閱技術文檔,模型可以主動檢索Lean龐大的數學庫 Mathlib,尋找可用的定理和定義,而非依賴不可靠的隱式記憶。
      • Python代碼執行:遇到需要計算的部分,模型可以編寫并運行Python腳本來輔助驗證直覺。
      • 增量式引理驗證:模型不再被迫一次性生成整個證明,而是將復雜問題拆解為若干引理。每證明出一個引理,系統就會將其保留并復用,作為后續推理的基石。

      這樣一來,模型既可以像人類一樣先使用“草稿紙”(自然語言)進行推理,又能夠與Lean環境及多種工具進行交互,隨時調用工具來驗證猜想。



      就是說,Seed Prover 1.5采用的是基于引理的交互方式,既不是一次性生成整個證明,也無需每一步都做交互驗證。

      官方技術報告中還提到,Seed Prover 1.5進行了大規模的Agentic RL。

      實驗證明,隨著強化學習訓練步數的增加,模型在訓練集上的證明通過率從初始的50%升至接近90%。

      Agentic RL還帶來了大幅的效率提升。在對比測試中,Seed Prover 1.5僅需少量的計算資源,就能在Putnam和Fate等高難度數據集上,擊敗消耗大量算力的上一代Seed Prover模型。



      Sketch Model

      為了讓模型能更好地“打草稿”,研究人員還專門訓練了Sketch Model,來模擬人類數學家解決問題的方式:

      數學家在證明一個復雜定理時,通常不會直接寫出每一步嚴絲合縫的代碼。他們會先在紙上寫下一個非形式化的證明草稿,列出關鍵的中間步驟、引理和大致思路。

      Sketch Model同樣不糾結于具體的語法細節,而是專注于邏輯路徑的規劃。它可以將自然語言證明拆解為若干個獨立的、難度更低的引理,并暫時跳過具體證明,僅保留整體的邏輯骨架。

      這就將原本不可解的復雜命題,轉化成了難度更低的子目標。

      研究人員采用混合獎勵信號的強化學習策略,來訓練這一模型:

      • 信號一:Lean編譯器驗證生成的草圖是否完全正確。
      • 信號二:自然語言Prover會逐一檢查引理,一旦發現任一引理在數學上不成立,整個草稿即被否決。
      • 信號三:引入基于長思維鏈的Rubric評分模型,從語義層面評估草稿的質量——考量引理是否與自然語言證明對齊、拆解的粒度是否合適、是否真正降低了原題的難度。

      當草稿在形式驗證、數學正確性和整體評分上均滿足要求時,才會獲得正向獎勵。



      測試時工作流

      以上創新最終構成了一個分層級的多智能體協作系統:

      • Natural Language Prover負責提供高層的數學直覺和自然語言證明。
      • Sketch Model將自然語言轉化為形式化的引理結構。
      • Agentic Prover并行地攻克每一個被拆解出的引理。

      如果某個引理太難證明,系統還會遞歸地調用Sketch Model再次進行拆解。這不僅規避了長文本生成的錯誤累積問題,更提升了推理的并行度和成功率。



      研究人員還驗證了這一工作流的測試時Scaling特性。

      如上圖所示,投入更多的計算資源,Seed Prover 1.5對問題的解決率會呈對數線性增長。

      這項研究來自字節Seed AI4Math團隊。

      量子位捕捉到了其中幾位作者的蹤跡。

      Zheng Yuan,清華統計學博士。今年6月剛剛加入字節,此前在阿里Qwen團隊負責對齊和推理方向工作。

      Hanwen Zhu,本科畢業于牛津大學數學與計算機科學專業,目前在CMU讀研,即將加入字節Seed。

      鄭澤宇,CMU在讀博士,字節Seed實習生,專業方向同樣是數學與計算機科學聯合方向。

      論文鏈接:
      https://arxiv.org/pdf/2512.17260
      參考鏈接:
      [1]https://mp.weixin.qq.com/s/vcciJWK9KfDBM4FBIJwTfw?click_id=2
      [2]https://x.com/GanjinZero/status/2001948751871815741

      — 完 —

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      曼聯新帝星考慮永久轉會!阿莫林畫餅無用,除非換帥否則難逃替補

      曼聯新帝星考慮永久轉會!阿莫林畫餅無用,除非換帥否則難逃替補

      羅米的曼聯博客
      2025-12-30 09:18:28
      繼續拉胯繼續輸,人見人欺遼籃3分惜敗,王嵐嵚攻守兩端坍塌

      繼續拉胯繼續輸,人見人欺遼籃3分惜敗,王嵐嵚攻守兩端坍塌

      星Xin辰大海
      2025-12-30 08:19:29
      登上訪華專機前,美宣布18個月后對華加稅,不許中方做一件事

      登上訪華專機前,美宣布18個月后對華加稅,不許中方做一件事

      非凡觀點
      2025-12-29 09:47:30
      那個被全單位孤立的掛職干部,我陪他吃了一年食堂,如今他回來了

      那個被全單位孤立的掛職干部,我陪他吃了一年食堂,如今他回來了

      星宇共鳴
      2025-12-26 09:58:41
      新年第一炸!2026年首款新機官宣:1月1日,正式發布

      新年第一炸!2026年首款新機官宣:1月1日,正式發布

      科技堡壘
      2025-12-29 11:11:10
      林俊杰曬合照官宣戀情 21歲年齡差藏滿甜蜜細節

      林俊杰曬合照官宣戀情 21歲年齡差藏滿甜蜜細節

      立真娛樂
      2025-12-30 09:27:07
      日本擁核已進入倒計時?殘酷現實:我們可能真的攔不住

      日本擁核已進入倒計時?殘酷現實:我們可能真的攔不住

      遠方風林
      2025-12-27 19:03:37
      年底為止日本死刑犯共有105人 不執行或慢慢執行成主流

      年底為止日本死刑犯共有105人 不執行或慢慢執行成主流

      日本再發現
      2025-12-29 18:53:55
      38歲趙麗穎和35歲譚松韻同臺飚戲,一個老態明顯,一個少女感十足

      38歲趙麗穎和35歲譚松韻同臺飚戲,一個老態明顯,一個少女感十足

      鋒哥與八卦哥
      2025-12-29 15:53:02
      1971年,劉思齊入獄后向毛主席求救,毛澤東最高指示:娃娃們無罪

      1971年,劉思齊入獄后向毛主席求救,毛澤東最高指示:娃娃們無罪

      鶴羽說個事
      2025-12-29 15:38:35
      “這是廣告啊!”皮爾斯吐槽科比:防我像防總決賽

      “這是廣告啊!”皮爾斯吐槽科比:防我像防總決賽

      大眼瞄世界
      2025-12-29 22:51:11
      隱忍24年,陳婷終于撕下完美偽裝,她給所有“已婚女人”上了一課

      隱忍24年,陳婷終于撕下完美偽裝,她給所有“已婚女人”上了一課

      近史談
      2025-12-27 13:49:49
      攜程事件升級!用戶哭訴,注銷太難了,要手持身份證照片和手機號

      攜程事件升級!用戶哭訴,注銷太難了,要手持身份證照片和手機號

      火山詩話
      2025-12-28 07:35:08
      美國專家:漢字是全球唯一超越時空的文字,這一優勢碾壓英法俄語

      美國專家:漢字是全球唯一超越時空的文字,這一優勢碾壓英法俄語

      比利
      2025-12-27 19:26:54
      今日交二九,“最怕二九暖陽照”,二九晴天有啥預兆?答案來了

      今日交二九,“最怕二九暖陽照”,二九晴天有啥預兆?答案來了

      小談食刻美食
      2025-12-30 08:56:16
      “退貨羽絨服口袋現機票”上熱搜,店鋪客服:已協商退款,視頻為供貨商不知情所發

      “退貨羽絨服口袋現機票”上熱搜,店鋪客服:已協商退款,視頻為供貨商不知情所發

      極目新聞
      2025-12-29 16:52:27
      落難鳳凰依舊貴!趙薇穿8萬6外套高調現身,一條發文曝近期動向

      落難鳳凰依舊貴!趙薇穿8萬6外套高調現身,一條發文曝近期動向

      月下守候
      2025-12-30 00:13:41
      被強奸257次,還勾引實習民警,二人第三次開房因偷金項鏈被抓

      被強奸257次,還勾引實習民警,二人第三次開房因偷金項鏈被抓

      胖胖侃咖
      2025-12-30 08:00:09
      馬爾克斯《百年孤獨》最狠的一句話:生命中所有燦爛,終將用寂寞償還

      馬爾克斯《百年孤獨》最狠的一句話:生命中所有燦爛,終將用寂寞償還

      古代經典
      2025-12-28 17:26:18
      亞洲周刊再報猛料,為成功出手龐來臣虛藏品,聯手篡改民國史。

      亞洲周刊再報猛料,為成功出手龐來臣虛藏品,聯手篡改民國史。

      百態人間
      2025-12-29 16:47:24
      2025-12-30 10:04:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      11942文章數 176346關注度
      往期回顧 全部

      科技要聞

      Manus官宣加入Meta,收購金額達數十億美金

      頭條要聞

      媒體:賴清德稱"大陸不敢越雷池" 第二天解放軍就演習

      頭條要聞

      媒體:賴清德稱"大陸不敢越雷池" 第二天解放軍就演習

      體育要聞

      “史上最貴”的世界杯,球迷成了韭菜

      娛樂要聞

      44歲林俊杰官宣戀情 帶23歲女友見家長

      財經要聞

      翁杰明:宏觀數據與居民微觀感受存在差距

      汽車要聞

      “路”要越走越深,猛士的智能越野時代來了

      態度原創

      房產
      家居
      健康
      親子
      軍事航空

      房產要聞

      中旅?三亞藍灣展示中心璀璨綻放,共鑒灣心孤品傳奇

      家居要聞

      東方雅韻 溫馨恬適

      這些新療法,讓化療不再那么痛苦

      親子要聞

      有了女兒后,你才會發現父女的奇妙聯結

      軍事要聞

      福建海警艦艇與臺海巡船對峙航行

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 在线免费播放av观看| 日韩一区二区三区三四区视频在线观看| а√天堂8资源中文在线| 97大香| 伊人久久大香线蕉AV网| 亚洲一区人妻| 越南毛茸茸的少妇| 久久先锋男人av资源网站| 精品无码国产一区二区三区51安| 中文字幕一区二区人妻免费不卡| 免费看视频的网站| 日韩精品射精管理在线观看| 国模无码免费视频| 九九三级影视| 亚洲av首页| 成人亚洲综合av天堂| 97在线视频免费人妻| av永久天堂一区二区三区| 雷山县| 久久99视频| 茂名市| 岛国无码AV| 国产老熟女国语免费视频| 人妻小说区图片区| 久久婷婷综合色丁香五月| 狠狠躁天天躁中文字幕| 7878成人国产在线观看| 蜜桃www草草精品视频区| 国产精品久久久久高潮| 精品深夜av无码一区二区老年 | 亚洲爆乳精品无码一区二区| 江城| 国产午夜在线观看视频播放| 欧美福利在线| 国内综合精品午夜久久资源| 裸体丰满白嫩大尺度尤物| 一本色道久久99精品综合| 人妻久久久| 亚洲无码天天| 国产360激情盗摄全集| 欧美老熟妇乱子伦牲交视频|