<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<sub id="mnizt"></sub>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

字節Seed發布最強數學模型：一招“打草稿”，IMO銀牌變金牌

2025-12-25 14:13:53　來源: 量子位

北京舉報

0

分享至

魚羊發自凹非寺
量子位 | 公眾號 QbitAI

字節最新數學推理專用模型，剛剛刷新戰績：拿下IMO金牌成績。

Scaling Law加持下，這個名為Seed Prover 1.5的模型，在16.5小時內，順利解決IMO 2025的前5道題目，在僅失一題的情況下拿到35分，達到今年IMO的金牌線。

這一成績與7月官方認證的IMO金牌“選手”谷歌Gemini打平。而字節自己的前代模型，當時的成績是3天完成了6道題目中的4道，以及一道題的部分證明，達到銀牌成績。

同時，Seed Prover 1.5也在北美本科級別數學競賽Putnam這一基準上，大幅刷新了SOTA成績。

模型尚未開源，但技術報告已經公開。

值得關注的是，Seed Prover 1.5強調了大規模強化學習給數學模型帶來的性能提升，也證明，在推理階段增加計算資源，可以顯著提高解題率。

即，驗證了測試時Scaling和強化學習訓練時的Scaling的有效性。

草稿引導的高效形式化證明

具體來看技術報告。Seed Prover 1.5的參數規模與Seed 1.6相同，230B總參數，23B激活。

主要創新有兩點：

Agentic Prover：一種新的形式化數學推理范式
Sketch Model：自然語言到形式語言的翻譯器

Agentic Prover

相較于通用模型用自然語言解答數學問題的方式，數學推理專用模型采用的是形式化數學推理，也就是用Lean等形式語言，構建可在公理系統中機械驗證的證明，以確保結果更加可靠。

其難點在于，形式化證明比自然語言證明更加困難。根據“De Bruijn factor”經驗法則，一行普通的數學推導，通常需要擴展成4到10行復雜的代碼。

這要求模型不僅懂數學，還要精通編程和類型論，而這一高門檻導致形式化證明在效率和成功率上一直遠落后于自然語言推理。

以往的研究中，形式化證明器通常分為兩類：

Step-prover：一步一步證明，效率很低；
Whole-prover：一次性生成完整證明，但中間一旦出錯就會前功盡棄。

Seed Prover 1.5為了平衡兩種方法的優缺點，提出了一種全新的Agentic Prover架構：

模型將Lean語言視為一種工具，且在證明過程中可以自主地調用其他多種工具。

Mathlib搜索工具：類似于程序員查閱技術文檔，模型可以主動檢索Lean龐大的數學庫 Mathlib，尋找可用的定理和定義，而非依賴不可靠的隱式記憶。
Python代碼執行：遇到需要計算的部分，模型可以編寫并運行Python腳本來輔助驗證直覺。
增量式引理驗證：模型不再被迫一次性生成整個證明，而是將復雜問題拆解為若干引理。每證明出一個引理，系統就會將其保留并復用，作為后續推理的基石。

這樣一來，模型既可以像人類一樣先使用“草稿紙”（自然語言）進行推理，又能夠與Lean環境及多種工具進行交互，隨時調用工具來驗證猜想。

就是說，Seed Prover 1.5采用的是基于引理的交互方式，既不是一次性生成整個證明，也無需每一步都做交互驗證。

官方技術報告中還提到，Seed Prover 1.5進行了大規模的Agentic RL。

實驗證明，隨著強化學習訓練步數的增加，模型在訓練集上的證明通過率從初始的50%升至接近90%。

Agentic RL還帶來了大幅的效率提升。在對比測試中，Seed Prover 1.5僅需少量的計算資源，就能在Putnam和Fate等高難度數據集上，擊敗消耗大量算力的上一代Seed Prover模型。

Sketch Model

為了讓模型能更好地“打草稿”，研究人員還專門訓練了Sketch Model，來模擬人類數學家解決問題的方式：

數學家在證明一個復雜定理時，通常不會直接寫出每一步嚴絲合縫的代碼。他們會先在紙上寫下一個非形式化的證明草稿，列出關鍵的中間步驟、引理和大致思路。

Sketch Model同樣不糾結于具體的語法細節，而是專注于邏輯路徑的規劃。它可以將自然語言證明拆解為若干個獨立的、難度更低的引理，并暫時跳過具體證明，僅保留整體的邏輯骨架。

這就將原本不可解的復雜命題，轉化成了難度更低的子目標。

研究人員采用混合獎勵信號的強化學習策略，來訓練這一模型：

信號一：Lean編譯器驗證生成的草圖是否完全正確。
信號二：自然語言Prover會逐一檢查引理，一旦發現任一引理在數學上不成立，整個草稿即被否決。
信號三：引入基于長思維鏈的Rubric評分模型，從語義層面評估草稿的質量——考量引理是否與自然語言證明對齊、拆解的粒度是否合適、是否真正降低了原題的難度。

當草稿在形式驗證、數學正確性和整體評分上均滿足要求時，才會獲得正向獎勵。

測試時工作流

以上創新最終構成了一個分層級的多智能體協作系統：

Natural Language Prover負責提供高層的數學直覺和自然語言證明。
Sketch Model將自然語言轉化為形式化的引理結構。
Agentic Prover并行地攻克每一個被拆解出的引理。

如果某個引理太難證明，系統還會遞歸地調用Sketch Model再次進行拆解。這不僅規避了長文本生成的錯誤累積問題，更提升了推理的并行度和成功率。

研究人員還驗證了這一工作流的測試時Scaling特性。

如上圖所示，投入更多的計算資源，Seed Prover 1.5對問題的解決率會呈對數線性增長。

這項研究來自字節Seed AI4Math團隊。

量子位捕捉到了其中幾位作者的蹤跡。

Zheng Yuan，清華統計學博士。今年6月剛剛加入字節，此前在阿里Qwen團隊負責對齊和推理方向工作。

Hanwen Zhu，本科畢業于牛津大學數學與計算機科學專業，目前在CMU讀研，即將加入字節Seed。

鄭澤宇，CMU在讀博士，字節Seed實習生，專業方向同樣是數學與計算機科學聯合方向。

論文鏈接：
https://arxiv.org/pdf/2512.17260
參考鏈接：
[1]https://mp.weixin.qq.com/s/vcciJWK9KfDBM4FBIJwTfw?click_id=2
[2]https://x.com/GanjinZero/status/2001948751871815741

— 完 —

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

無需再訓練微調，一個輔助系統讓GPT-5.2準確率飆到創紀錄的75%

機器之心Pro 2025-12-25 14:25:42
0 跟貼 0
DeepSeek最會討好，LLM太懂人情世故了，超人類50%

機器之心Pro 2025-10-27 15:23:21
0 跟貼 0

AI“人才軍備競賽”開啟，字節漲薪搶人鎖定勝局

華爾街見聞官方 2025-12-24 18:36:10
0 跟貼 0

物理學變天！「AI主導」論文首次登頂刊，人類科學家淪為驗證者？

新智元 2025-12-25 12:38:08
0 跟貼 0
36年卷積猜想被解決，華人唯一作者，AI或受益

機器之心Pro 2025-11-26 14:30:39
0 跟貼 0

復旦引望提出Masked Diffusion端到端自動駕駛新框架

機器之心Pro 2025-12-25 12:30:17
0 跟貼 0

中國創造一門新編程語言的黃金時代來了？

虎嗅APP 2025-12-23 03:54:05
17 跟貼 17
Sakana AI造了個數字生命「培養皿」，AI學會打架、結盟、搶地盤

機器之心Pro 2025-11-05 13:58:14
0 跟貼 0

別只盯著DeepSeek：上海推出“能調三維地圖的AI”，政務大模型有了新答案

智東西 2025-12-25 14:39:14
0 跟貼 0
騰訊按下AI加速鍵，人才、組織、開源動作密集

機器之心Pro 2025-12-25 14:18:24
0 跟貼 0
一片錄音卡，重寫大廠硬件故事

36氪 2025-12-25 14:56:13
0 跟貼 0
杭州AI DAY：AI 漫短劇從0到百萬GMV的可復制路徑

吳曉波頻道 2025-12-25 08:32:13
0 跟貼 0
從CDN先鋒到邊緣AI引領者，網宿科技高質量發展獲深度認同

鈦媒體APP 2025-12-25 15:06:14
0 跟貼 0
三百年幾何猜想被推翻，數學家首次發現「穿不過去」的多面體

機器之心Pro 2025-10-27 18:02:35
10 跟貼 10
豆包DAU正式破億，“變現大考”才剛開始

36氪 2025-12-24 19:29:14
62 跟貼 62
V-Thinker: 讓模型像人一樣「邊畫邊想」

機器之心Pro 2025-12-25 12:26:16
0 跟貼 0
大動作！比亞迪、字節、寧德時代宣布漲薪，什么信號？

閱識 2025-12-24 13:23:08
52 跟貼 52
擷華丨樊墨安：石濤為什么要＂打草稿＂？

私享藝術 2025-12-25 14:14:10
1 跟貼 1
告別抽卡！一手實測字節剛放出的視頻模型Seedance 1.5 pro

機器之心Pro 2025-12-18 17:49:18
0 跟貼 0
女生買巖板 ai說進不了電梯，不信邪手搓模型測試這不是能進嗎？

河南都市頻道 2025-12-24 11:43:14
323 跟貼 323
柯南真是年年開一掛，身為死神，確實有不死之身！

萌蜀黍解說 2025-12-24 12:02:22
0 跟貼 0
事關與柬埔寨合作攜程緊急聲明

界面新聞 2025-12-25 11:55:08
31755 跟貼 31755
美國新一代高鐵列車"更新"后降速 700公里要7個多小時

澎湃新聞 2025-12-24 21:10:46
22023 跟貼 22023
數學老師：我教過最笨的學生，教了我最重要的一課

心開動漫 2025-12-25 00:33:23
0 跟貼 0
這邏輯屬實無敵了

一畝花田剪影 2025-12-23 08:56:27
4 跟貼 4
紫霞說的句句在理，三觀很正，思維邏輯清晰作為女人已經做的

幸運小北子 2025-12-25 10:09:09
0 跟貼 0
中線定理的證明：這些題你能做出來嗎？

馬老師數學課堂 2025-12-23 09:00:48
16 跟貼 16
越南護衛艦，南京導航，量子閃電作戰系統，一次性說的明明白白的

仔仔大王king 2025-12-22 01:19:42
2 跟貼 2
老板監視員工微信只需300元

每日經濟新聞 2025-12-24 20:24:06
1166 跟貼 1166
搶瘋了！各地門店大排長龍，排號炒到400元一個！網友：怎么又火了？

觀威海 2025-12-24 10:14:23
2652 跟貼 2652
多地農民可評職稱，無外語、論文要求 53歲中級職稱農民：技術服務時更有底氣

紅星新聞 2025-12-24 20:43:44
10379 跟貼 10379
每個模型都是回不去的故鄉！00后小伙用模型還原客戶心中的“老家”，大學期間創辦公司 4年賺900萬

河南都市頻道 2025-12-24 16:34:25
0 跟貼 0
別被“莽夫邏輯”帶偏！為啥美國敢出兵，中國卻要克制？

唐尼二愛生活 2025-12-24 08:57:46
0 跟貼 0
鄭麗文的丈夫是駱武昌，他們文武雙全，丈夫默默支持她

巧手曉廚娘 2025-12-25 14:40:23
0 跟貼 0
“一條線的人都被買通了”，誰來證明紙業巨頭買了摻假煤？

中國能源網 2025-12-25 08:06:09
44 跟貼 44
付鵬：關于房地產的一些核心邏輯！講的透徹！

八極拳兌一 2025-12-24 01:16:16
2 跟貼 2
為什么程序員喜歡在代碼里面寫臟話？

beebee 2025-08-12 11:11:07
0 跟貼 0
李凱爾回應：恢復美國國籍不屬實

北京日報客戶端 2025-12-24 15:54:10
3878 跟貼 3878
航程將超五千公里，中國殲20再獲突破，讓美國霸權邏輯崩塌

君清talk 2025-12-23 16:33:49
0 跟貼 0
超近畫面:福建艦彈射裝置可"0幀"急停

央視新聞客戶端 2025-12-24 22:39:13
874 跟貼 874

中國網貸公司在印度幾乎全軍覆沒，違約率最高達80%！

中國網貸公司在印度幾乎全軍覆沒，違約率最高達80%！

胡華成

2025-12-24 16:47:03

萬萬沒想到，46條中日航線剛全部取消，就炸出來一群“妖魔鬼怪”

萬萬沒想到，46條中日航線剛全部取消，就炸出來一群“妖魔鬼怪”

策略述

2025-12-24 12:22:15

大跌眼鏡！美國斬殺線讓美國破了大防！

大跌眼鏡！美國斬殺線讓美國破了大防！

小莜讀史

2025-12-24 13:06:02

紅軍城再次遇險，美國股神巴菲特之子加入烏軍

紅軍城再次遇險，美國股神巴菲特之子加入烏軍

史政先鋒

2025-12-24 21:03:28

太諷刺！龐家無償捐4700平米祖宅，院長雙謊被戳穿，省多部門介入

太諷刺！龐家無償捐4700平米祖宅，院長雙謊被戳穿，省多部門介入

好賢觀史記

2025-12-23 18:14:27

看呆！一家六口上廁所不用紙，共用一把“刮屎刀”？！然后她親上去了...了...

看呆！一家六口上廁所不用紙，共用一把“刮屎刀”？！然后她親上去了...了...

英國那些事兒

2025-12-24 23:22:56

向太曝馬伊琍已再婚：當年文章過不了心理那關

向太曝馬伊琍已再婚：當年文章過不了心理那關

娛樂看阿敞

2025-12-12 15:50:00

國產3nm芯片殺出來了！張忠謀還敢喊“聯合美扼殺大陸”嗎？

國產3nm芯片殺出來了！張忠謀還敢喊“聯合美扼殺大陸”嗎？

壹只灰鴿子

2025-12-24 16:39:45

江西49歲女園長駕車墜泥塘致8死，小兒也在車上，丈夫是校車司機

江西49歲女園長駕車墜泥塘致8死，小兒也在車上，丈夫是校車司機

Mr王的飯后茶

2025-12-24 15:40:24

雷軍急推YU9被質疑，網友：中年人怎敢把全家托付給小米！

雷軍急推YU9被質疑，網友：中年人怎敢把全家托付給小米！

熱點菌本君

2025-12-23 19:06:18

太豪了！馬伯騫新家登上時尚芭莎，父子倆出鏡，像住在世外桃源！

太豪了！馬伯騫新家登上時尚芭莎，父子倆出鏡，像住在世外桃源！

阿纂看事

2025-12-24 23:36:35

孔令輝現狀：賭場風波前程盡毀，如今低調生活，開了紫砂壺工作室

孔令輝現狀：賭場風波前程盡毀，如今低調生活，開了紫砂壺工作室

以茶帶書

2025-12-04 00:55:02

為什么我們不再熱衷過圣誕節了？

為什么我們不再熱衷過圣誕節了？

小卿情感說

2025-12-24 21:16:17

南博事件升級！參與定"偽"的專家徐沄秋被扒，果然有情況

南博事件升級！參與定"偽"的專家徐沄秋被扒，果然有情況

鋭娛之樂

2025-12-21 08:30:41

新一期新秀榜：狀元弗拉格穩居榜首，榜眼哈珀升至第五

新一期新秀榜：狀元弗拉格穩居榜首，榜眼哈珀升至第五

懂球帝

2025-12-25 07:19:22

南博事件，“舉報人”郭禮典危險了

南博事件，“舉報人”郭禮典危險了

林中木白

2025-12-24 20:19:50

明年養老金繼續漲？人社部部長表態了！不按工齡調整可行嗎？

明年養老金繼續漲？人社部部長表態了！不按工齡調整可行嗎？

李健政觀察

2025-12-25 09:27:54

兩名朝鮮俘虜公開表態：寧愿去韓國，也不愿返回朝鮮

兩名朝鮮俘虜公開表態：寧愿去韓國，也不愿返回朝鮮

老馬拉車莫少裝

2025-12-24 21:30:46

重磅！首款“液體”偉哥橫空出世，宣稱對比傳統口服有4大優勢

重磅！首款“液體”偉哥橫空出世，宣稱對比傳統口服有4大優勢

思思夜話

2025-12-25 14:08:36

全球最精確預言家：2026，歷史性的一年，能說的都在這里

全球最精確預言家：2026，歷史性的一年，能說的都在這里

神奇故事

2025-12-24 23:34:15

追蹤人工智能動態

11914文章數 176342關注度

往期回顧全部

科技要聞

屠龍少年被"招安"！英偉達平安夜豪擲200億

頭條要聞

男子信訪被勸返收鎮干部4300元路費獲罪二審駁回上訴

頭條要聞

男子信訪被勸返收鎮干部4300元路費獲罪二審駁回上訴

體育要聞

單賽季11冠，羽壇“安洗瑩時代”真的來了

娛樂要聞

金莎小19歲男友求婚成功！兩人雪地擁吻

財經要聞

時隔15月，人民幣升破7，三大推手曝光

汽車要聞

預售31.3萬元起全新奧迪Q5L將于1月內上市

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

時尚

游戲

家居

本地

旅游要聞

偶遇大理上關花天龍洞景區，感覺挺有意思的，可惜還沒來得及去

對不起周柯宇，是陳靖可先來的

玩家討厭游戲教程！填鴨式教程如何消磨熱情？

家居要聞

經典彌新品味浪漫居所

溫暖色調大空間不冷清
溫潤質感打造干凈空間
歐式風格純粹優雅氣質

本地新聞

云游安徽｜亳州晨暮皆成史，街巷縱橫印春秋

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：忘忧草社区在线www| 色偷偷亚洲女人天堂观看| 国产超碰人人| 玖草视频在线观看| 玩弄人妻少妇500系列视频| 丰满人妻熟妇乱又伦精品软件 | 久久香蕉国产线看观看精品yw| 中文字幕亚洲乱码熟女在线萌芽| 这里只有精品在线播放| 国产人妻人伦AV片三A级做爰| 欧洲综合色| 人妻激情文学| 亚洲精品国产av一区二区| 亚洲天堂av在线免费| 馆陶县| 亚洲一区二区三区无码| 成人A级片| 中文字幕日韩有码| 武夷山市| 久久精品国产久精国产| 国产波霸爆乳一区二区| 人妻无码| 久久福利导航| 中文日产乱幕九区无线码| 亚洲综合婷婷| jizz麻豆| 洪洞县| 国产无遮挡又黄又爽在线视频| 亚洲成人无码在线观看| 黑人无码av| 亚洲无码日日| 免费三级网站| 亚洲2区3区4区产品乱码2021| 亚洲尤物你懂的视频在线看| 涡阳县| 黑人好猛厉害爽受不了好大撑| 久久久久久久一线毛片| 超碰在线成人| 久久XXX| 欧美一区二区三区久久综合| 最新的国产成人精品2020|

<var id="bqooq"><strong id="bqooq"></strong></var>

<pre id="bqooq"></pre>

<samp id="bqooq"></samp>

<pre id="bqooq"><strike id="bqooq"><wbr id="bqooq"></wbr></strike></pre><ruby id="bqooq"><tbody id="bqooq"></tbody></ruby>

<nav id="bqooq"><strong id="bqooq"></strong></nav>