<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      階躍星辰開源Deep Think新框架,小模型解鎖百萬Token測試時計算

      0
      分享至



      8B 模型在數學競賽任務上超越 GPT-5!

      階躍星辰正式推出并行協同推理(PaCoRe, Parallel Coordinated Reasoning),這是一個全新的訓練和推理框架,讓大模型的能力不再受限于線性思維鏈的上下文窗口大?。–ontext Window)和處理速度,而是基于大規模并行協同的方式,讓模型進行前所未有的廣度和深度思考。

      強大性能的 Gemini Deep Think 模式僅隱約透露其采用“并行思考”擴展測試時計算的思路;而 PaCoRe 以卓越的表現驗證了大規模擴展測試時計算的有效性,并完整開源模型,訓練數據,推理管線從而加速該領域的研究與創新。

      基于該框架,小模型亦能解鎖百萬級 Token 測試時計算(Test-Time Compute)。

      經過大規模、基于結果的強化學習(Outcome-based RL)訓練,階躍星辰研究團隊的 PaCoRe-8B 模型掌握了綜合發散性推理軌跡的能力。在 HMMT 2025 數學基準測試中,它取得了 94.5 的高分,一舉超越了 GPT-5 的 93.2 分。這一成績的取得,得益于模型在解決單個問題時,能夠有效利用高達兩百萬 Token 的計算量。

      長程推理是人類智力皇冠上的明珠。正如人類需要數月甚至數年的專注思考來攻克最棘手的難題,通用人工智能(AGI)也必須在推理階段大幅擴展其計算規模,PaCoRe的研究進展標志著在這個方向上邁出了堅實的一步。



      • 論文鏈接:https://github.com/stepfun-ai/PaCoRe/blob/main/pacore_report.pdf
      • GitHub:https://github.com/stepfun-ai/PaCoRe
      • Hugging Face:https://huggingface.co/stepfun-ai/PaCoRe-8B

      PaCoRe 框架

      標準的思維鏈(Chain-of-Thought)推理與上下文容量是強耦合的:一旦窗口填滿,推理就必須停止。PaCoRe 通過將推理的主要驅動力從 “串行深度” 轉移到 “并行協同的廣度”,成功解耦了這種關系。



      圖 1:并行協同推理(PaCoRe)的性能表現。

      左圖: 在 HMMT 2025 上,PaCoRe-8B 展示了驚人的測試時擴展(Test-Time Scaling)能力。通過增加并行軌跡(Parallel Trajectories)和協同輪次(Coordinated Rounds),性能穩步提升,最終超越了 GPT-5。右圖: 在 LiveCodeBench 上,普通的 RLVR-8B 模型無法利用增加的測試時計算量,而 PaCoRe 有效地解鎖了這種綜合能力,隨著計算量的增加帶來了顯著的性能提升。

      推理機制 (Inference)



      圖 2:PaCoRe 的推理流程。



      PaCoRe 的核心是一個按輪次運行的迭代消息傳遞架構。其工作流程如下:





      3.迭代協同(Iterative Coordination): 這些精簡消息成為下一輪的上下文,使模型能夠在多次迭代中修正理解、發現共識并糾正錯誤。為了確保收斂,最后一輪僅使用單一軌跡,生成最終的精簡消息作為 PaCoRe 推理流水線的輸出。

      這種循環機制使得系統能夠將 “有效測試時計算量(Effective TTC)”—— 即所有軌跡的 Token 總和 —— 擴展到遠遠超出模型物理上下文窗口限制的程度。

      訓練方法 (Training)

      實現這一框架的主要挑戰在于將模型從簡單聚合孤立推理轉移為主動合作。未經訓練的推理模型常常在具有簡單解結構的問題上使用諸如多數表決這樣的簡單規則,而在更加多樣解的問題上,模型常常展現出 孤立推理 的現象:盡管在上下文中接收到了來自并行分支的豐富見解,但模型往往會忽略它們,試圖從頭開始重新解決問題。

      為了克服這一問題,研究團隊將綜合階段視為一個情景式強化學習環境。我們采用大規模、基于結果的 RL 來教會模型推理綜合(Reasoning Synthesis) 能力:即審查并行分支、調和相互沖突的證據并提煉出統一解決方案的能力。

      通過過濾訓練數據,排除那些僅靠啟發式規則就能解決的簡單問題,我們迫使模型發展出真正的綜合能力,將其從一個孤立的求解者轉變為一個高效的協同者。



      圖 3:PaCoRe 訓練動力學。



      實驗結果

      研究團隊將 PaCoRe-8B(初始化自基于 Qwen3-8B-Base 的內部后訓練模型)與當前最具代表性的前沿推理模型進行了對比評估。

      前沿級的性能表現

      結果表明,并行協同機制使 8B 模型能夠通過大規模擴展 TTC,獲得遠超標準解碼限制的顯著收益,在一些最復雜的數學和代碼基準測試中超越了最先進的系統。



      “綜合” 能力的涌現



      圖 4:訓練過程中模型輸出中 “綜合” 相關語言特征的演變。

      研究團隊繪制了 PaCoRe 訓練期間,數學和代碼任務生成解決方案中 “交叉檢查” 類詞匯(包括 'reference', ' 參考 ', 'Ref

      ', 'ref

      ')的頻率。訓練在這兩個領域都激發并放大了這種綜合能力。值得注意的是,模型最初在代碼任務上很少進行交叉檢查,這佐證了圖 1 中代碼任務在 PaCoRe 訓練前測試時擴展性差的現象。

      研究團隊通過追蹤訓練過程中 “交叉檢查”(cross-checking)語言標記的普遍性來探究 PaCoRe 的底層機制。如上圖所示,基于結果的強化學習推動了這種行為在兩個領域的穩步上升。模型顯式地學會了引用同伴的消息(Referencing peer messages),這種行為在未經 PaCoRe 訓練的模型中幾乎不存在。這證實了 RL 根本性地改變了推理動態,使模型能夠有效地利用大規模并行計算。

      訓練數據的通用有效性

      除了框架本身,研究團隊還發現為 PaCoRe 構建的訓練語料庫是一種密度極高的學習資源。經驗觀察表明,將我們發布的數據集作為標準 RLVR 的主要基底,也能帶來穩健的性能提升。這表明我們的問題集 —— 經過精心篩選以要求真正的綜合能力 —— 是訓練通用強推理模型的高效催化劑。

      結論與未來方向

      PaCoRe 建立了一條通往大規模測試時擴展(Test-Time Scaling)的無限路徑。通過圍繞 “并行協同” 構建推理架構并針對 “綜合能力” 進行訓練,研究團隊以將測試時計算擴展到數百萬 Token,從而允許較小的開放權重模型在復雜任務上超越專有的前沿系統。

      階躍星辰團隊將發布模型權重、訓練數據和推理代碼,以加速社區的研究。

      展望未來,團隊將 PaCoRe 視為通向以下更大目標的基礎性一步:

      1.擴展極限(Scaling the Extremes): 計劃將 PaCoRe 應用于更強大的基礎模型,擴展任務領域,并進一步擴大廣度(并行軌跡)和深度(協同輪次),以攻克目前被認為無法解決的挑戰。

      2.提升 Token 智能密度(Boosting Token Intelligence Density): 雖然目前通過 “量” 來擴展,但研究團隊的目標是最大化每一個計算單元的效用。這包括通過更好的組織、合作和軌跡間的勞動分工,實現更高效的并行探索。

      3.涌現多智能體智能(Emergent Multi-Agent Intelligence): 研究團隊有興趣探索綜合策略(Synthesis Policy)與消息傳遞機制的聯合訓練,構建一個極簡卻豐富的協作多智能體學習環境,這將是研究涌現式溝通、自組織和群體智能的寶貴試驗場。

      4.銜接預訓練與后訓練的 “銜尾蛇”(Ouroboros): 研究團隊打算利用 PaCoRe 流程開發先進的合成數據生成技術,以反哺并改進當前的預訓練和后訓練過程,形成良性循環。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      性能力與壽命關系被發現!男性40歲后,睪酮越高,死亡風險越低

      性能力與壽命關系被發現!男性40歲后,睪酮越高,死亡風險越低

      藥師說健康
      2025-12-05 09:47:10
      泰國軍方發言人:鏟平所有電詐園區

      泰國軍方發言人:鏟平所有電詐園區

      Ck的蜜糖
      2025-12-16 15:25:09
      著名播音員鐘瑞在加拿大病逝!丈夫宋世雄的三件禮物溫暖她一生

      著名播音員鐘瑞在加拿大病逝!丈夫宋世雄的三件禮物溫暖她一生

      銀河史記
      2025-12-16 16:18:24
      24歲美女被騙到緬北,經歷兩個月“雙開門”折磨,被救已不成人形

      24歲美女被騙到緬北,經歷兩個月“雙開門”折磨,被救已不成人形

      阿妹講故事
      2025-03-12 22:39:50
      曝羅晉陪母親去大孤山!母親抱大樹痛哭,一路上羅晉遞紙巾、拍背

      曝羅晉陪母親去大孤山!母親抱大樹痛哭,一路上羅晉遞紙巾、拍背

      小徐講八卦
      2025-12-18 10:11:13
      越南工廠連夜拆生產線!只因中國電價便宜到他們不敢報價

      越南工廠連夜拆生產線!只因中國電價便宜到他們不敢報價

      潮鹿逐夢
      2025-12-17 14:33:19
      人民日報怒批!炫富、偷稅749萬、跑國外,現又來“割內地韭菜”

      人民日報怒批!炫富、偷稅749萬、跑國外,現又來“割內地韭菜”

      翰飛觀事
      2025-12-18 20:04:42
      歐陽娜娜海邊一張照沖上熱搜:女孩最好的狀態,藏在這三個字里!

      歐陽娜娜海邊一張照沖上熱搜:女孩最好的狀態,藏在這三個字里!

      動物奇奇怪怪
      2025-12-18 12:58:32
      1953年志愿軍司令部爆發激烈爭吵,楊勇拍桌子要3個軍,許世友當場怒斥:太過分!毛主席:給他打!

      1953年志愿軍司令部爆發激烈爭吵,楊勇拍桌子要3個軍,許世友當場怒斥:太過分!毛主席:給他打!

      文史明鑒
      2025-12-17 19:51:17
      結束了!朱拉尼宣布重磅消息,敘利亞人狂歡:終于不用提心吊膽了

      結束了!朱拉尼宣布重磅消息,敘利亞人狂歡:終于不用提心吊膽了

      沈言論
      2025-12-15 16:15:03
      知名大學原黨委書記,被“雙開”!曾是院士有效候選人

      知名大學原黨委書記,被“雙開”!曾是院士有效候選人

      雙一流高校
      2025-12-18 18:10:10
      再就業!曝前國安主帥有望回歸,或執教前中超冠軍球隊

      再就業!曝前國安主帥有望回歸,或執教前中超冠軍球隊

      體壇鑒春秋
      2025-12-18 17:11:40
      490架與1300架,中美重型戰戰斗機現狀,中國空軍不止數量領先

      490架與1300架,中美重型戰戰斗機現狀,中國空軍不止數量領先

      丹妮觀
      2025-12-17 17:03:52
      汽油用量開始暴跌,數據出來很多人驚了!未來油價會大降嗎?

      汽油用量開始暴跌,數據出來很多人驚了!未來油價會大降嗎?

      沙雕小琳琳
      2025-12-18 04:07:02
      博主:U18國青邊后衛鄧捷夫加盟北京國安

      博主:U18國青邊后衛鄧捷夫加盟北京國安

      懂球帝
      2025-12-18 19:28:23
      “過去兩年沒收到過消息,她可能已經去世了”

      “過去兩年沒收到過消息,她可能已經去世了”

      觀察者網
      2025-12-15 21:17:04
      從何時起,江西菜淪為了民工飲食的代名詞

      從何時起,江西菜淪為了民工飲食的代名詞

      食味藝文志
      2025-12-18 17:11:05
      2026年上半年,貴人主動出現,事業迎來躍遷期的三個星座

      2026年上半年,貴人主動出現,事業迎來躍遷期的三個星座

      小晴星座說
      2025-12-18 19:39:12
      男人忘不了的情人,通常是以下三種女人,第二種尤為癡情

      男人忘不了的情人,通常是以下三種女人,第二種尤為癡情

      葉飛飛情感屋
      2025-12-18 17:59:27
      河南美女“大晨”去世,年僅28歲,日常開奧迪,一口能喝三兩白酒

      河南美女“大晨”去世,年僅28歲,日常開奧迪,一口能喝三兩白酒

      寶哥精彩賽事
      2025-12-16 08:40:55
      2025-12-18 21:31:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11950文章數 142513關注度
      往期回顧 全部

      科技要聞

      2025新一代人工智能創業大賽

      頭條要聞

      確認涉刑案 上海市中心西裝男子突然當街下跪:對不起

      頭條要聞

      確認涉刑案 上海市中心西裝男子突然當街下跪:對不起

      體育要聞

      巴黎首奪世界級冠軍 加冕6冠王比肩巴薩拜仁

      娛樂要聞

      絲芭放大招了!實名舉報鞠婧祎經濟犯罪

      財經要聞

      尹艷林:呼吁加快2.5億新市民落戶進程

      汽車要聞

      在零下30℃的考場里 凡爾賽C5 X和508L拿到了"穩"的證明

      態度原創

      時尚
      家居
      本地
      手機
      軍事航空

      “棕色大衣”今年冬天又火了,怎么搭都高級時髦

      家居要聞

      高端私宅 理想隱居圣地

      本地新聞

      云游安徽|決戰烽火照古今,千秋一脈看宿州

      手機要聞

      打破旗艦性能“不可能三角”,天璣9500星速引擎重塑手游滿幀體驗

      軍事要聞

      福建艦入列后首過臺海 臺方談為何"甲板上沒有艦載機"

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 重庆市| 成人性生交大片免费卡看| 无码视屏| 日本一区二区三区在线播放| 国产在线98福利播放视频| 婷婷伊人綜合中文字幕小说| 凯里市| 伊人久久精品无码二区麻豆| 中文字幕欧美人妻精品一区| 欧美偷拍视频| 国产一区二区三区色噜噜| 人妻?制服?丝袜| 宜春市| 99国产精品99久久久久久| 亚洲成亚洲成网| 狠狠色狠狠综合久久| 欧美做受???免费| 91视频网站免费观看| A成片人| 亚洲精品久久久久国产| 国内精品久久久久影院一蜜桃 | 亚洲91视频| 精品流白浆| 亚洲综合无码一区二区三区不卡| 毛片24种姿势无遮无拦| 久久精品国产免费观看频道| 五月丁香综合| 国产成人AV| 久久亚洲中文字幕不卡一二区| 性色做爰片在线观看ww| 欧美视频免费一区二区三区| 國產尤物AV尤物在線觀看| 制服.丝袜.亚洲.中文.综合懂| 亚洲AV无码乱码在线观看性色| 人妻少妇精品无码| 色av永久无码影院av| 两女女百合互慰av赤裸无遮挡| 亚洲成a人无码av波多野| 亚欧精品视频| 青青AV| 亚洲精品九九|