<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      又一推理新范式:將LLM自身視作改進(jìn)操作符,突破長思維鏈極限

      0
      分享至



      機(jī)器之心報(bào)道

      機(jī)器之心編輯部

      推理訓(xùn)練促使大語言模型(LLM)生成長思維鏈(long CoT),這在某些方面有助于它們探索解決策略并進(jìn)行自我檢查。雖然這種方式提高了準(zhǔn)確性,但也增加了上下文長度、token / 計(jì)算成本和答案延遲。

      因此,問題來了:當(dāng)前的模型能否利用其元認(rèn)知能力,在這一帕累托前沿上提供其他組合策略,例如在降低上下文長度和 / 或延遲的情況下提高準(zhǔn)確性?

      帶著這一問題,Meta 超級智能實(shí)驗(yàn)室、倫敦大學(xué)學(xué)院、Mila、Anthropic 等機(jī)構(gòu)的研究者進(jìn)行了探索。從抽象層面來看,他們將 LLM 視為其「思維」的改進(jìn)操作符,實(shí)現(xiàn)一系列可能的策略。



      • 論文標(biāo)題:Rethinking Thinking Tokens: LLMs as Improvement Operators
      • 論文地址:https://arxiv.org/pdf/2510.01123

      研究者探究了一種推理方法家族 ——并行 - 蒸餾 - 精煉(Parallel-Distill-Refine, PDR),該方法包含以下步驟:(i) 并行生成多樣化草稿;(ii) 將其蒸餾成一個有限的文本工作區(qū);(iii) 在此工作區(qū)的基礎(chǔ)上進(jìn)行精煉,生成的輸出將作為下一輪的種子。重要的是,通過調(diào)整并行度,PDR 能夠控制上下文長度(從而控制計(jì)算成本),并且上下文長度不再與生成 token 的總數(shù)混淆。

      根據(jù)當(dāng)前模型在 PDR 實(shí)例中的應(yīng)用,它們在準(zhǔn)確性上優(yōu)于長思維鏈,同時延遲更低。當(dāng)將并行度設(shè)置為 1 時,得到一個特例 ——順序精煉(Sequential Refinement, SR)(即迭代改進(jìn)單一候選答案),其表現(xiàn)優(yōu)于長思維鏈(代價是更高的延遲)。

      這種模型組織的成功引申了一個問題:進(jìn)一步的訓(xùn)練是否能夠改變帕累托前沿?為此,研究者訓(xùn)練了一個 8B 規(guī)模的思考模型,使用強(qiáng)化學(xué)習(xí)(RL)使其與 PDR 推理方法保持一致。

      在具有可驗(yàn)證答案的數(shù)學(xué)任務(wù)中,迭代 pipeline 在匹配的順序預(yù)算下超越了單次推理基準(zhǔn),并且 PDR 方法帶來了最大的提升,在 AIME 2024 和 AIME 2025 數(shù)學(xué)任務(wù)中,準(zhǔn)確率分別提高了 11% 和 9%。

      LLM 作為改進(jìn)操作符

      研究者考慮任務(wù) x(例如數(shù)學(xué)問題),目標(biāo)是在給定的 token 預(yù)算下生成高質(zhì)量的最終成果 s_final(解答、證明或程序)。設(shè) M_θ 為一個(可以凍結(jié)或訓(xùn)練的)大語言模型(LLM),并作為改進(jìn)操作符。給定當(dāng)前的成果 s_t(單次生成或一組生成結(jié)果)和緊湊的文本工作區(qū) C_t,模型會提出一個改進(jìn)方案:



      讀寫壓縮循環(huán)。每個步驟:(i) 讀取當(dāng)前工作區(qū) C_t,(ii) 通過 M_θ 寫出改進(jìn)后的成果 s_t+1,(iii) 使用綜合操作符 D 將成果壓縮回一個有限的工作區(qū),為下一個步驟做準(zhǔn)備。



      token 預(yù)算。研究者在以下兩個預(yù)算下評估每種方法:



      操作符實(shí)例化

      研究者探究了以下兩種短上下文的迭代精煉流程。

      一是順序精煉(SR,單一候選的深度改進(jìn))。

      對于所有 t,設(shè)置 C_t ≡ ? ,并且迭代改進(jìn)單一成果進(jìn)行 R 輪:



      順序精煉與緊湊工作區(qū)。在 SR 中,不提供顯式的工作區(qū)。研究者還評估了一種變體,在每一輪之間插入錯誤分析步驟:模型不會直接改進(jìn)之前的答案,而是首先識別并解釋當(dāng)前解答中的缺陷,然后生成修訂后的解答。這些筆記在每一輪中充當(dāng)一個暫時的、局部的工作區(qū)。

      二是并行 - 蒸餾 - 精煉(PDR,每輪工作區(qū))。

      研究者不保持持久的記憶。相反,對于每一輪 r = 1, . . . , R,基于當(dāng)前的有限摘要采樣 M_r 個草稿(并行),然后重新綜合(蒸餾)出一個新的有限摘要供下一輪使用:



      在最后一輪強(qiáng)制執(zhí)行單次生成 M_R = 1,此生成結(jié)果作為最終解答 s_final 返回。摘要是按輪次生成且非持久的,早期文本不會被重播,防止了每次調(diào)用時上下文的增長。

      另外,研究者考慮了蒸餾操作符 D 的幾種實(shí)際實(shí)例化方式:

      • 全局摘要
      • 提取性 top-k 證據(jù)(共享)
      • random-k / 自舉工作區(qū)

      最后是操作符一致性訓(xùn)練。前文將 M_θ 視為凍結(jié),并純粹依賴于提示 / 調(diào)度。現(xiàn)在,研究者通過在與測試時相同的短上下文迭代接口下優(yōu)化模型,確保訓(xùn)練與部署 / 推理的一致性。

      基礎(chǔ)算法。對于基準(zhǔn)強(qiáng)化學(xué)習(xí)(RL),研究者使用來自 Minimax-M1 的 CISPO 目標(biāo)。對于給定的提示 x,生成器 π(?| θ_old) 使用舊策略 θ_old 生成 G 個回合 {o^G_i=1}。像 sympy 或 math-verify 這樣的自動化檢查器被用來為每個回合分配標(biāo)量獎勵 r_i(±1)。CISPO 將 GRPO 的組歸一化優(yōu)勢與 REINFORCE 結(jié)合起來,達(dá)到以下目標(biāo)。



      為什么 PDR 訓(xùn)練時只進(jìn)行一輪?研究者表示,進(jìn)行單一的 PDR 回合(包括 M 個早期草稿,蒸餾為 C,以及單次精煉)可以捕捉到關(guān)鍵的接口,同時控制 B_total 并穩(wěn)定強(qiáng)化學(xué)習(xí)。在推理時,則可以使用相同的操作符運(yùn)行多個回合(R > 1)。

      本文的數(shù)據(jù)混合方法在保留長軌跡能力的同時,教會模型在短迭代中進(jìn)行推理。PDR 被模擬為一次并行→蒸餾→精煉回合,在該過程中,模型觀察 (x, C),并對最終解答軌跡進(jìn)行可驗(yàn)證獎勵優(yōu)化。

      實(shí)驗(yàn)結(jié)果

      在預(yù)算感知協(xié)議下,研究者將順序精煉(SR)和并行 - 蒸餾 - 精煉(PDR)操作符與長思維鏈(CoT)基準(zhǔn)進(jìn)行了比較。他們使用符號驗(yàn)證器(如 sympy 和 math-verify) 來測量準(zhǔn)確性,還將結(jié)果報(bào)告為順序預(yù)算 B_seq(沿著接受路徑的延遲代理)和總預(yù)算 B_total(所有調(diào)用的 token 數(shù))的函數(shù)。

      研究者對 SR 和 PDR 作為推理時操作符應(yīng)用于數(shù)學(xué)問題進(jìn)行了評估。給定一個提示 x,模型生成一個思維軌跡和最終解答。思維跨度由 「...」限定,去除后僅使用自包含的解答作為后續(xù)回合輸入的構(gòu)建。他們在 AIME 2024 和 AIME 2025(AoPS,2025)上進(jìn)行評估,并報(bào)告在 16 次獨(dú)立生成中的準(zhǔn)確率 - mean@16。

      通過實(shí)驗(yàn),研究者試圖回答以下四個研究問題:

      • RQ1:短上下文迭代是否能通過比較 {SR, PDR} 與長軌跡 CoT,在匹配的 B_seq 和 B_total 下超越長軌跡?
      • RQ2:通過比較三種 D 變體:全局摘要、提取性 top-k 和 random-k 自舉,找出生成 C^(r) 的最佳蒸餾策略。
      • RQ3:識別給定模型的驗(yàn)證能力對最終性能的影響。
      • RQ4:操作符一致性訓(xùn)練是否能夠改變帕累托前沿?他們比較了操作符一致性 + 標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)與標(biāo)準(zhǔn)單軌跡強(qiáng)化學(xué)習(xí)。

      RQ1:短上下文迭代是否在匹配延遲的情況下超越長軌跡?

      圖 3 和圖 9 報(bào)告了在相同有效 token 預(yù)算 Bseq 下,AIME 2024 和 AIME 2025 上的準(zhǔn)確性。研究者觀察到,從長思維鏈(Long CoT)轉(zhuǎn)到順序精煉(SR)時,準(zhǔn)確性穩(wěn)定提升;從 SR 到并行 - 蒸餾 - 精煉(PDR)時,這一提升繼續(xù)。

      對于 o3-mini,在有效預(yù)算為 49k token、每次調(diào)用思維預(yù)算為 16k token 時,準(zhǔn)確性從 76.9(長鏈推理)提升至 81.5(SR)和 86.7(PDR),相較長思維鏈,絕對值提升了 +9.8 個百分比。gemini-2.5-flash 從 SR 到 PDR 的變化小于 o3-mini,表明 gemini-2.5-flash 在自我驗(yàn)證方面更強(qiáng)。





      RQ2:哪種蒸餾(即摘要)策略效果最佳?

      表 2 研究了在固定輪次(每輪生成次數(shù)為 g = [16, 8, 4])和每輪 k = 2 個候選的設(shè)置下,PDR 中的蒸餾操作符 D。

      在不同數(shù)據(jù)集和基礎(chǔ)模型上,樣本級的 top-k 和全局摘要選擇一致性優(yōu)于共享 top-k 和 random-k,并且隨著思維預(yù)算 B 的增加,差距逐漸擴(kuò)大。

      主要的例外是 AIME 2025 與 o3-mini 的情況,其中全局摘要優(yōu)于其他方法。研究者推測,o3-mini 的摘要特別擅長從正確和錯誤的草稿中捕捉線索,而這些線索在蒸餾后會促使更強(qiáng)的后續(xù)精煉。



      RQ3:驗(yàn)證能力如何影響推理時間性能?

      從圖 6 和圖 8 中,研究者觀察到注入錯誤候選(Oracle (Incorrect))會導(dǎo)致所有模型的性能大幅下降。對于 o3-mini,性能下降顯著大于 gemini-2.5-flash,這表明后者具有更強(qiáng)的自我驗(yàn)證和恢復(fù)能力。這一趨勢在 AIME 2024 和 AIME 2025 中都得到了體現(xiàn)。





      RQ4:操作符一致性訓(xùn)練是否推動了帕累托前沿的移動?

      表 3 總結(jié)了主要結(jié)果。從每個強(qiáng)化學(xué)習(xí)(RL)目標(biāo)得到的模型分別在長思維鏈(Long CoT)生成和 PDR 上進(jìn)行了評估。PDR 強(qiáng)化學(xué)習(xí)相比基準(zhǔn)方法在 AIME 2024 上提升了 +3.34 個百分點(diǎn),在 AIME 2025 上提升了 +1.67 個百分點(diǎn)。

      從基準(zhǔn) RL 檢查點(diǎn)開始的持續(xù)更新,使得額外的 PDR 強(qiáng)化學(xué)習(xí)帶來了更大的提升,分別在 AIME 2024 和 AIME 2025 上提升了 +5.00 和 +4.59 個百分點(diǎn)。此外,研究者還觀察到,在 PDR RL 訓(xùn)練下,長思維鏈生成也有一定的增益。

      這些結(jié)果表明,使用操作符一致性的強(qiáng)化學(xué)習(xí)目標(biāo)進(jìn)行訓(xùn)練減少了訓(xùn)練與部署之間的不匹配,將額外的計(jì)算轉(zhuǎn)化為準(zhǔn)確性,而不會增加每次調(diào)用的順序預(yù)算。



      更多技術(shù)細(xì)節(jié)和實(shí)驗(yàn)結(jié)果請參閱原論文。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      拾石村媽祖被替后續(xù): 女孩賬號曝光,當(dāng)了八年被選定,今年滿18歲

      拾石村媽祖被替后續(xù): 女孩賬號曝光,當(dāng)了八年被選定,今年滿18歲

      離離言幾許
      2026-02-20 14:02:55
      楊瀚森4分無緣對位偶像!掘金狂勝開拓者54分 約基奇32+9+7

      楊瀚森4分無緣對位偶像!掘金狂勝開拓者54分 約基奇32+9+7

      醉臥浮生
      2026-02-21 13:28:41
      狂炫5斤車?yán)遄雍图t燒肉,12歲男孩進(jìn)了重癥監(jiān)護(hù)室

      狂炫5斤車?yán)遄雍图t燒肉,12歲男孩進(jìn)了重癥監(jiān)護(hù)室

      現(xiàn)代快報(bào)
      2026-02-21 13:58:06
      42死300傷!北海道暴雪困住中國游客,有人喊話:祖國包機(jī)來接人

      42死300傷!北海道暴雪困住中國游客,有人喊話:祖國包機(jī)來接人

      青眼財(cái)經(jīng)
      2026-02-20 23:31:25
      安德魯王子跪地與小男孩玩“乳房”球,畫面不適,王位繼承權(quán)難保

      安德魯王子跪地與小男孩玩“乳房”球,畫面不適,王位繼承權(quán)難保

      譯言
      2026-02-21 04:42:00
      男子打麻將連續(xù)自摸胡牌后突然癱倒在牌桌前!送醫(yī)時血壓飆到201/115mmHg

      男子打麻將連續(xù)自摸胡牌后突然癱倒在牌桌前!送醫(yī)時血壓飆到201/115mmHg

      閃電新聞
      2026-02-20 22:54:48
      神似原版:微軟WinXP壁紙Bliss拍攝地30年后實(shí)拍

      神似原版:微軟WinXP壁紙Bliss拍攝地30年后實(shí)拍

      IT之家
      2026-02-21 09:37:20
      女子除夕夜在洗浴中心浴池門口被人錄像,洗浴中心稱公共區(qū)域直播很正常,律師:公共區(qū)域未經(jīng)允許直播同樣涉嫌侵權(quán)

      女子除夕夜在洗浴中心浴池門口被人錄像,洗浴中心稱公共區(qū)域直播很正常,律師:公共區(qū)域未經(jīng)允許直播同樣涉嫌侵權(quán)

      大象新聞
      2026-02-20 21:52:07
      毛奇、李佩霞2026年近況公布,兩人服刑結(jié)局給所有人提了醒

      毛奇、李佩霞2026年近況公布,兩人服刑結(jié)局給所有人提了醒

      娛樂督察中
      2026-02-21 03:23:47
      男子拿錯快遞,把白糖當(dāng)?shù)咨车惯M(jìn)魚缸!網(wǎng)友:魚要崩潰了……

      男子拿錯快遞,把白糖當(dāng)?shù)咨车惯M(jìn)魚缸!網(wǎng)友:魚要崩潰了……

      環(huán)球網(wǎng)資訊
      2026-02-21 16:00:42
      特斯拉新車曝光:無方向盤、無踏板、無后視鏡

      特斯拉新車曝光:無方向盤、無踏板、無后視鏡

      澎湃新聞
      2026-02-21 02:12:18
      貝加爾湖7名遇難中國游客遺體已被發(fā)現(xiàn),目擊者:唯一幸存者在沉湖前最后一刻打開車門;司機(jī)為當(dāng)?shù)?4歲男子,或涉違規(guī)私下接單

      貝加爾湖7名遇難中國游客遺體已被發(fā)現(xiàn),目擊者:唯一幸存者在沉湖前最后一刻打開車門;司機(jī)為當(dāng)?shù)?4歲男子,或涉違規(guī)私下接單

      每日經(jīng)濟(jì)新聞
      2026-02-21 12:38:14
      湛江媽祖事件持續(xù)發(fā)酵!許老板坐不住了,得罪兩廣、福建的生意人

      湛江媽祖事件持續(xù)發(fā)酵!許老板坐不住了,得罪兩廣、福建的生意人

      火山詩話
      2026-02-21 05:13:01
      “趕緊還錢!”關(guān)稅政策被判違法后,加州州長呼吁美政府立即“連本帶利”退還稅款

      “趕緊還錢!”關(guān)稅政策被判違法后,加州州長呼吁美政府立即“連本帶利”退還稅款

      環(huán)球網(wǎng)資訊
      2026-02-21 09:38:25
      實(shí)測44臺手機(jī)撕碎行業(yè)遮羞布:除蘋果,國產(chǎn)全線作弊?

      實(shí)測44臺手機(jī)撕碎行業(yè)遮羞布:除蘋果,國產(chǎn)全線作弊?

      小兔子發(fā)現(xiàn)大事情
      2026-02-21 10:44:54
      兩名女孩扶人被索賠22萬,媒體公眾皆反對,但老太太占盡法律優(yōu)勢

      兩名女孩扶人被索賠22萬,媒體公眾皆反對,但老太太占盡法律優(yōu)勢

      讀鬼筆記
      2026-02-21 09:37:52
      湖北省文旅廳認(rèn)定那藝娜(翟革英)為劣跡藝人,叫停演出

      湖北省文旅廳認(rèn)定那藝娜(翟革英)為劣跡藝人,叫停演出

      環(huán)球網(wǎng)資訊
      2026-02-20 23:33:11
      罄!告急!有跨省回上海返程機(jī)票高達(dá)11560元

      罄!告急!有跨省回上海返程機(jī)票高達(dá)11560元

      新民晚報(bào)
      2026-02-21 12:30:00
      特朗普暗示違法征收的關(guān)稅不退了

      特朗普暗示違法征收的關(guān)稅不退了

      財(cái)聯(lián)社
      2026-02-21 06:46:21
      摔倒被扶反索賠22萬后續(xù):律師發(fā)聲,案件焦點(diǎn)已明,賠償跑不掉了

      摔倒被扶反索賠22萬后續(xù):律師發(fā)聲,案件焦點(diǎn)已明,賠償跑不掉了

      愛下廚的阿釃
      2026-02-21 06:55:42
      2026-02-21 17:04:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12325文章數(shù) 142569關(guān)注度
      往期回顧 全部

      科技要聞

      智譜上市1月漲5倍,市值超越京東、快手

      頭條要聞

      在貝加爾湖遇難的3名中國游客身份已確認(rèn):系一家人

      頭條要聞

      在貝加爾湖遇難的3名中國游客身份已確認(rèn):系一家人

      體育要聞

      冬奧第一"海王"?一人和13國選手都有關(guān)系

      娛樂要聞

      鏢人反超驚蟄無聲拿下單日票房第二!

      財(cái)經(jīng)要聞

      一覺醒來,世界大變,特朗普改新打法了

      汽車要聞

      比亞迪的“顏值擔(dān)當(dāng)”來了 方程豹首款轎車路跑信息曝光

      態(tài)度原創(chuàng)

      家居
      時尚
      游戲
      房產(chǎn)
      數(shù)碼

      家居要聞

      本真棲居 愛暖伴流年

      2026紐約秋冬時裝周,在春天開啟美的新故事!

      萬幸中的不幸!男子情人節(jié)收到游戲 但沒有光盤!

      房產(chǎn)要聞

      窗前即地標(biāo)!獨(dú)占三亞灣C位 自貿(mào)港總裁行宮亮相

      數(shù)碼要聞

      NVIDIA新卡皇RTX 5090 Ti再曝光:功耗直飆超700W!性能提升10%

      無障礙瀏覽 進(jìn)入關(guān)懷版