又一推理新范式：將LLM自身視作改進(jìn)操作符，突破長思維鏈極限

2025-10-04 18:35:49　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

機(jī)器之心報(bào)道

機(jī)器之心編輯部

推理訓(xùn)練促使大語言模型（LLM）生成長思維鏈（long CoT），這在某些方面有助于它們探索解決策略并進(jìn)行自我檢查。雖然這種方式提高了準(zhǔn)確性，但也增加了上下文長度、token / 計(jì)算成本和答案延遲。

因此，問題來了：當(dāng)前的模型能否利用其元認(rèn)知能力，在這一帕累托前沿上提供其他組合策略，例如在降低上下文長度和 / 或延遲的情況下提高準(zhǔn)確性？

帶著這一問題，Meta 超級智能實(shí)驗(yàn)室、倫敦大學(xué)學(xué)院、Mila、Anthropic 等機(jī)構(gòu)的研究者進(jìn)行了探索。從抽象層面來看，他們將 LLM 視為其「思維」的改進(jìn)操作符，實(shí)現(xiàn)一系列可能的策略。

論文標(biāo)題：Rethinking Thinking Tokens: LLMs as Improvement Operators
論文地址：https://arxiv.org/pdf/2510.01123

研究者探究了一種推理方法家族 ——并行 - 蒸餾 - 精煉（Parallel-Distill-Refine, PDR），該方法包含以下步驟：(i) 并行生成多樣化草稿；(ii) 將其蒸餾成一個有限的文本工作區(qū)；(iii) 在此工作區(qū)的基礎(chǔ)上進(jìn)行精煉，生成的輸出將作為下一輪的種子。重要的是，通過調(diào)整并行度，PDR 能夠控制上下文長度（從而控制計(jì)算成本），并且上下文長度不再與生成 token 的總數(shù)混淆。

根據(jù)當(dāng)前模型在 PDR 實(shí)例中的應(yīng)用，它們在準(zhǔn)確性上優(yōu)于長思維鏈，同時延遲更低。當(dāng)將并行度設(shè)置為 1 時，得到一個特例 ——順序精煉（Sequential Refinement, SR）（即迭代改進(jìn)單一候選答案），其表現(xiàn)優(yōu)于長思維鏈（代價是更高的延遲）。

這種模型組織的成功引申了一個問題：進(jìn)一步的訓(xùn)練是否能夠改變帕累托前沿？為此，研究者訓(xùn)練了一個 8B 規(guī)模的思考模型，使用強(qiáng)化學(xué)習(xí)（RL）使其與 PDR 推理方法保持一致。

在具有可驗(yàn)證答案的數(shù)學(xué)任務(wù)中，迭代 pipeline 在匹配的順序預(yù)算下超越了單次推理基準(zhǔn)，并且 PDR 方法帶來了最大的提升，在 AIME 2024 和 AIME 2025 數(shù)學(xué)任務(wù)中，準(zhǔn)確率分別提高了 11% 和 9%。

LLM 作為改進(jìn)操作符

研究者考慮任務(wù) x（例如數(shù)學(xué)問題），目標(biāo)是在給定的 token 預(yù)算下生成高質(zhì)量的最終成果 s_final（解答、證明或程序）。設(shè) M_θ 為一個（可以凍結(jié)或訓(xùn)練的）大語言模型（LLM），并作為改進(jìn)操作符。給定當(dāng)前的成果 s_t（單次生成或一組生成結(jié)果）和緊湊的文本工作區(qū) C_t，模型會提出一個改進(jìn)方案：

讀寫壓縮循環(huán)。每個步驟：(i) 讀取當(dāng)前工作區(qū) C_t，(ii) 通過 M_θ 寫出改進(jìn)后的成果 s_t+1，(iii) 使用綜合操作符 D 將成果壓縮回一個有限的工作區(qū)，為下一個步驟做準(zhǔn)備。

token 預(yù)算。研究者在以下兩個預(yù)算下評估每種方法：

操作符實(shí)例化

研究者探究了以下兩種短上下文的迭代精煉流程。

一是順序精煉（SR，單一候選的深度改進(jìn)）。

對于所有 t，設(shè)置 C_t ≡ ? ，并且迭代改進(jìn)單一成果進(jìn)行 R 輪：

順序精煉與緊湊工作區(qū)。在 SR 中，不提供顯式的工作區(qū)。研究者還評估了一種變體，在每一輪之間插入錯誤分析步驟：模型不會直接改進(jìn)之前的答案，而是首先識別并解釋當(dāng)前解答中的缺陷，然后生成修訂后的解答。這些筆記在每一輪中充當(dāng)一個暫時的、局部的工作區(qū)。

二是并行 - 蒸餾 - 精煉（PDR，每輪工作區(qū)）。

研究者不保持持久的記憶。相反，對于每一輪 r = 1, . . . , R，基于當(dāng)前的有限摘要采樣 M_r 個草稿（并行），然后重新綜合（蒸餾）出一個新的有限摘要供下一輪使用：

在最后一輪強(qiáng)制執(zhí)行單次生成 M_R = 1，此生成結(jié)果作為最終解答 s_final 返回。摘要是按輪次生成且非持久的，早期文本不會被重播，防止了每次調(diào)用時上下文的增長。

另外，研究者考慮了蒸餾操作符 D 的幾種實(shí)際實(shí)例化方式：

全局摘要
提取性 top-k 證據(jù)（共享）
random-k / 自舉工作區(qū)

最后是操作符一致性訓(xùn)練。前文將 M_θ 視為凍結(jié)，并純粹依賴于提示 / 調(diào)度。現(xiàn)在，研究者通過在與測試時相同的短上下文迭代接口下優(yōu)化模型，確保訓(xùn)練與部署 / 推理的一致性。

基礎(chǔ)算法。對于基準(zhǔn)強(qiáng)化學(xué)習(xí)（RL），研究者使用來自 Minimax-M1 的 CISPO 目標(biāo)。對于給定的提示 x，生成器 π(?| θ_old) 使用舊策略 θ_old 生成 G 個回合 {o^G_i=1}。像 sympy 或 math-verify 這樣的自動化檢查器被用來為每個回合分配標(biāo)量獎勵 r_i（±1）。CISPO 將 GRPO 的組歸一化優(yōu)勢與 REINFORCE 結(jié)合起來，達(dá)到以下目標(biāo)。

為什么 PDR 訓(xùn)練時只進(jìn)行一輪？研究者表示，進(jìn)行單一的 PDR 回合（包括 M 個早期草稿，蒸餾為 C，以及單次精煉）可以捕捉到關(guān)鍵的接口，同時控制 B_total 并穩(wěn)定強(qiáng)化學(xué)習(xí)。在推理時，則可以使用相同的操作符運(yùn)行多個回合（R > 1）。

本文的數(shù)據(jù)混合方法在保留長軌跡能力的同時，教會模型在短迭代中進(jìn)行推理。PDR 被模擬為一次并行→蒸餾→精煉回合，在該過程中，模型觀察 (x, C)，并對最終解答軌跡進(jìn)行可驗(yàn)證獎勵優(yōu)化。

實(shí)驗(yàn)結(jié)果

在預(yù)算感知協(xié)議下，研究者將順序精煉（SR）和并行 - 蒸餾 - 精煉（PDR）操作符與長思維鏈（CoT）基準(zhǔn)進(jìn)行了比較。他們使用符號驗(yàn)證器（如 sympy 和 math-verify）來測量準(zhǔn)確性，還將結(jié)果報(bào)告為順序預(yù)算 B_seq（沿著接受路徑的延遲代理）和總預(yù)算 B_total（所有調(diào)用的 token 數(shù)）的函數(shù)。

研究者對 SR 和 PDR 作為推理時操作符應(yīng)用于數(shù)學(xué)問題進(jìn)行了評估。給定一個提示 x，模型生成一個思維軌跡和最終解答。思維跨度由「...」限定，去除后僅使用自包含的解答作為后續(xù)回合輸入的構(gòu)建。他們在 AIME 2024 和 AIME 2025（AoPS，2025）上進(jìn)行評估，并報(bào)告在 16 次獨(dú)立生成中的準(zhǔn)確率 - mean@16。

通過實(shí)驗(yàn)，研究者試圖回答以下四個研究問題：

RQ1：短上下文迭代是否能通過比較 {SR, PDR} 與長軌跡 CoT，在匹配的 B_seq 和 B_total 下超越長軌跡？
RQ2：通過比較三種 D 變體：全局摘要、提取性 top-k 和 random-k 自舉，找出生成 C^(r) 的最佳蒸餾策略。
RQ3：識別給定模型的驗(yàn)證能力對最終性能的影響。
RQ4：操作符一致性訓(xùn)練是否能夠改變帕累托前沿？他們比較了操作符一致性 + 標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)與標(biāo)準(zhǔn)單軌跡強(qiáng)化學(xué)習(xí)。

RQ1：短上下文迭代是否在匹配延遲的情況下超越長軌跡？

圖 3 和圖 9 報(bào)告了在相同有效 token 預(yù)算 Bseq 下，AIME 2024 和 AIME 2025 上的準(zhǔn)確性。研究者觀察到，從長思維鏈（Long CoT）轉(zhuǎn)到順序精煉（SR）時，準(zhǔn)確性穩(wěn)定提升；從 SR 到并行 - 蒸餾 - 精煉（PDR）時，這一提升繼續(xù)。

對于 o3-mini，在有效預(yù)算為 49k token、每次調(diào)用思維預(yù)算為 16k token 時，準(zhǔn)確性從 76.9（長鏈推理）提升至 81.5（SR）和 86.7（PDR），相較長思維鏈，絕對值提升了 +9.8 個百分比。gemini-2.5-flash 從 SR 到 PDR 的變化小于 o3-mini，表明 gemini-2.5-flash 在自我驗(yàn)證方面更強(qiáng)。

RQ2：哪種蒸餾（即摘要）策略效果最佳？

表 2 研究了在固定輪次（每輪生成次數(shù)為 g = [16, 8, 4]）和每輪 k = 2 個候選的設(shè)置下，PDR 中的蒸餾操作符 D。

在不同數(shù)據(jù)集和基礎(chǔ)模型上，樣本級的 top-k 和全局摘要選擇一致性優(yōu)于共享 top-k 和 random-k，并且隨著思維預(yù)算 B 的增加，差距逐漸擴(kuò)大。

主要的例外是 AIME 2025 與 o3-mini 的情況，其中全局摘要優(yōu)于其他方法。研究者推測，o3-mini 的摘要特別擅長從正確和錯誤的草稿中捕捉線索，而這些線索在蒸餾后會促使更強(qiáng)的后續(xù)精煉。

RQ3：驗(yàn)證能力如何影響推理時間性能？

從圖 6 和圖 8 中，研究者觀察到注入錯誤候選（Oracle (Incorrect)）會導(dǎo)致所有模型的性能大幅下降。對于 o3-mini，性能下降顯著大于 gemini-2.5-flash，這表明后者具有更強(qiáng)的自我驗(yàn)證和恢復(fù)能力。這一趨勢在 AIME 2024 和 AIME 2025 中都得到了體現(xiàn)。

RQ4：操作符一致性訓(xùn)練是否推動了帕累托前沿的移動？

表 3 總結(jié)了主要結(jié)果。從每個強(qiáng)化學(xué)習(xí)（RL）目標(biāo)得到的模型分別在長思維鏈（Long CoT）生成和 PDR 上進(jìn)行了評估。PDR 強(qiáng)化學(xué)習(xí)相比基準(zhǔn)方法在 AIME 2024 上提升了 +3.34 個百分點(diǎn)，在 AIME 2025 上提升了 +1.67 個百分點(diǎn)。

從基準(zhǔn) RL 檢查點(diǎn)開始的持續(xù)更新，使得額外的 PDR 強(qiáng)化學(xué)習(xí)帶來了更大的提升，分別在 AIME 2024 和 AIME 2025 上提升了 +5.00 和 +4.59 個百分點(diǎn)。此外，研究者還觀察到，在 PDR RL 訓(xùn)練下，長思維鏈生成也有一定的增益。

這些結(jié)果表明，使用操作符一致性的強(qiáng)化學(xué)習(xí)目標(biāo)進(jìn)行訓(xùn)練減少了訓(xùn)練與部署之間的不匹配，將額外的計(jì)算轉(zhuǎn)化為準(zhǔn)確性，而不會增加每次調(diào)用的順序預(yù)算。

更多技術(shù)細(xì)節(jié)和實(shí)驗(yàn)結(jié)果請參閱原論文。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.