反思預(yù)訓(xùn)練中的再思考

2026-02-19 00:04:47　來源: CreateAMind

上海舉報

分享至

反思預(yù)訓(xùn)練中的再思考

Rethinking Reflection in Pre-Training

https://arxiv.org/pdf/2504.04022

摘要
語言模型對其自身推理過程進(jìn)行反思的能力，為解決復(fù)雜問題提供了一項關(guān)鍵優(yōu)勢。盡管近期研究大多聚焦于這種能力在強化學(xué)習(xí)階段如何發(fā)展，但我們的研究表明，它實際上在更早的階段——即模型的預(yù)訓(xùn)練階段——就已開始顯現(xiàn)。為探究此現(xiàn)象，我們有意在思維鏈中引入錯誤，并測試模型是否能通過識別并修正這些錯誤，最終得出正確答案。通過追蹤模型在不同預(yù)訓(xùn)練階段的表現(xiàn)，我們觀察到這種自我修正能力出現(xiàn)得較早，并隨著時間的推移穩(wěn)步提升。例如，一個經(jīng)過4萬億詞元預(yù)訓(xùn)練的OLMo-2-7B模型，在我們設(shè)計的六項自我反思任務(wù)中均展現(xiàn)出了自我修正能力。

1 引言
反思能力增強了模型根據(jù)先前的推理調(diào)整其回答的能力，從而提高了輸出的準(zhǔn)確性。近期研究指出，“諸如反思之類的行為……是模型與強化學(xué)習(xí)環(huán)境相互作用的結(jié)果” [DeepSeek-AI, 2025a]。要驗證此類論斷，需要在整個訓(xùn)練階段對能力的發(fā)展進(jìn)行全面的評估。在這項工作中，我們提出了一個詳盡的框架來衡量反思能力，并觀察到該現(xiàn)象在預(yù)訓(xùn)練階段始終如一地出現(xiàn)。

利用現(xiàn)有的推理數(shù)據(jù)集來對反思能力進(jìn)行基準(zhǔn)測試一直頗具挑戰(zhàn)性 [Mondorf and Plank, 2024]。在這些任務(wù)中，反思行為往往很少見，并且每個模型都表現(xiàn)出不同的錯誤模式，從而產(chǎn)生獨特的反思行為表現(xiàn) [Madaan et al., 2023, Liu et al., 2025]。我們通過區(qū)分情境性反思和自我反思來應(yīng)對這一挑戰(zhàn)。在情境性反思設(shè)定中，模型審視由另一個來源（例如，另一個前沿模型）生成的推理鏈條。在自我反思設(shè)定中，模型則思考其自身的推理過程。我們通過衡量模型在遇到導(dǎo)致錯誤答案的混淆性推理時解決問題的能力，來校準(zhǔn)模型的能力，并由此在整個預(yù)訓(xùn)練過程中測量其反思能力。

圖2展示了一個部分預(yù)訓(xùn)練的OLMo-2檢查點 [OLMo et al., 2025] 嘗試解決一項編程任務(wù) [Gu et al., 2024] 的例子。在此案例中，模型被問及一個問題：確定導(dǎo)致Python函數(shù)f輸出為‘a(chǎn)vdropj gsd ’的輸入是什么。在其首次嘗試中，這個擁有320億參數(shù)、經(jīng)過4.8萬億詞元預(yù)訓(xùn)練的模型，直接將輸出‘a(chǎn)dvdropj gsd ’重復(fù)作為了答案。當(dāng)使用其錯誤的思考過程加上后綴“Wait,”進(jìn)行提示后，模型能夠成功地進(jìn)行自我反思，并生成：“我想我可能錯了……??的值應(yīng)該是['gsd', 'avdropj']”。

通過程序化地引入包含算術(shù)擾動和邏輯不一致性等元素的錯誤思維鏈（CoT），我們能夠控制和擴(kuò)展正確完成這些任務(wù)所需的反思程度。這種方法同時也保留了既定的CoT格式[Wei等人，2022]。此外，我們的算法方法允許通過改編現(xiàn)有的推理基準(zhǔn)，以相對快速和經(jīng)濟(jì)的方式創(chuàng)建這些數(shù)據(jù)集，從而得以在跨越多領(lǐng)域的范圍內(nèi)全面研究模型的反思能力。我們構(gòu)建的六個數(shù)據(jù)集涵蓋了數(shù)學(xué)、編程、邏輯推理和知識獲取等領(lǐng)域，旨在評估模型在情境性反思和自我反思兩方面的能力。1

在OLMo-2系列模型的不同預(yù)訓(xùn)練檢查點上，使用我們六個多樣化數(shù)據(jù)集評估的結(jié)果表明，反思能力在各個領(lǐng)域中普遍存在。即使像“Wait,”[Muennighoff等人，2025]這樣簡單的觸發(fā)短語，也能使部分預(yù)訓(xùn)練的模型始終如一地識別出引入的錯誤以及自身生成的錯誤。具體來說，240個數(shù)據(jù)集-檢查點配對中，有231個展示了至少一次情境性反思實例，240個中有154個展示了至少一次自我反思實例。隨著預(yù)訓(xùn)練的深入，模型能夠糾正更多的對抗性示例，導(dǎo)致任務(wù)準(zhǔn)確率與預(yù)訓(xùn)練計算量對數(shù)之間的平均皮爾遜相關(guān)系數(shù)達(dá)到0.76。此外，隨著預(yù)訓(xùn)練的推進(jìn)，模型從先前錯誤推理中恢復(fù)的能力不斷增強，模型生成內(nèi)容中顯式反思的頻率增加，并且顯式反思對從混淆性CoT中恢復(fù)的貢獻(xiàn)也越來越大。

本文的貢獻(xiàn)主要有三方面：
? 我們引入了一種系統(tǒng)性的方法，創(chuàng)建了涵蓋代碼、知識獲取、邏輯推理和數(shù)學(xué)領(lǐng)域的六個數(shù)據(jù)集，用以研究模型的反思能力。
? 我們證明了不同能力水平和訓(xùn)練計算量的預(yù)訓(xùn)練模型，能夠在廣泛領(lǐng)域內(nèi)，通過使用簡單的插入語，激發(fā)反思能力以糾正先前不準(zhǔn)確的推理。
? 我們觀察到，持續(xù)改進(jìn)的預(yù)訓(xùn)練能夠帶來更好的反思能力，使得解決相同數(shù)量任務(wù)所需的測試時詞元更少。

2 相關(guān)工作
評估大語言模型的推理能力自然語言系統(tǒng)的實際應(yīng)用性取決于其推理能力 [Wos 等人，1992；Schuster 等人，2019；Mondorf 和 Plank，2024]。大語言模型結(jié)合諸如思維鏈 [Wei 等人，2022]、思維樹 [Yao 等人，2023] 和自洽性 [Wang 等人，2023b] 等提示技術(shù)，已被成功用于解決各種推理任務(wù) [Kojima 等人，2022；Bubeck 等人，2023]。推理能力通常通過觀察模型輸出 [Fu 等人，2023a；Liu 等人，2023]、分析生成軌跡 [Saparov 和 He，2023；Dziri 等人，2023；Willig 等人，2022] 以及交互式參與 [Zhuang 等人，2024；Wang 等人，2023a；Bertolazzi 等人，2023] 來衡量。先前的研究還通過對模型內(nèi)部網(wǎng)絡(luò)進(jìn)行參數(shù)歸因，通過研究注意力模式 [Hou 等人，2023]、激活流 [Dutta 等人，2024] 和各個層 [Pirozelli 等人，2024] 來識別推理特征。這些方法主要用于評估訓(xùn)練后模型，而我們的興趣在于診斷技術(shù)，以在整個訓(xùn)練階段引發(fā)推理，其精神類似于通過參數(shù)和訓(xùn)練數(shù)據(jù)規(guī)模來研究模型性能 [Kaplan 等人，2020]。在這項工作中，我們通過對抗性數(shù)據(jù)集評估反思能力的涌現(xiàn)來研究推理。這些數(shù)據(jù)集要求模型通過推理多步提示（其中包含細(xì)微錯誤）來成功完成任務(wù)。

對大語言模型的對抗性攻擊長期以來，對抗性輸入一直被用來揭示神經(jīng)網(wǎng)絡(luò)的脆弱性 [Szegedy 等人，2014；Biggio 等人，2013；Huang 等人，2017]。最近，類似的技術(shù)已被應(yīng)用于大語言模型，證明了它們易受精心設(shè)計的提示的攻擊 [Schwinn 等人，2023]。這些攻擊已成功針對模型的政策對齊 [Deng 等人，2022；Wei 等人，2023]、安全性 [Schuster 等人，2020；Carlini 等人，2021；Kang 等人，2024] 和魯棒性 [Zou 等人，2023；Shen 等人，2024；Xu 等人，2024]，突顯了巨大的漏洞。已有幾種方法提出使用對抗性訓(xùn)練來改進(jìn)模型對此類攻擊的防御 [Zhu 等人，2019；Jiang 等人，2020；

Xhonneux 等人，2024]。然而，我們工作的主要目的不是展示模型對對抗性攻擊的脆弱性，而是強調(diào)如何利用此類數(shù)據(jù)集來持續(xù)且全面地評估其推理能力。我們通過引入思維鏈 [Kojima 等人，2022] 來實現(xiàn)這一點，其中步驟 [Lightman 等人，2023] 大部分正確，但包含需要反思的錯誤 [Lightman 等人，2023；Fu 等人，2023b]。

訓(xùn)練時與測試時的權(quán)衡在先進(jìn)推理模型中，例如 OpenAI 的 o1 [OpenAI, 2024b] 和 DeepSeek-R1 [DeepSeek-AI, 2025a]，對測試時計算的依賴日益增加，這重新引發(fā)了關(guān)于計算資源最優(yōu)分配的討論 [Kaplan 等人，2020；Hoffmann 等人，2022]。先前的工作研究了訓(xùn)練時計算與測試時計算之間的權(quán)衡 [Snell 等人，2024]，以及監(jiān)督微調(diào) [Li 等人，2025；Chen 等人，2025] 和強化學(xué)習(xí) [DeepSeek-AI, 2025a；Wang 等人，2024] 等訓(xùn)練后技術(shù)對推理性能的影響 [Liu 等人，2025]。推理時范式——如樹搜索 [Yao 等人，2023]、思維鏈提示 [Wei 等人，2022] 和預(yù)算強制 [Muennighoff 等人，2025]——與模型的預(yù)訓(xùn)練表示相互作用 [Yeo 等人，2025；Ruis 等人，2025；Gandhi 等人，2025]。然而，在我們的工作中，我們提供了一個互補的視角，證明某些推理能力可以在預(yù)訓(xùn)練階段本身逐漸涌現(xiàn)，即使在沒有微調(diào)、強化學(xué)習(xí)或?qū)ｉT的測試時推理技術(shù)的情況下也是如此。我們的發(fā)現(xiàn)表明，推理的關(guān)鍵方面可以僅通過預(yù)訓(xùn)練來灌輸，這可能會改變訓(xùn)練和推理過程中計算最優(yōu)使用的考量。

3 方法
我們的目標(biāo)是全面且大規(guī)模地衡量反思能力。為此，我們首先給出反思的定義（3.1），然后通過程序化方式創(chuàng)建任務(wù)來引發(fā)反思（3.2），并最終嚴(yán)謹(jǐn)?shù)睾饬糠此嫉拇嬖冢?.3）。

3.1 定義反思
反思是元認(rèn)知的一種形式，涉及審視信息、評估其背后的推理，并基于該評估調(diào)整后續(xù)行為。在語言模型的語境中，此過程可應(yīng)用于源自外部或由模型自身生成的信息。在本工作中，我們創(chuàng)設(shè)了兩種情境來引發(fā)和衡量反思：

情境性反思：指模型對由另一來源（如另一個模型）創(chuàng)建的信息進(jìn)行反思。
自我反思：指模型對其自身生成的輸出進(jìn)行反思。
我們還通過兩種形式來全面描述反思的特征：
顯式反思：指模型生成的詞元在語義上識別并處理了對抗性語境中的錯誤。顯式反思可能出現(xiàn)在正確的模型輸出中（即，那些對我們對抗性任務(wù)給出正確答案的輸出），也可能出現(xiàn)在錯誤的模型輸出中。
隱式反思：指模型在處理對抗性語境時，能夠正確解決任務(wù)，但并未生成明確識別先前推理中存在錯誤的詞元。根據(jù)我們的定義，這意味著隱式反思的結(jié)果不可能是對我們對抗性任務(wù)的錯誤答案。這使我們能夠區(qū)分以下兩種情況：一種是未出現(xiàn)顯式反思但可推斷發(fā)生了隱式反思的情況；另一種則是根本未發(fā)生任何反思的情況。

3.2 使用對抗性反思數(shù)據(jù)集引發(fā)反思
我們提出了一種算法，用于生成能夠引發(fā)語言模型反思行為的對抗性數(shù)據(jù)集。該算法創(chuàng)建會導(dǎo)致錯誤解決方案的對抗性思維鏈（CoT）。與自我反思（我們可以利用模型自身的錯誤）不同，對于情境性反思，我們必須設(shè)計人工的對抗性CoT。在高層面上，這些對抗性CoT是通過以模仿人類推理錯誤（如邏輯失誤和算術(shù)計算錯誤）的方式破壞正確的CoT而創(chuàng)建的。在這兩種情況下，當(dāng)我們在上下文中提供這些CoT時，模型必須反思其中的錯誤并加以修正，才能得出正確的解決方案。我們相信，這些設(shè)定對于全面研究反思能力是必要的。
任務(wù)設(shè)計包括附加一個觸發(fā)詞元，例如“Wait,”，以促進(jìn)在整個任務(wù)解決過程中進(jìn)行持續(xù)的推理。
該算法有兩個變體。算法1和算法2分別用于創(chuàng)建情境性反思數(shù)據(jù)集和自我反思數(shù)據(jù)集。

3.3 衡量反思
我們基于先前對反思的分類（見3.1），提出了一種使用對抗性數(shù)據(jù)集來自動衡量模型反思能力的方法：

衡量顯式反思：為了識別顯式反思的實例，我們開發(fā)了一個基于提示的大語言模型分類器。該分類器用于檢測模型的輸出是否在給定的對抗性語境中明確承認(rèn)并處理了錯誤，無論模型最終是否得出了正確答案。該分類器將在下文4.3節(jié)中描述。
衡量隱式反思：我們規(guī)定，在存在對抗性語境的情況下，所有導(dǎo)致正確答案的模型生成內(nèi)容都可歸因于反思，即使輸出中沒有生成任何與反思相關(guān)的詞元。我們認(rèn)為，這符合描述人類元認(rèn)知時對“反思”的日常理解。我們這種方法的一個含義是，根據(jù)設(shè)計，那些產(chǎn)生了正確答案但未被顯式分類器識別出的生成內(nèi)容，將被歸類為隱式反思的實例。

關(guān)于我們使用的具體反思指標(biāo)的更多細(xì)節(jié)，請參見第4.3節(jié)。

4 實驗設(shè)置
為了全面研究反思能力，我們評估了涵蓋不同計算預(yù)算的部分預(yù)訓(xùn)練模型，這些模型在參數(shù)量和訓(xùn)練詞元數(shù)量上均有變化（4.1）。
我們的研究包括兩種類型的對抗性任務(wù)（4.2）：(1) 情境性反思，其中對抗性思維鏈?zhǔn)鞘褂们把啬Ｐ蛷默F(xiàn)有數(shù)據(jù)集中系統(tǒng)生成的；(2) 自我反思，其中對抗性思維鏈源自模型自身對原始任務(wù)實例的先前錯誤回答。
我們的評估還檢驗了模型輸出是否展現(xiàn)出顯式的反思性推理（4.3）。
我們在第4.4節(jié)詳細(xì)說明了我們的基礎(chǔ)設(shè)施設(shè)置。

4.1 模型系列

OLMo-2
OLMo-2 [OLMo 等人，2025] 是一個完全開源、開放權(quán)重的大語言模型項目，提供了7B、13B和32B參數(shù)變體的訓(xùn)練檢查點。我們總共評估了40個檢查點（詳情見附錄B）。我們力求選擇間隔均勻的檢查點，并在無法獲得時使用最接近的替代檢查點。

Qwen2.5
我們評估了Qwen2.5的0.5B、3B、7B、14B、32B和72B參數(shù)變體 [Qwen 等人，2025]。詳情見附錄B。

4.2 數(shù)據(jù)集
我們在廣泛的任務(wù)集上評估反思現(xiàn)象，基于BIG-Bench Hard (BBH) [bench authors, 2023]、CruxEval [Gu 等人，2024]、GSM8K [Cobbe 等人，2021]、GSM8K-Platinum [Vendrow 等人，2025] 和 TriviaQA [Joshi 等人，2017] 創(chuàng)建了六個對抗性數(shù)據(jù)集。我們的對抗性數(shù)據(jù)集概覽見表1和表2。
我們在流程中利用DeepSeek-V3（簡稱DS-V3）[DeepSeek-AI, 2025b]、GPT-4o2 [OpenAI, 2024a] 和 SentenceTransformers [Reimers and Gurevych, 2020] 模型，以及多次自動檢查和人工審核，以確保我們數(shù)據(jù)集的質(zhì)量和魯棒性。

情境性反思數(shù)據(jù)集：這些數(shù)據(jù)集的創(chuàng)建涉及一個多步驟流程，我們會提示大語言模型創(chuàng)建對抗性思維鏈（另見算法1）。對于推理任務(wù)，原始任務(wù)可能已將思維鏈作為數(shù)據(jù)集工件包含在內(nèi)；如果沒有，我們使用前沿模型（如GPT-4o或DS-V3）創(chuàng)建它們。隨后，通過引入會導(dǎo)致錯誤答案的故意錯誤，利用正確的思維鏈來開發(fā)對抗性思維鏈。此外，最后還會進(jìn)行檢查，以確保思維鏈不會透露其誤導(dǎo)意圖。這些流程和提示都經(jīng)過精心設(shè)計以最小化錯誤，并且是針對特定數(shù)據(jù)集的，但整體框架可以推廣到任何領(lǐng)域和數(shù)據(jù)集。
自我反思數(shù)據(jù)集：這些數(shù)據(jù)集是通過執(zhí)行我們想要評估的大語言模型在基礎(chǔ)任務(wù)上的表現(xiàn)，并收集模型未能答對的問題所對應(yīng)的思維鏈來創(chuàng)建的（另見算法2）。由于我們對模型隨著預(yù)訓(xùn)練進(jìn)程的反思能力感興趣，在自我反思數(shù)據(jù)集中，我們只保留每個參數(shù)規(guī)模下所有檢查點都回答錯誤的問題，以確保在預(yù)訓(xùn)練檢查點之間進(jìn)行一致的比較。

關(guān)于我們特定于數(shù)據(jù)集的流程、檢查和過濾器的詳細(xì)說明，請參見附錄F。

4.3 Evaluation 評估

指標(biāo)
如表3所示，對于情境性反思和自我反思兩種設(shè)定，準(zhǔn)確率是指模型正確解決的任務(wù)實例所占的比例。獨立于準(zhǔn)確率，我們利用顯式反思分類器來衡量顯式反思率，即模型輸出展現(xiàn)顯式反思（無論正確與否）的任務(wù)實例所占的比例。我們還報告了顯式反思準(zhǔn)確率，即模型既正確解決又展現(xiàn)了顯式反思的任務(wù)實例所占的比例。最后，隱式反思準(zhǔn)確率是指模型輸出正確但未展現(xiàn)顯式反思的任務(wù)實例所占的比例。關(guān)于每個數(shù)據(jù)集準(zhǔn)確率指標(biāo)的詳細(xì)信息，請參見附錄H。

此外，對于每個數(shù)據(jù)點，我們將預(yù)訓(xùn)練計算量報告為 6nt，其中 n 和 t 分別是參數(shù)量和訓(xùn)練詞元數(shù)量。關(guān)于我們訓(xùn)練時和測試時計算量公式的更多細(xì)節(jié)，請參見第5.4節(jié)。

顯式反思分類器
我們開發(fā)了一個基于提示的分類器，用于判斷模型輸出是否展現(xiàn)了顯式反思。我們向 DeepSeek-V3 [DeepSeek-AI, 2025b] 提供“反思”的含義描述以及兩到四個顯式反思示例作為提示。該分類器旨在檢測的顯式反思短語示例見表5。我們根據(jù) GSM8K、cruxeval-o 和 TriviaQA 上的人工標(biāo)注黃金標(biāo)簽（每個基準(zhǔn)120個問題；標(biāo)注過程詳見附錄G）對分類器進(jìn)行了驗證。盡管我們的分類器召回率較低（見表4），但其精確度足夠高，足以驗證其有效性。在最壞的情況下，我們會少報反思行為，但在報告時會更有信心。

4.4 基礎(chǔ)設(shè)施
我們的實驗設(shè)置使用 vLLM 推理框架 [Kwon 等人，2023] 來托管 OLMo-2 和 Qwen 模型。我們使用 SGLang [Zheng 等人，2024] 托管 DeepSeek-V3。我們使用一個由 AMD MI300x 加速器組成的集群，并通過 Kubernetes 將任務(wù)調(diào)度到該集群中。

5 結(jié)果

為了全面衡量跨領(lǐng)域的反思性推理，我們的分類器在情境性反思（5.1）和自我反思（5.3）設(shè)定中，分別針對BBH、cruxeval-i、cruxeval-o、GSM8K、GSM8K-Platinum和TriviaQA數(shù)據(jù)集，區(qū)分了顯式反思和隱式反思。令我們驚訝的是，我們發(fā)現(xiàn)了反思能力的強烈存在，并且這種能力隨著訓(xùn)練計算量的增加而增強。此外，隨著預(yù)訓(xùn)練的推進(jìn)，模型從混淆因素中恢復(fù)的能力不斷增強，顯式反思的頻率增加，并且顯式反思對從混淆因素中恢復(fù)的貢獻(xiàn)也越來越大（示例見表5）。這些結(jié)果突顯了預(yù)訓(xùn)練在發(fā)展反思能力中的作用。

5.1顯性情境反射在所有模型中都很突出

從表6可以看出，令人鼓舞的是，除了cruxeval-i任務(wù)之外，對于所有其他任務(wù)，每一個OLMo-2預(yù)訓(xùn)練檢查點都顯示出能夠通過隱式或顯式方式從情境性混淆因素中恢復(fù)的跡象?。這使得240個數(shù)據(jù)集-檢查點配對中，有231個展示了至少一次情境性反思實例。然而，為了證實我們的假設(shè)，即模型逐步發(fā)展并運用顯式反思，大多數(shù)恢復(fù)情況應(yīng)歸因于顯式情境性反思。本質(zhì)上，我們期望隨著預(yù)訓(xùn)練計算量的增加，觀察到以下現(xiàn)象的頻率增加：(a) 從情境性混淆因素中恢復(fù)，(b) 對情境性混淆因素進(jìn)行顯式反思，以及 (c) 通過顯式反思從情境性混淆因素中恢復(fù)。

各項指標(biāo)與預(yù)訓(xùn)練計算量對數(shù)之間的高度正皮爾遜相關(guān)性 [Cohen 等人，2009] 證實了 (a)、(b) 和 (c) 點。我們還觀察到隱式反思準(zhǔn)確率與預(yù)訓(xùn)練計算量對數(shù)之間的相關(guān)性普遍較低。總之，這些結(jié)果強調(diào)，隨著預(yù)訓(xùn)練的增加，模型傾向于成功解決更多的對抗性實例，并在此過程中日益傾向于使用顯式反思。例如，GSM8K-Platinum 在圖3中顯示，隨著預(yù)訓(xùn)練的深入，不同參數(shù)規(guī)模的模型通過顯式反思錯誤解決了大部分任務(wù)實例。TriviaQA 是一個例外，其顯著改進(jìn)可歸因于隱式反思，這是因為該任務(wù)主要衡量知識獲取，其中許多實例可以在沒有顯式推理的情況下解決。所有六項任務(wù)的詳細(xì)結(jié)果見附錄C。

5.2 無觸發(fā)詞時模型也能反思；‘Wait,’增強顯式性和準(zhǔn)確性

為了理解“Wait,”觸發(fā)詞的因果作用，我們研究了在GSM8K-Platinum任務(wù)上，使用兩個極端觸發(fā)詞設(shè)置時的模型表現(xiàn)。具體來說，我們研究了無觸發(fā)詞（ A ）和帶有包含明確承認(rèn)“Wait, I made a mistake”（等等，我犯了個錯）的觸發(fā)詞（ B ）時的模型表現(xiàn)。我們選擇 A 作為一種將對抗性思維鏈中錯誤的注意力降至最低的模式。相比之下，我們選擇 B 作為一種強調(diào)思維鏈中存在錯誤的模式。圖4繪制了這些結(jié)果。

這些結(jié)果首先證實了我們的假設(shè)：即使沒有觸發(fā)詞，隨著預(yù)訓(xùn)練的推進(jìn)，模型也能越來越成功地從情境性混淆因素中恢復(fù)。上文5.1節(jié)結(jié)果中“Wait,”的作用在此處得到進(jìn)一步闡明。我們看到模型在此任務(wù)上的表現(xiàn)受限于 A 和 B 這兩個極端情況。在情景 A 中，模型通過隱式反思來提高準(zhǔn)確率；在情景 B 中，模型則通過設(shè)計進(jìn)行顯式反思，從而大幅提升性能。帶有“Wait,”的設(shè)置，在隱式反思時表現(xiàn)類似 A ，在顯式反思時表現(xiàn)類似 B 。有趣的是，如圖4所示，其性能可以分解為：

此外，我們看到性能的顯著提升可歸因于“Wait,”觸發(fā)詞。這是因為該觸發(fā)詞能以隨預(yù)訓(xùn)練增加的比例引發(fā)顯式反思，并且能達(dá)到相應(yīng)的由 B 觸發(fā)的模型所實現(xiàn)的性能——如上所述，我們選擇 B 作為一種強調(diào)思維鏈中存在錯誤的模式。換句話說，當(dāng)模型在帶有“Wait,”的對抗性思維鏈條件下展現(xiàn)出顯式反思時，其表現(xiàn)與模型被明確告知思維鏈包含錯誤時的表現(xiàn)相當(dāng)。相反，當(dāng)模型在帶有“Wait,”的對抗性思維鏈條件下但未展現(xiàn)出顯式反思時，其表現(xiàn)則與模型僅基于對抗性思維鏈的模式一致。這確立了“Wait,”通過引發(fā)顯式反思來提高準(zhǔn)確率的因果聯(lián)系。

5.3 顯式自我反思更難，但隨著計算量增加而進(jìn)步

初看之下，表7中自我反思的稀少可能被視為一個負(fù)面結(jié)果。然而，這可以通過以下事實解釋：在此設(shè)定中，模型被評估的任務(wù)實例都是它們之前回答錯誤的——因此，根據(jù)設(shè)計，這些任務(wù)特別困難（見附錄F第2點）。盡管如此，在大約64.2%的任務(wù)嘗試中，模型確實展現(xiàn)了至少一定的自我修正能力。

為了區(qū)分自我反思和自我修正，我們在圖5中繪制了模型生成的反思率（與任務(wù)是否解決無關(guān)）。這些結(jié)果表明一個強勁趨勢：隨著預(yù)訓(xùn)練的推進(jìn)，模型在明確指出的自身錯誤方面變得更好。對于cruxeval-i，我們注意到隨著預(yù)訓(xùn)練的增加，模型傾向于學(xué)會自我修正。然而，它們能夠進(jìn)行自我反思的時間要早得多。這表明在自我修正能力形成之前，自我反思能力有一個自然的發(fā)展過程。

這些自我反思的萌芽如何通過訓(xùn)練后階段演變?yōu)閺?fù)雜的自主推理能力，是一個有待未來工作探討的開放性問題。我們假設(shè)，必須存在一個預(yù)訓(xùn)練自我反思能力的臨界閾值，超過該閾值，模型發(fā)展成測試時推理器的可能性將非常高。令我們驚訝的是，從有機的網(wǎng)絡(luò)數(shù)據(jù)集 [Li 等人，2024] 中學(xué)習(xí)時，我們竟然觀察到了如此程度的顯式自我反思。精準(zhǔn)定位在預(yù)訓(xùn)練期間促進(jìn)顯式自我反思的數(shù)據(jù)分布，是我們工作后續(xù)自然的下一步。所有六項任務(wù)的詳細(xì)結(jié)果見附錄D。

5.4 訓(xùn)練時計算與測試時計算可以相互權(quán)衡
我們研究了增加訓(xùn)練時計算的投入與在測試時達(dá)到下游任務(wù)可比準(zhǔn)確率所需相應(yīng)開銷之間的權(quán)衡關(guān)系。我們通過以下方式估算：訓(xùn)練時計算量估算為 6nt，其中 n 和 t 分別是參數(shù)量和訓(xùn)練詞元數(shù)量；測試時計算量估算為 2nw，其中 w 表示為解決一定數(shù)量的對抗性問題而生成的詞元數(shù)量?。

我們首先指定一組需要正確回答的對抗性問題的目標(biāo)數(shù)量。然后，為每個目標(biāo)繪制一條曲線。我們針對之前介紹的 GSM8K-Platinum 對抗性數(shù)據(jù)集進(jìn)行此項研究。我們采用一種順序的測試時擴(kuò)展方法，即在模型生成內(nèi)容后附加觸發(fā)詞“Wait,”。實際上，我們引入了兩個“Wait,”觸發(fā)詞，以使較弱的模型能夠達(dá)到與較強模型相同的指標(biāo)水平。這模仿了 [Muennighoff 等人，2025] 中順序擴(kuò)展測試時計算的方法。

如圖6所示，隨著 OLMo-2-32B 檢查點的訓(xùn)練時計算量增加，測試時計算需求減少。這一結(jié)果進(jìn)一步支持了我們的假設(shè)，即隨著預(yù)訓(xùn)練的推進(jìn)，模型的反思能力變得更強，這意味著在達(dá)到給定準(zhǔn)確率水平時所需的測試時計算量更少。

5.5 在更強的模型系列中是否能觀察到類似結(jié)果？
為了研究這些現(xiàn)象在不同模型系列中的表現(xiàn)，我們在圖7中報告了Qwen2.5在我們對抗性任務(wù)上的結(jié)果。與我們針對OLMo-2的結(jié)果一致，我們發(fā)現(xiàn)隨著預(yù)訓(xùn)練計算量的增加——在此情況下即參數(shù)數(shù)量的增加——模型在對抗性任務(wù)上的表現(xiàn)持續(xù)提升。這再次證明，僅憑預(yù)訓(xùn)練計算量的增加，模型就能在面對先前推理中的錯誤時，日益有效地解決任務(wù)。

6 結(jié)論
本研究旨在解答“反思性推理在預(yù)訓(xùn)練期間是如何發(fā)展的？”這一問題，這與普遍認(rèn)為反思能力是在訓(xùn)練后通過強化學(xué)習(xí)涌現(xiàn)的觀點形成對比。我們提出并實施了一個全面的框架，用以在整個預(yù)訓(xùn)練階段衡量反思能力。通過我們構(gòu)建的對抗性數(shù)據(jù)集，無論是在情境性反思還是自我反思設(shè)定下，我們都能夠廣泛地校準(zhǔn)這些能力。我們發(fā)現(xiàn)，僅使用極少訓(xùn)練計算量（例如，使用1980億詞元訓(xùn)練的OLMo-2-7B）的模型，也能在數(shù)學(xué)、代碼、語言理解和邏輯推理領(lǐng)域展現(xiàn)出反思能力。此外，隨著投入預(yù)訓(xùn)練的計算量增加，這些能力會進(jìn)一步增強。

原文：https://arxiv.org/pdf/2504.04022

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.