網易首頁 > 網易號 > 正文申請入駐

哥倫比亞大學揭示強化學習的探索與利用悖論

2025-12-22 21:27:21　來源: 科技行者

北京舉報

分享至

這項由哥倫比亞大學的Peter Chen領導，聯(lián)合香港中文大學（深圳）、阿里巴巴達摩院（美國）以及紐約大學斯特恩商學院的研究團隊共同完成的研究，發(fā)表于2025年12月。研究團隊深入探討了一個看似矛盾的現(xiàn)象：在訓練大語言模型的過程中，兩種看似完全對立的策略竟然都能提升模型表現(xiàn)。感興趣的讀者可以通過論文編號arXiv:2512.16912v1查詢完整研究內容。

要理解這項研究的意義，我們可以把訓練AI模型想象成教導一個學生學會數學解題。傳統(tǒng)的教學理論告訴我們，學生需要在"探索新方法"和"鞏固已掌握技能"之間找到平衡。探索太多，學生會迷失方向；鞏固太多，學生會固步自封。然而，研究團隊在AI模型訓練中發(fā)現(xiàn)了一個令人費解的現(xiàn)象：無論是阻止學生探索新方法，還是阻止學生鞏固已有技能，竟然都能讓學生的成績變得更好。

這種看似不合理的現(xiàn)象出現(xiàn)在一種稱為"可驗證獎勵強化學習"的AI訓練方法中。這種方法特別適用于數學推理等有明確對錯標準的任務。當模型給出答案時，系統(tǒng)能夠立即驗證答案是否正確，就像老師批改選擇題一樣直接明確。這種訓練方法已經被應用于最新的AI推理模型中，比如OpenAI的o1系列和DeepSeek的R1模型，幫助它們在國際數學奧林匹克競賽等高難度測試中達到人類水平的表現(xiàn)。

在傳統(tǒng)的強化學習框架中，我們通常認為需要鼓勵模型探索不同的解題策略，同時獎勵那些能夠產生正確答案的行為。這就像培養(yǎng)一個學生既要勇于嘗試新方法，又要記住有效的解題步驟。然而，可驗證獎勵強化學習具有三個獨特之處，使其完全不同于傳統(tǒng)方法。

首先，獎勵信號極其稀疏。在傳統(tǒng)強化學習中，系統(tǒng)可能在每一個小步驟都給出反饋，就像老師在學生解題過程中不斷點頭或搖頭。但在可驗證獎勵強化學習中，只有在學生完成整道題目后才能知道答案對錯，中間的所有步驟都得不到任何反饋。其次，探索過程發(fā)生在整個解題序列的層面上，而不是單個步驟。最后，模型更新依賴于一種叫做"比率裁剪"的技術，這種技術對于答案的相對優(yōu)劣非常敏感。

正是這些特殊性質讓研究團隊觀察到了兩個看似矛盾的現(xiàn)象。第一個現(xiàn)象是"虛假獎勵"的積極作用。虛假獎勵就像給學生隨機發(fā)糖果，完全不考慮他們的答題表現(xiàn)。按照常理，這種毫無根據的獎勵應該會干擾學習過程，讓學生搞不清楚什么是正確的。但令人意外的是，在某些AI模型上，這種隨機獎勵竟然提升了模型在數學測試中的表現(xiàn)。

第二個現(xiàn)象是"熵最小化"的效果。在這個語境下，熵可以理解為模型輸出的隨機性程度。高熵意味著模型經常給出不同的答案，就像一個猶豫不決的學生；低熵意味著模型傾向于給出確定性的答案，就像一個非常自信的學生。傳統(tǒng)觀點認為，適度的隨機性有助于探索不同的解題策略。但研究發(fā)現(xiàn)，降低這種隨機性，讓模型變得更加確定和自信，竟然也能提升表現(xiàn)。

這兩個現(xiàn)象共同構成了一個令人困惑的悖論：既阻礙"利用"（通過虛假獎勵），又阻礙"探索"（通過降低熵），都能改善推理性能。這就像發(fā)現(xiàn)無論是禁止學生使用熟悉的解題方法，還是禁止學生嘗試新方法，都能讓考試成績變好一樣不可思議。

一、裁剪機制的真實作用：并非學習信號而是熵調節(jié)器

研究團隊首先深入分析了"比率裁剪"這個技術的真實作用機制。比率裁剪最初是為了防止模型在訓練過程中發(fā)生劇烈變化而設計的穩(wěn)定性措施，就像汽車的安全帶一樣，目的是保護而不是推動前進。

通過嚴格的數學分析，研究團隊證明了在虛假獎勵條件下，裁剪產生的偏差在數量級上遠小于原始的學習信號。具體來說，他們建立了一個理論框架，將裁剪后的目標函數分解為原始項和裁剪修正項兩部分。通過推導精確的數學界限，他們發(fā)現(xiàn)裁剪修正項的期望值比原始學習信號小約17倍。這意味著，即使裁剪確實會產生某種偏差，這種偏差也微不足道，不足以解釋觀察到的性能提升。

更重要的是，研究團隊發(fā)現(xiàn)了裁剪的真正作用機制：它實際上是在調節(jié)模型輸出的隨機性程度。當模型接受虛假獎勵訓練時，裁剪會系統(tǒng)性地降低輸出的熵值，使模型變得更加確定性和自信。這就像原本猶豫不決的學生突然變得非常堅定，雖然判斷依據可能不夠充分，但表達更加清晰明確。

為了驗證這一理論發(fā)現(xiàn)，研究團隊設計了對比實驗。他們使用Qwen2.5-Math-7B模型在DeepScaleR數據集上進行訓練，一組實驗啟用裁剪，另一組完全關閉裁剪功能。結果顯示，在啟用裁剪的情況下，模型在MATH500驗證集上的表現(xiàn)確實有所提升，但關閉裁剪時表現(xiàn)更好。更關鍵的是，裁剪激活的頻率極低，在整個訓練過程中從未超過0.2%，這進一步證實了裁剪偏差不是性能提升的主要原因。

研究團隊還開發(fā)了一個新穎的"一步策略熵變化"理論框架，用數學公式精確描述了裁剪如何影響模型的輸出分布。他們證明，在有裁剪的情況下，策略熵會單調遞減，而在無裁剪的情況下，根據初始策略的偏斜程度，熵可能增加或減少。這個發(fā)現(xiàn)徹底顛覆了之前認為裁剪直接提供學習信號的觀點，揭示了其作為熵調節(jié)機制的真實身份。

二、策略熵與性能的復雜關系：打破因果聯(lián)系神話

在深入理解裁剪機制后，研究團隊轉向探討第二個核心問題：模型輸出的隨機性程度是否直接決定了性能表現(xiàn)。這個問題的重要性在于，如果能夠建立熵與性能之間的直接因果關系，就可以通過簡單調節(jié)熵值來優(yōu)化模型性能。

研究團隊設計了多組對照實驗來檢驗這一假設。他們在相同的訓練設置下，分別記錄有裁剪和無裁剪情況下的策略熵變化和模型性能。結果令人驚訝：在某些情況下，熵的降低確實伴隨著性能提升，但在另一些情況下，熵的增加同樣帶來了性能改善。

具體來說，當使用較難的AIME數據集訓練Qwen2.5-Math-7B模型時，無論是有裁剪（熵降低）還是無裁剪（熵增加）的訓練方式，部分實驗都顯示出性能改善。這種現(xiàn)象就像發(fā)現(xiàn)不同的學生適合不同的學習風格：有些學生需要變得更加專注和確定，有些學生則需要保持開放和靈活的思維方式。

更有趣的是，研究團隊發(fā)現(xiàn)了一個重要的調節(jié)因素：模型的初始能力和訓練數據的難度。對于能力較強的模型（如QwQ-32B和R1-Distill-Llama-8B），即使在困難的訓練數據上，它們也能從隨機獎勵中獲益。但對于能力較弱的模型，當面對超出其處理能力的困難任務時，無論采用何種熵調節(jié)策略，性能提升都非常有限。

這一發(fā)現(xiàn)打破了"低熵必然帶來高性能"的簡單假設。研究團隊進一步分析發(fā)現(xiàn)，熵的變化更像是模型適應訓練信號的一種表現(xiàn)，而不是性能改善的直接原因。真正的關鍵在于模型是否能找到適合當前任務復雜度的輸出確定性水平。

通過對不同模型族（Qwen-Math、Llama、QwQ）的廣泛測試，研究團隊驗證了這一結論的普遍性。他們發(fā)現(xiàn)，性能提升的關鍵不在于達到特定的熵值，而在于訓練過程是否幫助模型找到了更有效的推理策略。這就像不同的學生需要不同程度的自信：有些學生需要變得更加篤定，有些學生則需要保持質疑和探索的態(tài)度。

三、獎勵錯配理論：揭示虛假獎勵的積極機制

為了解釋為什么看似毫無意義的隨機獎勵能夠提升模型性能，研究團隊開發(fā)了一個創(chuàng)新的"獎勵錯配"理論模型。這個模型的核心思想是將訓練過程中的獎勵分配錯誤看作一個概率問題，通過分析正確答案和錯誤答案在隨機獎勵下的分布特征，來理解性能提升的機制。

研究團隊將訓練樣本分為兩類：正確回答的樣本和錯誤回答的樣本。在理想情況下，正確答案應該獲得獎勵，錯誤答案不應獲得獎勵。但在隨機獎勵系統(tǒng)中，會出現(xiàn)兩種"標記錯誤"：假陽性錯誤（錯誤答案被誤獎勵）和假陰性錯誤（正確答案未被獎勵）。

通過精確的概率分析，研究團隊證明了一個關鍵結論：當模型的基線準確率較高時，隨機獎勵造成的"優(yōu)勢損失"會顯著減小。具體而言，如果一個模型在測試中有70%的答案是正確的，那么即使采用完全隨機的獎勵，正確答案仍然有更大概率獲得更多的凈優(yōu)勢。這就像在一個主要由好學生組成的班級中，即使老師隨機發(fā)獎，好學生獲得獎勵的總量仍然會超過差學生。

更深入的分析揭示了一個重要的數學性質：隨機獎勵損失的期望值和方差都隨著正確樣本比例的增加而減少。當模型準確率從50%提升到70%時，獎勵錯配造成的干擾會呈平方級別下降。這解釋了為什么較強的模型更容易從隨機獎勵中受益，而較弱的模型則可能受到更多干擾。

研究團隊還發(fā)現(xiàn)了一個有趣的現(xiàn)象：當模型處于不同的能力水平時，假陽性錯誤和假陰性錯誤的相對影響是不同的。對于高能力模型，假陰性錯誤（正確答案未獲獎勵）的負面影響更為顯著，而假陽性錯誤的影響相對較小。這意味著，對于已經表現(xiàn)良好的模型，隨機獎勵主要是在"懲罰"一些本應被獎勵的正確行為，但這種懲罰的整體影響有限。

為了驗證這一理論，研究團隊測試了不同基線能力的模型。他們使用了能力較弱的Qwen2.5-Math-1.5B模型和能力較強的R1-Distill-Llama-8B模型進行對比實驗。結果完全符合理論預測：較強的模型在隨機獎勵下表現(xiàn)出穩(wěn)定的改善，而較弱的模型則顯示出更大的性能波動和不穩(wěn)定性。

這一發(fā)現(xiàn)還解釋了為什么先前的研究中出現(xiàn)了相互矛盾的結果。一些研究報告隨機獎勵有害，另一些研究則發(fā)現(xiàn)其有益。實際上，這些差異很大程度上反映了所測試模型的不同基線能力水平。當研究者使用的是相對較弱的模型時，隨機獎勵確實可能帶來負面影響；但當使用較強的模型時，隨機獎勵就可能表現(xiàn)出積極作用。

四、模型污染假說的質疑：超越單一解釋框架

早期對隨機獎勵積極效果的解釋主要集中在"模型污染"假說上。這個假說認為，某些模型在預訓練階段就已經見過了測試數據，因此具有"作弊"的先天優(yōu)勢。當這些已經"記住答案"的模型接受隨機獎勵時，它們能夠利用內在的記憶來維持性能，而隨機性反而幫助它們避免過度擬合到特定的答題模式。

然而，研究團隊通過多個角度的實驗設計，系統(tǒng)性地質疑了這一單一解釋框架的充分性。他們的第一個重要發(fā)現(xiàn)是，隨機獎勵的積極效果并不局限于被懷疑存在污染的Qwen-Math模型族，在其他模型族中同樣可以觀察到類似現(xiàn)象。

具體來說，研究團隊測試了Llama系列和QwQ系列模型，這些模型系列沒有被報告存在MATH500數據集的污染問題。令人意外的是，這些"清潔"的模型同樣在隨機獎勵條件下顯示出性能提升。這一發(fā)現(xiàn)直接挑戰(zhàn)了污染假說作為唯一解釋機制的合理性。

進一步的分析顯示，即使在被懷疑存在污染的模型中，隨機獎勵的效果也表現(xiàn)出與污染假說預期不符的模式。如果隨機獎勵的作用確實主要來自于強化已記憶的內容，那么效果應該主要體現(xiàn)在模型已經"知道"答案的問題上。但實驗結果顯示，改善是相對均勻分布的，包括模型之前表現(xiàn)不佳的問題類型。

研究團隊還注意到訓練數據集的選擇對結果的影響。他們在實驗中使用的DeepScaleR訓練集包含AMC、AIME、Omni-Math和Still等數據源，這些數據源并未出現(xiàn)在Qwen2.5-Math模型的已知訓練語料中。這種訓練-測試數據的分離設計進一步削弱了簡單污染解釋的可信度。

更重要的是，研究團隊發(fā)現(xiàn)不同強度的模型表現(xiàn)出了系統(tǒng)性的差異模式。如果污染是主要因素，那么污染程度應該是決定性的，但實際觀察到的模式更符合基于模型能力的解釋：能力越強的模型越能夠從隨機獎勵中受益，無論其是否存在污染。

這些發(fā)現(xiàn)并不是要完全否定污染可能產生的影響，而是表明現(xiàn)實情況比單一的污染解釋要復雜得多。隨機獎勵的積極效果可能同時涉及多個機制，包括但不限于：模型的先驗知識、訓練動態(tài)的調整、探索-利用平衡的重新校準，以及模型容量與任務難度的匹配程度。

研究團隊的綜合分析表明，我們需要一個更加細致和多層面的理解框架，而不能依賴任何單一的解釋機制。這種認識對于未來的AI訓練方法設計具有重要啟示：我們不應該基于簡化的假設來制定訓練策略，而應該考慮多種因素的交互作用。

五、實驗驗證與跨模型泛化：從理論到實踐的全面檢驗

為了確保研究結論的可靠性和普適性，研究團隊設計了迄今為止最為全面的實驗驗證方案。這套驗證方案不僅覆蓋了多個模型族和不同的參數規(guī)模，還考慮了不同的訓練設置和任務難度。

在模型選擇方面，研究涵蓋了三個主要的模型族：Qwen-Math系列、Llama系列和QwQ系列。每個模型族都包含了不同參數規(guī)模的變體，從7B到32B不等。這種多樣化的選擇確保了發(fā)現(xiàn)的普遍適用性，避免了基于單一模型得出的可能有偏的結論。

實驗設置遵循了嚴格的控制變量原則。所有實驗都使用相同的超參數配置：批次大小128，組大小16，解碼溫度1.0，學習率5×10^-7，KL系數0。唯一變化的參數是裁剪比例和是否啟用隨機獎勵。這種標準化確保了不同實驗之間的可比性。

在訓練數據方面，研究團隊使用了兩個不同難度等級的數據集。DeepScaleR數據集代表中等難度，而AIME Past系列則代表高難度。通過這種難度梯度設計，研究者能夠觀察到模型能力與訓練數據難度之間的交互效應。

實驗結果展現(xiàn)出了清晰的模式。在中等難度的DeepScaleR數據集上，大多數模型都能從隨機獎勵中獲得一定程度的性能提升。具體表現(xiàn)為，Qwen2.5-Math-7B的準確率從64%提升到70%，R1-Distill-Llama-8B從66%提升到74%。這些改善雖然看似有限，但在AI模型評估中被認為是顯著的。

然而，當訓練數據難度增加到AIME級別時，模式變得更加復雜。能力較強的QwQ-32B和R1-Distill-Llama-8B模型仍然能夠從隨機獎勵中受益，它們的性能曲線顯示出穩(wěn)定的上升趨勢。但能力相對較弱的Qwen2.5-Math-7B模型則表現(xiàn)出明顯的掙扎，其性能曲線呈現(xiàn)隨機游走狀態(tài)，幾乎沒有meaningful的改善。

這種能力依賴性驗證了獎勵錯配理論的預測。理論模型表明，當正確答案的比例較高時，隨機獎勵造成的干擾相對較小；當正確答案比例較低時，隨機獎勵的負面影響就會放大。實驗結果完美印證了這一預期。

研究團隊還進行了細致的裁剪閾值敏感性分析。他們測試了0.1、0.15和0.2三種不同的裁剪閾值，發(fā)現(xiàn)雖然具體的收斂速度有所不同，但總體的性能改善模式保持一致。這表明觀察到的現(xiàn)象并不依賴于特定的超參數設置。

特別值得注意的是穩(wěn)定性分析的結果。研究團隊為每種設置進行了六次獨立的重復實驗，記錄了性能提升的變異性。結果顯示，能力較強的模型不僅平均性能更好，而且表現(xiàn)出更好的穩(wěn)定性，實驗間的標準差明顯較小。這進一步支持了"模型能力是關鍵調節(jié)因素"的觀點。

在訓練動態(tài)分析方面，研究團隊追蹤了整個訓練過程中策略熵的演化軌跡。他們發(fā)現(xiàn)，無論最終性能如何，所有成功的訓練運行都表現(xiàn)出某種形式的熵調節(jié)：要么是漸進的熵降低（有裁剪情況），要么是適度的熵增加（無裁剪情況）。這種觀察進一步印證了"裁剪作為熵調節(jié)機制"的理論發(fā)現(xiàn)。

結論

說到底，這項研究為我們揭示了AI模型訓練中一個既有趣又實用的現(xiàn)象。研究團隊通過嚴謹的理論分析和大規(guī)模實驗，證明了在特定條件下，看似有害的隨機獎勵確實能夠改善模型的數學推理能力，但這種改善并不來自于我們之前以為的機制。

歸根結底，裁剪技術的作用不是直接提供學習信號，而是在調節(jié)模型輸出的確定性程度。當模型接受隨機獎勵訓練時，裁剪會讓模型變得更加自信和確定，這種變化有時候反而有利于推理表現(xiàn)。同時，模型輸出的隨機性程度本身并不直接決定性能，真正重要的是這種隨機性是否適合當前的任務和模型能力。

這項發(fā)現(xiàn)對AI技術的未來發(fā)展具有重要啟示。它告訴我們，在設計AI訓練方法時，不能簡單地按照人類學習的直覺來思考。有時候，看似不合理的訓練策略可能會產生意想不到的積極效果，但這些效果的機制可能與我們的初始假設完全不同。

對于普通人來說，這項研究最重要的意義在于提醒我們，AI系統(tǒng)的行為往往比我們想象的更加復雜和微妙。當我們聽到某種AI訓練方法"有效"時，應該保持審慎的態(tài)度，深入了解其真實的工作機制，而不是匆忙下結論或盲目應用。

從實際應用角度看，這項研究為AI模型訓練提供了新的思路。訓練者可以根據模型的能力水平和任務難度，選擇合適的訓練策略組合。對于能力較強的模型，適度的隨機性甚至可能是有益的；對于能力較弱的模型，則需要更加仔細地設計訓練信號。

更進一步思考，這項研究也提醒我們注意AI研究中的"表面現(xiàn)象"與"深層機制"的區(qū)別。許多看起來神奇的AI現(xiàn)象可能有著出人意料的簡單解釋，而一些看似簡單的現(xiàn)象背后可能隱藏著復雜的機制。這種認識對于推進AI技術的健康發(fā)展具有重要價值。

最終，這項研究展示了科學研究的魅力：通過質疑常識，挑戰(zhàn)假設，我們能夠發(fā)現(xiàn)事物運作的真正規(guī)律，從而為技術進步開辟新的道路。有興趣深入了解技術細節(jié)的讀者可以通過arXiv:2512.16912v1查閱完整的論文內容。

Q&A

Q1：什么是可驗證獎勵強化學習？

A：可驗證獎勵強化學習是一種專門用于訓練AI模型的方法，特別適用于數學推理等有明確對錯標準的任務。系統(tǒng)會在模型完成整個解題過程后驗證答案是否正確，就像老師批改作業(yè)一樣給出明確的對錯反饋，這種方法已經被用于訓練OpenAI的o1和DeepSeek的R1等先進AI模型。

Q2：為什么隨機獎勵反而能提升AI模型性能？

A：研究發(fā)現(xiàn)這主要與模型的基礎能力有關。對于能力較強的模型，即使接受完全隨機的獎勵，正確答案仍然有更大概率獲得更多凈優(yōu)勢。同時，隨機獎勵會通過裁剪機制降低模型輸出的隨機性，讓模型變得更加自信確定，這種變化有時反而有利于推理表現(xiàn)。

Q3：這項研究對AI技術發(fā)展有什么實際意義？

A：這項研究揭示了AI模型訓練中的一個重要原則：訓練策略的效果高度依賴于模型能力和任務難度的匹配。它為AI訓練提供了新思路，提醒我們不能簡單按照人類學習的直覺來設計AI訓練方法，需要深入理解不同訓練策略的真實工作機制。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.