![]()
這項由小紅書公司技術團隊主導的研究成果于2026年2月發表在預印本平臺arXiv上,論文編號為2602.10693v1。該研究針對大語言模型強化學習訓練中的穩定性難題,提出了一種全新的優化算法VESPO,為解決模型訓練過程中的"信息過時"問題提供了創新性解決方案。
想象你正在學習一門新技能,比如學做菜。通常情況下,你會根據最新的菜譜和最新的烹飪技巧來調整自己的手法。但如果你手頭只有一本過時的菜譜,而你又想學會最新的烹飪方法,這時候就會遇到問題。大語言模型在強化學習過程中面臨的挑戰與此非常相似。
在大語言模型的訓練過程中,研究人員經常會遇到一個棘手的問題:模型需要從過去生成的文本中學習,但這些文本是基于舊版本的模型產生的。這就好比一個學生在用昨天的錯誤答案來學習今天的正確方法,結果越學越糊涂。這種現象在技術上被稱為"策略陳舊性",是導致模型訓練不穩定甚至崩潰的主要原因之一。
小紅書的研究團隊發現,現有的解決方案就像給過時信息打補丁,雖然能暫時緩解問題,但缺乏理論基礎,效果也不夠理想。于是他們決定從根本上重新審視這個問題,開發出了一種名為VESPO的新算法。
VESPO的核心思想可以用調色的比喻來理解。當畫家需要調出特定的顏色時,不同顏料的重要性是不同的。有些顏料占主導地位,有些只是起輔助作用。VESPO算法就像一個智能的調色師,它會根據每種"顏料"(訓練數據)的新舊程度和質量,自動調整它們在"調色過程"(模型訓練)中的分量。
傳統的解決方案往往采用簡單粗暴的方式,要么直接丟棄過時的信息,要么對所有信息一視同仁。這就像一個廚師要么扔掉所有昨天的食材,要么把新鮮食材和過期食材混在一起烹飪,結果自然不理想。VESPO則更像一個經驗豐富的大廚,它會根據每種食材的新鮮程度,巧妙地調整用量,讓整道菜的味道達到最佳平衡。
一、從數學原理到實際應用:VESPO的理論基礎
要理解VESPO算法的創新之處,我們需要先了解它解決的核心問題。在大語言模型的訓練過程中,研究人員通常會采用一種叫做"重要性采樣"的技術。這個概念可以用投票來類比:當我們想了解全國人民對某個問題的看法時,如果只能訪問到某個特定地區的人群,我們就需要根據這個地區的特點來調整投票結果的權重,以便推斷出全國的真實情況。
在模型訓練中,"重要性采樣"扮演著類似的角色。當模型從過時的數據中學習時,算法需要知道這些數據與當前模型狀態的匹配程度,然后相應地調整它們在學習過程中的重要性。問題在于,對于長文本序列,這種重要性的計算會變得極其復雜和不穩定。
傳統的解決方案大致分為兩類。第一類是在詞匯層面進行調整,就像給文章中的每個單詞分別貼上重要性標簽。這種方法的問題是,它忽略了單詞之間的相互依賴關系,就好比只看樹葉的顏色而忽略了整棵樹的健康狀態。第二類方法試圖在句子或段落層面進行調整,但往往需要引入長度歸一化,這會帶來新的偏差問題。
VESPO的創新在于提出了一個全新的理論框架。研究團隊將重要性權重的調整問題轉化為一個"變分優化"問題。這聽起來很學術化,但實際上可以用尋找最佳配方的比喻來理解。
假設你是一個調酒師,需要調制一杯完美的雞尾酒。你有多種酒類可以選擇,每種酒都有不同的特點和價格。你的目標是在控制成本的同時,調出最接近理想口味的雞尾酒。VESPO做的事情與此類似:它在保持訓練穩定性(控制成本)的約束下,尋找最優的數據權重配置(調酒配方),使得訓練效果最接近理想狀態。
通過這種變分優化的方法,VESPO能夠自動推導出一個數學上優雅的解決方案。這個解決方案具有兩個關鍵特征:一個冪函數項和一個指數衰減項。冪函數項負責放大重要的信息,而指數衰減項負責抑制過于極端的權重。這種組合就像音響設備中的均衡器,既能增強需要的頻率,又能抑制雜音。
更重要的是,VESPO的解決方案是在序列層面直接工作的,不需要進行長度歸一化。這意味著它能夠保持長文本中單詞之間的相互依賴關系,就像保持一首交響樂中各個樂器之間的和諧配合。
二、實驗驗證:在數學推理任務中的卓越表現
為了驗證VESPO算法的有效性,研究團隊在數學推理任務上進行了大量實驗。他們選擇數學推理作為測試場景并非偶然,因為數學推理需要模型具備邏輯推導能力,對訓練穩定性的要求特別高。這就像測試一個學生的綜合能力,數學題往往是最好的選擇,因為它需要嚴謹的邏輯思維和準確的計算能力。
實驗設置巧妙地模擬了實際應用中的挑戰。研究團隊使用了三個不同規模的模型:Llama-3.2-3B、Qwen3-8B和Qwen3-30B。這些模型就像三個不同年級的學生,從小學生到大學生,用來測試VESPO在不同復雜度下的表現。
在策略陳舊性的測試中,研究團隊創造性地使用了一個叫做"陳舊比例"的指標。他們將訓練數據分成若干個小批次,然后讓模型依次處理這些批次。隨著處理過程的進行,后面的批次相對于當前模型狀態就會變得"陳舊"。這個陳舊比例從4倍一直增加到64倍,就像讓學生用越來越過時的教材來學習最新的知識。
實驗結果令人印象深刻。在所有測試條件下,VESPO都表現出了卓越的穩定性。當陳舊比例達到64倍時,其他算法要么性能急劇下降,要么完全崩潰,而VESPO依然能夠保持穩定的訓練過程和良好的最終性能。這就像一個優秀的學生即使拿到過時的教材,依然能夠學到核心知識并取得好成績。
特別值得注意的是VESPO在混合專家模型上的表現。混合專家模型是一種特殊的模型架構,可以想象成一個由多個專家組成的咨詢團隊。在處理不同問題時,系統會自動選擇最合適的專家來回答。這種架構的優勢是能夠用相對較少的計算資源處理復雜任務,但挑戰在于專家選擇的一致性。在訓練和推理階段,如果專家選擇出現偏差,就會導致嚴重的性能問題。
VESPO在混合專家模型上的表現尤為出色,這主要得益于它對極端權重的軟抑制機制。當某些訓練樣本的重要性權重變得過大時,傳統方法往往采用硬截斷的方式,就像用剪刀直接切斷過長的樹枝。這種做法雖然簡單,但容易造成信息的突然丟失。VESPO則采用漸進式的抑制方法,就像用柔軟的繩子逐漸引導樹枝生長方向,既保持了信息的連續性,又避免了極端情況。
研究團隊還測試了完全異步訓練的場景。在這種設置下,數據生成和模型訓練是完全分離的,就像一個工廠的生產線和質檢部門分別在不同的地方工作。數據生成使用的是舊版本的模型,而模型訓練則基于最新的參數。這種設置下的陳舊性問題更加嚴重,因為陳舊程度是不可預測和動態變化的。
在異步訓練實驗中,VESPO再次展現出了出色的適應能力。其他算法在面對這種不確定性時往往表現不穩定,訓練曲線出現劇烈波動,有些甚至出現訓練崩潰的情況。而VESPO的訓練曲線始終平滑穩定,就像一個經驗豐富的船長在波濤洶涌的海面上依然能夠穩定掌舵。
三、技術細節:算法設計的精妙之處
VESPO算法的技術實現體現了研究團隊的深厚功底。算法的核心是一個重塑核函數,其數學形式為W^c1 × exp(c2(1-W))。這個公式看起來抽象,但它的設計思想非常直觀。
W代表重要性權重,反映了訓練樣本與當前模型狀態的匹配程度。當W接近1時,說明樣本與當前狀態高度匹配;當W偏離1時,說明存在不匹配的情況。c1和c2是兩個可調參數,分別控制冪函數和指數函數的強度。
這個公式的巧妙之處在于它的自適應特性。當W接近1時,重塑函數的值也接近1,對原始權重幾乎不做修改。這就像一個溫和的老師對表現良好的學生不會過多干預。當W顯著偏離1時,指數項開始發揮作用,對權重進行平滑的抑制。這種抑制不是突然的截斷,而是漸進的調整,保持了訓練過程的連續性。
研究團隊還發現,對于正向和負向的優勢樣本,需要使用不同的參數設置。這個發現來自于對訓練動態的深入分析。正向優勢樣本是那些表現好于平均水平的樣本,負向優勢樣本則相反。兩類樣本在訓練過程中扮演不同的角色,因此需要差異化的處理策略。
對于正向優勢樣本,算法傾向于保留更多的學習信號,因為這些樣本代表了模型應該強化的行為。對于負向優勢樣本,算法則更謹慎,特別是當這些樣本來自陳舊的策略時,需要更強的抑制以避免誤導訓練過程。這種不對稱的處理方式體現了算法設計的精細化程度。
從實現角度來看,VESPO具有優秀的數值穩定性。所有計算都在對數空間進行,避免了指數運算可能導致的數值溢出問題。這就像在處理天文數字時使用科學計數法一樣,保證了計算的精確性和穩定性。
算法的內存開銷也得到了很好的控制。與一些需要額外存儲歷史信息的方法不同,VESPO只需要存儲當前和行為策略的對數概率,內存需求與標準的重要性采樣方法相當。這使得它能夠輕松應用于大規模模型的訓練。
四、與現有方法的對比:優勢何在
為了更好地理解VESPO的創新性,研究團隊將其與三種主流方法進行了詳細對比。這三種方法分別代表了當前解決策略陳舊性問題的不同思路。
第一種是GRPO方法,它采用詞匯級別的重要性調整。這種方法的思路是為文本中的每個單詞分別計算重要性權重,然后使用類似PPO的截斷策略來控制權重的范圍。這種方法的優點是簡單直接,容易理解和實現。但缺點是破壞了句子層面的語義連貫性,就像把一幅畫拆散成單獨的顏色點來處理一樣。
實驗結果顯示,GRPO在面對高陳舊比例時容易出現訓練飽和的問題。訓練獎勵在達到某個水平后就停止增長,無法進一步提升。這種現象的根本原因是詞匯級別的處理丟失了長程依賴信息,限制了模型學習復雜模式的能力。
第二種是GSPO方法,它嘗試在序列級別進行處理,但引入了長度歸一化。具體來說,它使用幾何平均值來計算序列級別的重要性權重,即將所有單詞的重要性權重相乘后開T次方根,其中T是序列長度。這種做法的初衷是控制權重的方差,避免長序列帶來的不穩定性。
然而,長度歸一化引入了新的偏差問題。研究團隊通過理論分析證明,這種歸一化會導致相同平均質量但不同長度的序列獲得相同的重要性權重,這在數學上是不合理的。實驗中,GSPO在某些條件下出現了災難性的訓練崩潰,特別是當陳舊比例為4時,訓練獎勵在1200步左右突然降為零。
第三種是SAPO方法,它使用自適應門控機制來調整重要性權重。這種方法試圖通過學習一個門控函數來動態決定每個樣本的重要性。理論上,這種自適應機制應該能夠更好地處理復雜的訓練場景。
但實驗結果表明,SAPO的穩定性最差。在陳舊比例較低時,它還能維持基本的訓練效果,但隨著陳舊比例增加,訓練過程變得極不穩定,經常出現完全崩潰的情況。分析發現,SAPO對負優勢樣本的處理不夠恰當,容易導致訓練過程中的正反饋循環被破壞。
相比之下,VESPO在所有測試條件下都表現出了出色的穩定性和性能。它成功地結合了序列級別處理的優勢和軟截斷的穩定性,在不引入長度偏差的前提下有效控制了權重的方差。更重要的是,VESPO的性能隨著陳舊比例的增加幾乎沒有顯著下降,這在實際應用中具有重要價值。
五、實際應用價值:解決現實世界的挑戰
VESPO算法的價值不僅體現在理論創新上,更重要的是它解決了大語言模型訓練中的實際問題。在現實世界的應用中,策略陳舊性幾乎是不可避免的。
在大規模模型訓練中,研究團隊通常會將一個大的訓練批次分解成多個小批次來處理,這是由計算資源和內存限制決定的。隨著處理過程的進行,后面的小批次基于的模型參數已經過時,這就產生了策略陳舊性。VESPO能夠有效處理這種陳舊性,使得大批次訓練變得更加穩定可靠。
異步訓練是另一個重要的應用場景。在分布式訓練環境中,數據生成和模型更新往往在不同的節點上進行,兩者之間存在天然的時間差。這種異步性能夠提高系統的吞吐量和資源利用效率,但也帶來了策略陳舊性的挑戰。VESPO在異步訓練場景下的出色表現為大規模分布式訓練提供了新的可能性。
訓練與推理引擎之間的不匹配是第三個重要場景。在實際部署中,訓練和推理往往使用不同的軟件框架和優化策略。這些差異會導致相同的模型參數在不同環境下產生微妙的輸出差異。對于混合專家模型來說,這種差異會因為專家選擇的不一致而放大。VESPO的軟抑制機制能夠很好地處理這類不匹配問題。
研究團隊還探索了VESPO與其他技術的結合。他們發現VESPO可以與路由重放技術相結合,進一步提升在混合專家模型上的性能。路由重放是一種確保訓練和推理階段專家選擇一致性的技術,而VESPO的加入使得這種一致性的維護變得更加穩定。
從工程實現的角度來看,VESPO具有良好的易用性。它不需要修改現有的訓練框架,只需要在計算策略梯度時替換重要性權重的計算方法即可。這種即插即用的特性大大降低了算法的部署門檻。
六、未來展望:技術演進的方向
VESPO算法的成功為大語言模型訓練開辟了新的研究方向。研究團隊在論文中提出了幾個值得繼續探索的領域。
首先是擴展到更大規模的異步集群。當前的實驗主要在中等規模的分布式環境中進行,未來的挑戰是如何將VESPO應用到擁有數千個節點的超大規模訓練集群中。在這種規模下,策略陳舊性的復雜度會進一步增加,需要更精細的處理策略。
其次是智能體強化學習的應用。目前的實驗主要集中在文本生成任務上,但大語言模型正在向多輪對話和工具使用等更復雜的智能體行為發展。在這些場景中,模型需要處理長期的行動序列和復雜的獎勵信號,VESPO的序列級別處理優勢可能會發揮更大的作用。
第三個方向是在線策略蒸餾和離線訓練。隨著模型規模的增長,直接訓練變得越來越昂貴。一種可能的解決方案是使用大模型生成訓練數據,然后用這些數據訓練較小的模型。VESPO的重要性權重調整機制可能在這種蒸餾過程中發揮重要作用。
從理論角度來看,研究團隊還在探索VESPO的數學性質。他們希望建立更嚴格的收斂性保證和性能邊界,為算法的進一步優化提供理論指導。同時,他們也在研究如何將變分優化的框架擴展到其他機器學習問題中。
在實際應用中,一個重要的方向是自適應超參數調整。目前VESPO需要手工設置c1和c2參數,雖然算法對這些參數相對不敏感,但自動調整仍然是一個有價值的研究方向。通過在線監測訓練狀態并動態調整參數,可能進一步提升算法的性能和易用性。
說到底,VESPO算法代表了大語言模型訓練技術的一個重要進步。它不僅解決了策略陳舊性這個長期困擾研究者的問題,更重要的是提供了一個優雅的理論框架來處理復雜的權重調整問題。隨著大語言模型在各個領域的廣泛應用,穩定可靠的訓練算法變得越來越重要。VESPO為這一領域的發展提供了新的工具和思路,有望推動更強大、更穩定的人工智能系統的誕生。對于那些希望深入了解這項技術細節的讀者,可以通過論文編號arXiv:2602.10693v1查詢完整的研究報告。
Q&A
Q1:VESPO算法主要解決什么問題?
A:VESPO主要解決大語言模型強化學習訓練中的"策略陳舊性"問題。簡單來說,就是當模型需要從過時的訓練數據中學習時,如何避免訓練不穩定甚至崩潰的問題。這種情況在實際應用中很常見,比如分批處理大量訓練數據時,后面的批次基于的模型參數已經過時了。
Q2:VESPO相比傳統方法有什么優勢?
A:VESPO的主要優勢在于它能在序列層面直接處理重要性權重,不需要長度歸一化,避免了傳統方法的偏差問題。它使用軟抑制機制而不是硬截斷,保持了訓練過程的平滑性。實驗顯示,即使在64倍陳舊比例的極端條件下,VESPO依然能保持穩定訓練,而其他方法往往會出現性能下降或崩潰。
Q3:普通開發者如何使用VESPO算法?
A:VESPO具有很好的易用性,不需要修改現有的訓練框架。開發者只需要在計算策略梯度時,將傳統的重要性權重計算方法替換為VESPO的重塑核函數即可。算法提供了完整的偽代碼實現,支持即插即用的部署方式,大大降低了使用門檻。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.