這項由中國科學院自動化研究所基礎模型研究中心聯合新加坡國立大學、騰訊等機構開展的研究發表于2026年,論文編號為arXiv:2604.02288v1。有興趣深入了解的讀者可以通過該編號查詢完整論文。這項突破性研究解決了一個困擾AI訓練領域的難題:如何讓大型語言模型既能快速學會復雜推理,又能保持長期穩定的學習效果。
![]()
當前的AI訓練就像教學生做數學題,面臨著兩難選擇。傳統的獎勵式訓練方法就像給學生打分數——答對了就給高分,答錯了就給低分。這種方法很穩定,就像一位嚴格但公正的老師,能讓學生穩步提升。但問題是這種方法太粗糙了,就好比老師只會說"這道題做錯了",但不會指出具體哪一步出了問題,學生學習起來自然比較慢。
為了解決這個問題,研究人員開發了一種叫做"自蒸餾"的方法。這就像讓學生自己當老師,在知道正確答案的情況下,重新審視自己的解題過程,逐步糾正每一個細節錯誤。這種方法確實能讓學生快速改進,因為它提供了非常具體的指導——不僅知道哪里錯了,還知道每一步應該怎么做。然而,這種方法有個致命缺陷:隨著訓練時間延長,學生會變得越來越不穩定,甚至出現嚴重的學習倒退。
研究團隊深入分析后發現,自蒸餾方法的不穩定性源于兩個根本問題。首先是"好學生也被過度糾正"的問題。當一個學生已經把題目做對了,卻還要求他按照另一個同樣正確但方法不同的答案來調整自己的解題思路,這就會造成混亂。就像兩個廚師都能做出美味的紅燒肉,但如果強迫一個廚師完全按照另一個廚師的方法來做,反而可能破壞他原本的手藝。
其次是"老師能力下降"的問題。在自蒸餾過程中,AI既是學生也是老師。隨著訓練進行,"學生AI"和"老師AI"的能力差距逐漸縮小,老師提供的指導變得越來越模糊和不確定。這就像一個剛學會開車的人去教另一個新手,指導質量自然會大打折扣。
基于這些洞察,研究團隊提出了一種巧妙的解決方案:樣本路由策略優化方法(SRPO)。這個方法的核心思想是"因材施教"——對于不同類型的學習情況,采用最適合的指導方式。
具體來說,SRPO就像一個智能的學習管理系統。當AI成功解決了一個問題時,系統會使用傳統的獎勵式方法給予鼓勵和強化,就像對優秀學生說"做得很好,繼續保持"。這樣既不會造成混亂,又能穩固正確的學習成果。
但當AI犯錯時,系統會立即切換到詳細的逐步糾錯模式。這時就像請來了一位經驗豐富的老師,不僅告訴學生答案是錯的,還會具體指出每一個步驟的問題所在,并演示正確的解決方法。這種針對性的指導能夠快速幫助AI改正錯誤。
更巧妙的是,研究團隊還開發了一套"信心評估機制"。由于在訓練后期,AI老師的指導質量會下降,系統會自動檢測這些指導的可靠程度。當發現指導內容不夠確定時,系統會降低這些建議的權重;而對于那些明確、可靠的指導,系統會給予更高的重視。這就像學生學會了判斷老師建議的質量,對于模糊不清的建議保持謹慎,對于明確有用的建議重點吸收。
研究團隊在五個不同的基準測試中驗證了這種方法的效果,涵蓋了化學、物理、生物、材料科學和工具使用等多個領域。測試使用了兩種不同規模的AI模型:40億參數和80億參數的Qwen3模型。
實驗結果令人印象深刻。在80億參數的模型上,SRPO方法將平均準確率提升到了77.4%,相比傳統獎勵方法的74.0%提升了3.4個百分點,相比純自蒸餾方法的71.1%提升了6.3個百分點。在40億參數的模型上,改進效果更加顯著,平均準確率達到74.2%,分別比兩種基準方法提升了4.5和7.5個百分點。
更重要的是,SRPO成功地結合了兩種方法的優勢。在訓練初期,它展現出與自蒸餾方法相當的快速學習能力;而在長期訓練中,它保持了傳統獎勵方法的穩定性,避免了性能倒退的問題。
研究還發現了一個有趣的現象:隨著訓練進行,需要詳細糾錯的錯誤樣本逐漸減少,而能夠直接給予獎勵的正確樣本越來越多。這意味著SRPO能夠自動調節兩種學習模式的比重,在早期更多地進行糾錯,在后期更多地進行強化,實現了一種自適應的學習策略。
在計算效率方面,SRPO也表現出色。雖然在訓練初期由于需要更多的詳細指導而稍微增加了計算開銷,但隨著訓練進行,這種開銷逐漸減少。在長期訓練中,SRPO的每步計算時間比傳統方法減少了多達17.2%。
此外,研究團隊還發現SRPO訓練出的AI在回答問題時保持了適中的詳細程度。傳統獎勵方法容易產生過于冗長的答案,而純自蒸餾方法則容易產生過于簡短的答案,這種過度簡化可能會丟失重要的推理步驟。SRPO很好地平衡了這兩個極端,生成的答案既不啰嗦也不過于簡略。
這項研究的意義不僅僅在于技術層面的突破,更在于它提供了一種新的思路來理解AI學習。就像人類教育中需要因材施教一樣,AI訓練也需要根據不同情況采用最合適的方法。SRPO證明了通過智能地組合不同的學習策略,可以獲得比單獨使用任何一種策略更好的效果。
從更廣泛的角度來看,這項研究為未來開發更強大、更可靠的AI系統提供了重要啟示。隨著AI系統變得越來越復雜,如何有效地訓練它們成為了關鍵挑戰。SRPO展示的"智能路由"思想可能會在更多場景中得到應用,幫助我們構建既高效又穩定的AI學習系統。
研究團隊也指出了未來的發展方向。他們希望將這種方法擴展到能夠提供更豐富反饋信息的環境中,讓AI能夠從更多樣化的學習信號中受益。這可能會進一步提升AI的學習效率和最終性能。
說到底,這項研究解決了AI訓練中的一個根本矛盾:快速學習與長期穩定之間的取舍。通過巧妙的設計,研究團隊證明了我們不必在速度和穩定性之間做出選擇,而是可以同時擁有兩者的優勢。這種"既要又要"的解決方案,為AI技術的進一步發展開辟了新的可能性。對于普通人來說,這意味著未來的AI助手將能夠更快地學會新技能,同時保持長期穩定可靠的性能,為我們的日常生活和工作提供更好的支持。有興趣深入了解技術細節的讀者可以通過arXiv:2604.02288v1查詢完整的研究論文。
Q&A
Q1:SRPO方法是如何解決AI訓練中速度和穩定性矛盾的?
A:SRPO采用"因材施教"的策略,對AI做對的題目用傳統獎勵方法鼓勵,對做錯的題目用詳細糾錯方法指導。這樣既保持了快速學習能力,又避免了長期訓練中的不穩定問題,就像給不同水平的學生安排最適合的教學方式。
Q2:樣本路由策略優化方法相比傳統方法提升了多少性能?
A:在五個基準測試中,SRPO將80億參數模型的平均準確率提升到77.4%,比傳統GRPO方法高出3.4個百分點,比自蒸餾SDPO方法高出6.3個百分點。同時還將計算成本降低了17.2%,實現了性能和效率的雙重提升。
Q3:為什么自蒸餾方法在長期訓練中會變得不穩定?
A:自蒸餾方法的不穩定主要源于兩個問題:一是對已經正確的答案進行過度糾正,造成學習混亂;二是隨著訓練進行,AI老師的指導質量逐漸下降,提供的建議越來越模糊不確定,最終導致學習效果倒退。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.