網易首頁 > 網易號 > 正文申請入駐

中科院與小紅書聯合破解AI推理難題：讓機器像人一樣能探索驗證

2025-12-22 22:36:07　來源: 至頂AI實驗室

北京舉報

分享至

這項由中國科學院大學軟件研究所的溫學茹、劉彥江、林宏宇等研究人員，聯合小紅書公司的樓杰、張德兵等專家共同完成的研究，發表于2025年12月的arXiv預印本平臺（論文編號arXiv:2512.12576v1），為解決大型語言模型的推理訓練難題提出了全新的解決方案。有興趣深入了解技術細節的讀者可以通過該論文編號查詢完整研究內容。

當我們面對一道復雜的數學題時，通常會采用兩種截然不同的策略。有時候，我們會先仔細分析題目，然后一步步推導出答案，這就像一個偵探從線索開始逐步破案。但另一些時候，如果我們已經知道答案或者有了大致方向，我們會反過來驗證這個答案是否正確，就像從結論倒推論證過程。

目前的AI系統在學習推理時面臨著類似的選擇困境，但它們往往只能采用其中一種策略，這就像是讓一個學生只能用一種方法解題一樣，效率自然不夠理想。現有的強化學習方法雖然在數學推理等可驗證的任務中表現出色，但它們依賴于外部驗證器來判斷答案的正確性。當涉及到無法輕易驗證答案的復雜推理任務時，這些方法就顯得力不從心了。

為了解決這個問題，近期出現了一些"無驗證器"的強化學習方法，它們不再依賴外部判斷，而是利用AI模型自身對正確答案的預測概率作為獎勵信號。這種方法可以比喻為讓學生自己評估答案的可信度。然而，這些方法通常只從問題開始生成推理過程，就像總是要求學生從頭開始解題，而不允許他們從已知答案驗證推理過程。這種單一的訓練方式導致了兩個關鍵問題：一是探索效率低下，特別是在面對困難問題時，模型很難找到有用的推理路徑；二是推理過程與最終答案之間可能出現不一致，即使推理邏輯正確，但由于答案格式不匹配等原因，仍然可能得到較低的獎勵。

面對這樣的挑戰，研究團隊提出了一個名為"耦合變分強化學習"（CoVRL）的創新框架。這個方法的核心思想是將變分推理和強化學習巧妙地結合起來，通過混合采樣策略同時利用"先驗分布"和"后驗分布"這兩種互補的生成模式。

為了更好地理解這個概念，我們可以把AI的推理學習過程比作學習烹飪。傳統的方法就像只教學生按照食譜一步步做菜（先驗分布），而不告訴他們最終菜品應該是什么樣子。而研究團隊的新方法則是既教學生按食譜做菜，又讓他們從成功的菜品反推制作過程（后驗分布）。通過這種雙重訓練，學生不僅學會了基本的烹飪步驟，還理解了不同步驟與最終成果之間的關聯。

具體來說，這個框架構建了一個"復合分布"，將問題導向的先驗分布和答案導向的后驗分布有機結合。先驗分布對應于現實推理條件，即只根據問題生成推理過程；而后驗分布則利用答案信息，生成更加連貫和準確的推理路徑。這種雙模式策略在訓練期間提供答案指導，同時確保學到的推理模式能夠有效遷移到實際推理場景中。

在實際實施過程中，由于直接從復合分布采樣在計算上比較復雜，研究團隊采用了一種混合采樣策略。他們為每個訓練樣本隨機選擇使用先驗分布還是后驗分布，然后通過最大化變分下界來進行優化。這個下界包含一個重建項（用于答案預測）和一個正則化項（確保遷移性）。通過重要性加權技術，他們能夠使用同一個底層語言模型在不同的提示模板下進行無縫訓練。

為了處理KL散度這一關鍵的正則化組件，研究團隊擴展了現有的低方差KL估計器，使其適用于復合分布設置。他們根據采樣分布的不同，推導出不同的估計器形式，并通過Bregman散度控制變量來減少估計方差。這種技術處理確保了訓練過程的穩定性和可靠性。

在實驗設計方面，研究團隊使用了從WebInstruct數據集中篩選出的非數學問題數據，以評估算法在一般推理能力方面的改進效果。他們沒有進行額外的數據過濾，以評估算法在不同問題類型、難度水平和質量變化中的魯棒性。實驗主要基于Qwen2.5-7B-Base模型進行，直接在基礎模型上進行微調，而沒有中間的監督微調階段。

與其他無驗證器方法的對比實驗結果顯示，CoVRL在綜合性能上取得了顯著提升。在包括數學推理和一般推理在內的多個基準測試中，該方法相比基礎模型實現了12.4%的性能提升，并且相比最強的基線方法額外獲得了2.3%的改進。值得注意的是，盡管訓練時使用的是非數學問題，但該方法在數學推理任務上也表現出了實質性的提升，這證明了通過多樣化問題解決學習到的一般推理能力可以有效遷移，突顯了一般推理技能發展的價值。

訓練動態分析揭示了幾個重要發現。首先，后驗分布在提供指導方面非常有效，在整個訓練過程中始終保持比先驗分布更高的獎勵分數，這證實了答案導向采樣策略的有效性，并確認后驗采樣能夠更高效地探索高質量推理路徑。其次，CoVRL通過延長的思維鏈追蹤提升了推理能力，響應長度的穩定增加表明模型逐漸生成更詳細的推理過程，這種趨勢表明CoVRL成功地鼓勵了詳盡的逐步解釋。此外，正則化提供了穩定的優化動態，NLL和KL損失的穩定下降趨勢表明改進的答案預測和成功的正則化，確認了變分目標有效地平衡了重建和正則化項。

關于混合采樣策略的影響，研究團隊通過改變先驗分布和后驗分布之間的混合比例進行了深入分析。結果表明，低先驗采樣概率（α=0.1）的表現優于高先驗采樣概率（α=0.9），這突顯了后驗分布在算法中的重要作用。當先驗采樣占主導時，模型主要從先驗分布采樣，響應推理鏈長度會減少。這是因為在改善獎勵方面存在困難，導致模型優先考慮最小化KL損失并生成更短的序列。相比之下，當后驗采樣占主導時，推理鏈長度增加，后驗主導的采樣比先驗主導的采樣取得更好的性能。然而，由于訓練-推理不匹配，性能仍然不如平衡采樣。

進一步的實驗表明，CoVRL在不同基礎模型上都表現出了魯棒性。研究團隊在Qwen2.5和Qwen3基礎模型上進行了評估，模型參數從7B到14B不等。結果顯示，CoVRL在所有測試模型上都帶來了一致的性能改進，證明了其在不同模型架構中的魯棒性。同時，針對不同訓練數據組成的評估結果表明，僅在數學數據上訓練的模型在非數學推理任務上表現出增強的性能，類似地，僅在非數學數據上訓練的模型在數學任務上也有改進。這表明該方法使模型能夠獲得可在不同領域間遷移的通用推理能力。

在損失組件的影響分析中，研究團隊發現KL正則化對于維持訓練穩定性至關重要。當KL散度系數降低到0.1時，所有基準測試的性能都顯著下降，總體準確率降至27.4%。這種性能下降源于KL正則化不足時的訓練不穩定性，在訓練過程中觀察到KL散度的大幅增加，表明先驗和后驗分布之間存在顯著偏差。這導致了訓練-推理不匹配問題和訓練不穩定性，因為實際上是在進行離策略優化，訓練和推理之間的分布偏移不斷增加。

相比之下，模型對NLL損失系數的變化似乎不太敏感。當NLL系數降低到0.1時，性能適度下降至44.7%。研究團隊將這種韌性歸因于RL項和NLL損失本質上優化相同的目標，兩者都旨在改善答案預測質量。NLL損失主要訓練模型總結推理和產生最終答案的能力。

關于獎勵函數配方的研究表明，所有獎勵配方都實現了非常相似的總體性能，變化不到1個百分點（49.7%到50.6%）。這種一致性表明CoVRL框架對各種獎勵配方都具有魯棒性，無論是在長度標準化方面比較序列長度平均與非標準化概率和，還是在對數變換方面檢查是否使用對數概率或原始概率作為獎勵信號。

說到底，這項研究為AI推理訓練開辟了一條全新的道路。通過巧妙地結合探索性學習和驗證性學習兩種模式，CoVRL框架不僅解決了現有方法的關鍵限制，還在多個基準測試中取得了令人矚目的性能提升。這種方法的成功不僅體現在數字上的改進，更重要的是它展示了一種更加自然、更加符合人類學習規律的AI訓練方式。

歸根結底，這項技術的意義遠超出學術研究的范疇。隨著大型語言模型在日常生活中的應用越來越廣泛，從智能助手到教育工具，從內容創作到決策支持，更強的推理能力意味著這些AI系統能夠更好地理解和解決復雜問題，為人們提供更可靠、更有價值的幫助。當AI能夠像人類一樣既善于探索未知又善于驗證已知時，我們或許正在見證人工智能向真正的智能化邁出的重要一步。對于那些關注AI技術發展趨勢的讀者來說，這項研究無疑提供了一個值得深思的新方向：未來的AI系統可能不再是單一模式的問題解決者，而是能夠靈活運用多種思維方式的智能伙伴。

Q&A

Q1：什么是耦合變分強化學習CoVRL？

A：CoVRL是中科院和小紅書聯合開發的AI訓練新方法，它讓AI既能從問題開始探索推理過程，又能從答案反推驗證思路，就像讓學生既會從頭解題又會驗算一樣，這種雙重訓練模式大大提高了AI的推理能力。

Q2：CoVRL相比傳統方法有什么優勢？

A：傳統方法只能單向解題，效率不高且容易出現推理與答案不匹配的問題。CoVRL通過混合兩種學習模式，解決了探索效率低和推理一致性差的問題，在實驗中相比基礎模型提升了12.4%的性能，比最強基線方法額外提升2.3%。

Q3：這項技術對普通人有什么影響？

A：隨著AI推理能力的提升，未來的智能助手、教育工具和決策支持系統將變得更可靠和有用。這意味著AI能更好地理解復雜問題，為我們在工作、學習和生活中提供更準確的幫助和建議。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.