大模型的后訓練對齊正經歷一場從依賴人類偏好反饋到可驗證獎勵強化學習的轉變。
4月7日,阿里巴巴通義實驗室智能計算團隊發布了新算法FIPO(Future-KL Influenced Policy Optimization),試圖解決純強化學習訓練中一個長期存在的痛點,即模型在嘗試延長推理過程時往往會陷入長度停滯。
在AI行業普遍將強化學習視為釋放模型推理潛力的關鍵手段之際,這種嘗試究竟能帶來多大突破,值得審視。
當前主流的對齊算法如GRPO普遍采用基于結果的獎勵機制,將全局獎勵平均分配給推理軌跡中的每一個Token。這種做法導致模型難以區分關鍵邏輯決策點與普通填充性內容,信用分配過于粗放。
通義團隊認為這設定了性能上限。FIPO的核心改動在于引入Future-KL機制,即通過計算折扣的未來KL散度來量化每個Token對后續推理軌跡的影響,從而構建稠密優勢表述,實現對關鍵Token的差異化獎勵分配。
這種思路實質上是在GRPO框架內引入了類似PPO中的細粒度優勢估計,但避開了后者需要維護Critic模型的額外開銷。
從實驗結果看,在Qwen2.5-32B-Base模型上,FIPO將平均思維鏈長度從約4000個Token擴展到超過10000個Token,在AIME 2024數學測試中Pass@1準確率從50.0%提升至峰值58.0%。
團隊宣稱這是首個在32B參數規模純強化學習設置下性能超越o1-mini和同規模DeepSeek-Zero-MATH的開源方案。
不過FIPO的優勢場景目前主要集中在數學推理這類結果可嚴格驗證的任務上。
對于開放性問答、創意寫作等難以定義明確正確答案的通用場景,其Future-KL機制能否同樣有效,通義團隊尚未給出充分論證。這恰好是PPO和DPO等經典方法在RLHF框架中更擅長處理的領域。
行業內的其他玩家也在沿著類似方向推進。騰訊混元團隊近期開源了面向世界模型的強化學習后訓練框架WorldCompass,側重長時序交互場景中的指令遵循與視覺一致性。
字節跳動聯合多所高校提出的R2M框架則嘗試解決獎勵模型與生成模型之間的同步偏差問題。
可以說,大模型對齊領域的競爭焦點正從簡單的模型參數規模比拼轉向推理質量的精細化打磨。
通義團隊在發布FIPO的同時,開源了相關論文、代碼和模型,這在算法快速迭代的當下降低了技術復現的門檻。
但一個根本問題依然存在,在數學等封閉式任務上驗證有效的方法,遷移到更開放、更接近真實人類交互的通用場景時,還能保持同樣的效果嗎?答案可能要等到更多第三方驗證后才能揭曉。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.