網易首頁 > 網易號 > 正文申請入駐

阿里通義發布FIPO算法，推理長度瓶頸能否被真正打破？

2026-04-08 11:41:08　來源: i黑馬

北京舉報

分享至

大模型的后訓練對齊正經歷一場從依賴人類偏好反饋到可驗證獎勵強化學習的轉變。

4月7日，阿里巴巴通義實驗室智能計算團隊發布了新算法FIPO（Future-KL Influenced Policy Optimization），試圖解決純強化學習訓練中一個長期存在的痛點，即模型在嘗試延長推理過程時往往會陷入長度停滯。

在AI行業普遍將強化學習視為釋放模型推理潛力的關鍵手段之際，這種嘗試究竟能帶來多大突破，值得審視。

當前主流的對齊算法如GRPO普遍采用基于結果的獎勵機制，將全局獎勵平均分配給推理軌跡中的每一個Token。這種做法導致模型難以區分關鍵邏輯決策點與普通填充性內容，信用分配過于粗放。

通義團隊認為這設定了性能上限。FIPO的核心改動在于引入Future-KL機制，即通過計算折扣的未來KL散度來量化每個Token對后續推理軌跡的影響，從而構建稠密優勢表述，實現對關鍵Token的差異化獎勵分配。

這種思路實質上是在GRPO框架內引入了類似PPO中的細粒度優勢估計，但避開了后者需要維護Critic模型的額外開銷。

從實驗結果看，在Qwen2.5-32B-Base模型上，FIPO將平均思維鏈長度從約4000個Token擴展到超過10000個Token，在AIME 2024數學測試中Pass@1準確率從50.0%提升至峰值58.0%。

團隊宣稱這是首個在32B參數規模純強化學習設置下性能超越o1-mini和同規模DeepSeek-Zero-MATH的開源方案。

不過FIPO的優勢場景目前主要集中在數學推理這類結果可嚴格驗證的任務上。

對于開放性問答、創意寫作等難以定義明確正確答案的通用場景，其Future-KL機制能否同樣有效，通義團隊尚未給出充分論證。這恰好是PPO和DPO等經典方法在RLHF框架中更擅長處理的領域。

行業內的其他玩家也在沿著類似方向推進。騰訊混元團隊近期開源了面向世界模型的強化學習后訓練框架WorldCompass，側重長時序交互場景中的指令遵循與視覺一致性。

字節跳動聯合多所高校提出的R2M框架則嘗試解決獎勵模型與生成模型之間的同步偏差問題。

可以說，大模型對齊領域的競爭焦點正從簡單的模型參數規模比拼轉向推理質量的精細化打磨。

通義團隊在發布FIPO的同時，開源了相關論文、代碼和模型，這在算法快速迭代的當下降低了技術復現的門檻。

但一個根本問題依然存在，在數學等封閉式任務上驗證有效的方法，遷移到更開放、更接近真實人類交互的通用場景時，還能保持同樣的效果嗎？答案可能要等到更多第三方驗證后才能揭曉。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

2026年，大模型訓練的下半場屬于「強化學習云」

機器之心Pro 2026-01-12 14:03:47
0 跟貼 0
AGILE：自監督+交互式強化學習助力VLMs感知與推理全面提升

機器之心Pro 2025-10-20 18:30:03
0 跟貼 0

讓離線強化學習從「局部描摹」變「全局布局」丨ICLR'26

量子位 2026-04-06 13:33:32
0 跟貼 0

阿里內測大模型屠榜，被稱最強視頻生成模型

每日經濟新聞 2026-04-11 01:31:48
0 跟貼 0
CVPR 2026 | 20步也能穩住畫質，這個擴散加速方法不一樣

機器之心Pro 2026-04-10 18:40:17
0 跟貼 0

對話自變量CTO王昊：在具身智能的“無人區” 探索端到端大模型的終極形態|連線創始人

財聯社 2026-04-10 20:46:16
0 跟貼 0

超越人手！中國第一家腦機接口獨角獸，要把仿生手帶給機器人

量子位 2026-04-12 14:25:29
0 跟貼 0
LeCun點贊：國產開源模型占領硅谷，性價比超10倍

量子位 2026-04-10 16:19:35
1 跟貼 1

OpenAI也開始恐懼自己訓練出的新模型了

新智元 2026-04-12 18:44:46
0 跟貼 0
AI玩具賽道迎質變：模型“套殼”局限未來一兩年有望解決，智能體研發加速

財聯社 2026-04-12 20:18:08
0 跟貼 0
中國具身屠榜全球！10萬小時數據炸場，PI、英偉達集體破防

新智元 2026-04-12 10:02:42
0 跟貼 0
麥肯錫：90%的被調研企業啟動AI轉型，僅10%實現規模化應用

經濟觀察報 2026-04-12 20:04:06
0 跟貼 0
馬云的奇幻漂流：斷臂2023（中）

飯統戴老板 2025-10-17 10:36:14
1 跟貼 1
阿里不止一匹“快樂馬”

鈦媒體APP 2026-04-11 10:20:11
3 跟貼 3
奇怪的數學答案

云川剪影 2026-04-11 08:33:32
2 跟貼 2
小學數學求陰影部分面積對角線有妙用

天天數理學習分享 2026-04-11 10:41:59
5 跟貼 5
133趣味數學智力題，去掉頭和尾，求這個數

我服子佩 2026-04-12 17:48:31
3 跟貼 3
088小學數學經典題目，小數與分數的轉化

我服子佩 2026-04-09 13:43:13
1 跟貼 1
080小學數學問題，拆分一個分數成為兩個倒數之差

我服子佩 2026-04-08 17:30:06
1 跟貼 1
警惕！日本某些勢力“定制”AI反華視頻，用算法“加持”仇恨（來源：鈞正平）

學申論的談妹 2026-04-11 03:22:48
0 跟貼 0
105小學數學趣味數學，小升初數學，求一個數比4大但是比7小

我服子佩 2026-04-10 21:44:14
1 跟貼 1
120初中數學中考常見題型，雙重根式的化簡

我服子佩 2026-04-11 21:26:34
1 跟貼 1
張雪峰被“復活”沖上熱搜！

萌兔音樂吧 2026-04-10 15:48:51
2 跟貼 2
初中數學數學代數式求值從問題出發

天天數理學習分享 2026-04-12 11:57:33
2 跟貼 2
VinciCoder：多模態統一代碼生成框架和視覺反饋強化學習

機器之心Pro 2025-11-17 14:12:38
0 跟貼 0
馬斯克用Grok替代X員工，裁員90%

量子位 2025-11-29 16:58:47
26 跟貼 26
六年級奧數題，三階幻方，尖子生被難哭

大力小學數學 2026-04-08 05:36:00
0 跟貼 0
118中考數學必考題，分母有理化，根式化簡題目

我服子佩 2026-04-11 21:25:59
4 跟貼 4
十項促進兩岸交流合作的政策措施發布

新華社 2026-04-12 10:04:38
1094 跟貼 1094
人類首例“被恐龍咬傷事件”！男子把頭伸進恐龍模型里被卡住，當事人：沒想到它會不松口大家別跟我學 #

開屏新聞客戶端 2026-04-11 18:04:45
3 跟貼 3
13683年中考題：明明是3分的送分題，這也能錯一大片

我服子佩 2026-04-12 17:49:32
1 跟貼 1
110中考數學真題，給出一個圓方程求變量之和的最大值

我服子佩 2026-04-10 21:46:48
1 跟貼 1
小學奧數培優專題等差數列的應用，注意對于基本性質的了解要透徹

唐老師小課堂 2026-04-08 13:23:16
4 跟貼 4
中考填空壓軸題，求x與y，方法絕了

大力小學數學 2026-04-11 06:15:00
0 跟貼 0
考試總吃鴨蛋的學渣，居然是數學天才

笑笑來看劇 2026-04-10 10:48:18
1 跟貼 1
天才爸爸為女兒湊學費，憑借數學公式橫掃賭場

圖圖看熱劇 2026-04-08 10:18:32
1 跟貼 1
HappyHorse目前正處于內測中，將于近期開放API

每日經濟新聞 2026-04-11 01:31:48
0 跟貼 0
數學還可以這樣玩？這些幾何變換技巧太實用了！

秒懂奧數李菁老師 2026-04-11 17:05:38
6 跟貼 6
一年級壓軸題，全班都不會

大力小學數學 2026-04-11 05:14:00
1 跟貼 1
沒有比數學更有趣的了吧!

星星世界觀 2026-04-10 13:18:43
1 跟貼 1

手機 / 數碼

房產 / 家居

阿里通義發布FIPO算法，推理長度瓶頸能否被真正打破？

理想稱遭惡意拉踩，東風日產：尊重同行

上海阿婆被"干兒子"分80次轉走95萬氣癱 畢生積蓄沒了

上海阿婆被"干兒子"分80次轉走95萬氣癱 畢生積蓄沒了

創造歷史！五大聯賽首位女性主教練誕生

賭王女兒何超蕸病逝，常年和乳癌斗爭

美伊談判破裂的三大癥結

煥新極氪007/007GT上市 限時19.39萬起

態度原創

12噸巧克力有難，全網化身超級偵探添亂

秀美風光匯成“海”，北京密云發布城市新名片

殯葬新規落地，小區里的“骨灰房”真能絕跡嗎？

臺灣票房第一，讓人邊哭邊罵？

難哭學霸的思維題，家長都不會做

上海阿婆被"干兒子"分80次轉走95萬氣癱畢生積蓄沒了

上海阿婆被"干兒子"分80次轉走95萬氣癱畢生積蓄沒了

煥新極氪007/007GT上市限時19.39萬起