網易首頁 > 網易號 > 正文申請入駐

AdaGen: 讓圖像生成模型學會自適應策略

2026-04-13 15:47:03　來源: 機器之心Pro

河北舉報

分享至

當前主流的圖像生成模型——擴散模型（如 DiT）、自回歸模型（如 VAR）、掩碼生成模型（如 MaskGIT）、流模型（如 SiT）——都遵循一個共同范式：將復雜的圖像生成任務拆解為多個可控的子步驟，逐步迭代完成。然而，這種多步策略引入了一個不可忽視的問題：每一步都需配置大量超參數（如噪聲水平、采樣溫度、引導尺度等），而現有方法普遍依賴手工設計的靜態調度規則來管理這些參數。

這種做法存在兩個重要缺陷：一是需要大量專家知識和反復調參，二是"一刀切"的靜態策略無法適配每個樣本的獨特特性。

本文提出AdaGen——一個通用的、可學習的、樣本自適應的生成策略框架。通過強化學習訓練一個輕量級策略網絡，AdaGen 能根據當前生成狀態自動為每個樣本定制最優的生成策略，在四大主流生成范式上均實現了顯著的性能提升與效率優化。

論文標題：
AdaGen: Learning Adaptive Policy for Image Synthesis
論文鏈接：
https://arxiv.org/abs/2603.06993
論文代碼：
https://github.com/LeapLabTHU/AdaGen

核心動機：從"靜態一刀切"到"動態因材施教"

圖：AdaGen的核心思想。現有方法使用預定義的靜態策略，所有樣本共享相同調度規則；AdaGen則通過RL訓練的策略網絡，為每個樣本自適應地產生定制化的生成策略。

現有的多步生成模型在推理時，所有樣本共享同一套預定義的調度規則。以 MaskGIT 為例，即使生成步數為 T = 16，也需要配置 64 個策略參數（每步 4 個參數），實際操作中極度依賴人工經驗。更關鍵的是，一張簡單的風景圖和一張復雜的人物肖像，真的應該用完全相同的生成策略嗎？

AdaGen 的核心思想非常直觀：引入一個通過強化學習訓練的策略網絡（Policy Network），讓它觀察當前的生成狀態，自動且自適應地為每個樣本決定最優的生成參數。

統一 MDP 建模：一個框架統一四大生成范式

狀態轉移 (Transition)：由預訓練的生成模型決定。擴散模型和流模型的轉移由 ODE 求解器確定，是確定性的；MaskGIT 和自回歸模型的轉移則是隨機的。

對抗獎勵建模：不讓策略"投機取巧"

訓練策略網絡的另一個核心挑戰在于：如何設計有效的獎勵信號？論文探索了三種方案，揭示了一個重要發現：

圖：三種獎勵設計的對比。(a) 用FID作獎勵：FID雖低至2.56，但圖像質量差，保真度不達標；(b) 用預訓練獎勵模型：保真度好了但樣本多樣性嚴重不足；(c) AdaGen的對抗獎勵建模：保真度與多樣性兼顧。

(a) 用 FID 作獎勵：雖然 FID 數值可以被優化到很低（2.56），但生成圖像的視覺質量反而很差。策略網絡學會了"刷"指標的捷徑，犧牲了視覺保真度。

(b) 用預訓練獎勵模型：保真度上去了，但生成樣本趨于同質化，多樣性嚴重不足。策略過擬合于獎勵模型的偏好。

(c) 對抗獎勵建模（AdaGen 的方案）：引入一個判別器作為獎勵模型，與策略網絡進行對抗訓練。策略網絡試圖最大化獎勵，而判別器則不斷提高區分真假圖像的標準，有效防止策略過擬合。最終實現了保真度與多樣性的良好平衡。

圖：AdaGen的訓練流程。策略網絡控制生成過程產生圖像，對抗獎勵模型同時評估生成結果并不斷自我進化。預訓練生成模型在整個過程中保持凍結。

訓練算法簡潔優雅，核心循環僅包含兩步：(1) 策略網絡優化：生成圖像，用 PPO 算法更新策略網絡使獎勵最大化；(2) 獎勵模型優化：同時采樣真實和生成圖像，訓練判別器更好地區分兩者。兩者交替進行，形成類似 GAN 的博弈過程。

動作平滑：馴服高維動作空間的探索

圖：優化過程。當生成步數從T=8增加到T=32時（黃色曲線），優化變得不穩定且性能下降。引入動作平滑后（紅色曲線），訓練恢復穩定且性能超越T=8基線。

論文發現，不穩定性的根源在于 PPO 探索時對每步獨立添加高斯噪聲，導致動作序列出現劇烈且不必要的高頻波動。而對于逐步推進的迭代生成過程，最優策略往往是平滑變化的。為此，論文提出動作平滑技術——對策略輸出施加指數移動平均（EMA）濾波：

圖：動作平滑前后的對比。左側未平滑時，動作序列劇烈抖動（FID=3.5）；右側引入平滑后，序列合理平穩（FID=2.3）。

上圖直觀對比了平滑前后的效果：從雜亂無章的鋸齒波到平滑有序的下降曲線，FID 也從 3.5 降至 2.3。

實驗結果：四大范式全面提升

跨范式有效性驗證

AdaGen 在 ImageNet 256×256 上跨越四大生成范式、六個模型進行了驗證。在所有范式和推理步數下，AdaGen 均一致超越對應的基線方法，且性能增益在推理步數較少時更為顯著：

表：AdaGen 在 ImageNet 256×256 上的 FID-50K 結果（↓越低越好），覆蓋四大生成范式。注：MaskGIT、DiT、SiT 在不同推理步數 T 下評測；VAR 采用固定的 10 步生成，因此僅在 T=10 列報告結果。

效率優勢

圖：AdaGen在四種模型上的質量-效率權衡。無論是理論計算量（TFLOPs）還是實際GPU/CPU推理時延，AdaGen均能推進質量-效率前沿，實現1.6×到3.6×的推理加速。

上圖系統展示了 AdaGen 在四種生成模型上的質量-效率權衡。無論是理論計算量還是實際推理延遲，AdaGen 均一致推進了質量-效率前沿，實現1.6× 到 3.6×的推理加速。

極低的額外開銷

AdaGen 的策略網絡僅為生成器增加0.07% 到 0.40%的額外推理計算量，因此其性能提升并不以增大推理開銷為代價：

表：AdaGen 策略網絡的推理開銷占生成器總計算量的比例。

結語

AdaGen 將生成策略的設計從"手工藝術"轉變為"數據驅動的優化問題"。通過統一的 MDP 建模、對抗獎勵設計和動作平滑技術，AdaGen 以一種輕量、通用的方式，在四大主流生成范式上實現了 17% 到 54% 的性能提升，或 1.6× 到 3.6× 的推理加速。這一工作表明，多步生成模型的潛力遠未被充分挖掘——一個好的"調度策略"，和模型架構本身同樣重要。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.