![]()
盡管擴散模型(Diffusion Model)與流匹配(Flow Matching)已經把文本到圖像生成(Text-to-Image, T2I)推向了更高的視覺質量與可控性,但他們通常在推理時需要數十步網絡迭代,限制了其對于一些需要低延遲,Real-Time 的應用。
為了把推理步數降下來,現有路線通常依賴知識蒸餾(Distillation):先訓練一個多步教師模型,再把能力遷移到少步學生模型。但這條路的代價同樣明顯 —— 既依賴預訓練教師,又引入了額外的訓練開銷,并在「從零訓練(from scratch)」與「極少步高質量」之間留下了長期空白。
近日,香港大學(The University of Hong Kong)與 Adobe Research 聯合發布 Self-E(Self-Evaluating Model):一種無需預訓練教師蒸餾、從零開始訓練的任意步數文生圖框架。其目標非常直接:讓同一個模型在極少步數也能生成語義清晰、結構穩定的圖像,同時在 50 步等常規設置下保持頂級質量,并且隨著步數增加呈現單調提升。
![]()
- 論文標題:Self-Evaluation Unlocks Any-Step Text-to-Image Generation
- 項目主頁:https://xinyu-andy.github.io/SelfE-project/
- 論文 PDF:https://www.arxiv.org/pdf/2512.22374
![]()
引言:從「軌跡匹配」到「落點評估」
擴散 / 流匹配范式本質上是在學習一張「局部向量場」:給定噪聲狀態,預測下一步該往哪里走。這個監督信號在「小步、密集積分」時非常有效,但一旦嘗試「大步跳躍」,誤差會被軌跡曲率放大,生成往往滑向平均解、語義漂移或結構坍塌。
Self-E 的切入點是一個根本上的范式改變:我們能否不再執著于「每一步走得對不對」,而是把訓練重心轉向「落點好不好」?也就是把目標從「軌跡匹配(trajectory matching)」轉變為「落點評估(destination/landing evaluation)」。
換句話說,傳統 Diffusion Model 訓練強調「在起點對齊局部方向」;Self-E 強調「在落點評估結果并給出糾偏方向」。監督位置的改變,帶來了訓練信號性質的改變:從靜態監督變成動態反饋。
作者在項目主頁用動圖展示了這兩者的區別:


這也是為什么模型在測試階段有少步推理能力:擴散模型在測試時只能逐步跟隨當前點預測的最好局部路徑,最終走到全局最優;而 Self-E 在訓練階段就逐步學會了走向全局最優的落點。
這也不同于目前多數少步生成模型所采用的學習軌跡的積分,如 Consistency Model, Mean Flow;Self-E不局限于沿著預定義的軌跡走,而是直接關心每步結果好不好,對不對。
Self-E 的核心:兩條互補訓練信號(Two Complementary Signals)
Self-E 用同一個網絡在兩種「模式」下工作:一方面像 Flow Matching 一樣從真實數據學習分布的局部結構;另一方面用「模型自身正在學到的局部估計」去評估自生成樣本,形成自反饋閉環。
1)從數據學習:Learning from Data
- 學什么:分布的局部結構(local score /velocity 的期望形式),即「在鄰域內密度如何變化」。
- 怎么學:采樣真實圖像與文本條件,加噪得到噪聲輸入,用條件流匹配式目標訓練模型去預測干凈樣本(或等價參數化),提供穩定的局部監督。
2)自我評估學習:Learning by Self-Evaluation
- 學什么:分布層面的正確性(distribution-level correctness)——生成樣本是否與真實分布一致、是否與描述的文本對齊。
- 關鍵機制:模型先做一次「長距離跳躍」(從起始時間步跳到落點時間步),然后在落點處用自己當前學到的局部估計產生一個「方向信號」,告訴生成樣本應如何移動才能進入更高質量、更符合文本的概率分布區域。
- 最大差異:評估信號不來自外部教師(pretrained diffusion teacher),而是來自模型自身的在訓估計(dynamic self-teacher)。
![]()
訓練細節:把「自我評估」做成可反傳的學習信號
Self-E 在理論上把評估寫成分布級目標(例如以反向 KL 為代表的分布匹配視角),但真正落地的難點在于:真實分布與生成分布的 score 都不可得。
Self-E 的關鍵觀察是:模型在「從數據學習」階段會逐步學到某種條件期望形式,而該量與 score 通過 Tweedie’s formula 存在聯系,因此可以用「正在訓練的模型」去近似提供評估方向。
在實現上,作者發現理論目標中包含「classifier score term」等項,并實證發現僅使用 classifier score 項就足夠有效,甚至更利于收斂,從而避免早期還要額外訓練一個用于 fake score 的模型分支。
![]()
為了把這種「評估方向」變成可訓練的損失,Self-E 采用 stop-gradient 的雙前向構造 pseudo-target,通過最小化 MSE 誘導出與所需方向一致的梯度;并在最終目標中將數據驅動損失與自評估損失進行混合加權。
![]()
最終,我們可以用一個統一的形式來訓練:
![]()
其中,等式右邊第一項正是 Learning-from-data 的目標,而第二項對應 Self-Evaluation。
推理:任意步數(Any-Step Inference),并隨步數單調變好
在推理階段,Self-E 與擴散 / 流匹配一樣進行迭代去噪,但不同之處在于:由于訓練中已經顯式學習「長距離落點」的質量與糾偏方向,它可以在非常少的步數下保持可用的語義與結構,同時在增加步數時繼續提升細節與真實感。
性能:GenEval 全步數段 SOTA,少步優勢尤其顯著
在 GenEval 基準上,Self-E 對比其他方法取得全面領先,并且隨著步數增加呈現單調提升。更關鍵的是少步區間的「斷層式」優勢:在 2-step 設置下,Self-E 相比當時最佳對比方法的提升約為+0.12(0.7531 相比 0.6338),而多種傳統擴散 / 流匹配模型在 2-step 下幾乎無法生成可用結果。
![]()
![]()
另一角度解讀:把「預訓練」與「反饋學習」拉到同一條線上
從更宏觀的視角看,Self-E 把訓練過程組織成一個類似強化學習中的「環境 — 智能體(environment–agent)閉環」:
- Data Phase:模型從真實數據學習分布的局部結構,得到越來越可靠的局部估計(可視作學習環境,并給出評估)。
- Self-Evaluation Phase:模型提出長距離跳躍方案(可視作智能體執行動作),在落點處用內部估計產生反饋方向并更新參數(可視作獲得環境的反饋)。
- Closed Loop:評估器隨訓練變強,反饋信號質量隨之提升,反過來又進一步強化少步生成能力。
作者在項目主頁指出:這種內部評估器在角色上接近「可查詢的學習型獎勵模型」,為后續把強化學習(RL)更系統地引入視覺生成訓練提供了新的接口與想象空間。
結語
Self-E 的價值不只是在「少步生成」這一條指標上跑得更快,而在于它把文生圖訓練范式從「沿著既定軌跡走」推進到「學會評估落點并自我糾偏」:在不依賴預訓練教師蒸餾的前提下,讓單一模型同時覆蓋極低時延與高質量長軌跡兩種需求,并在不同推理預算下保持可擴展的性能曲線。
對內容創作與生成式系統落地而言,「one model, any compute」的工程意義非常直接:同一個 checkpoint 可以按場景動態選擇步數 —— 交互式場景用 1~4 步追求即時反饋,高質量離線渲染用 50 步追求細節上限;而訓練側則繞開了教師蒸餾鏈路,把「從零訓練 + 少步推理」真正拉回到可討論、可復現、可擴展的主流路徑上。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.