網易首頁 > 網易號 > 正文申請入駐

解鎖任意步數文生圖，港大&Adobe全新Self-E框架學會自我評估

2026-01-15 12:44:17　來源: 機器之心Pro

河北舉報

分享至

盡管擴散模型（Diffusion Model）與流匹配（Flow Matching）已經把文本到圖像生成（Text-to-Image, T2I）推向了更高的視覺質量與可控性，但他們通常在推理時需要數十步網絡迭代，限制了其對于一些需要低延遲，Real-Time 的應用。

為了把推理步數降下來，現有路線通常依賴知識蒸餾（Distillation）：先訓練一個多步教師模型，再把能力遷移到少步學生模型。但這條路的代價同樣明顯 —— 既依賴預訓練教師，又引入了額外的訓練開銷，并在「從零訓練（from scratch）」與「極少步高質量」之間留下了長期空白。

近日，香港大學（The University of Hong Kong）與 Adobe Research 聯合發布 Self-E（Self-Evaluating Model）：一種無需預訓練教師蒸餾、從零開始訓練的任意步數文生圖框架。其目標非常直接：讓同一個模型在極少步數也能生成語義清晰、結構穩定的圖像，同時在 50 步等常規設置下保持頂級質量，并且隨著步數增加呈現單調提升。

論文標題：Self-Evaluation Unlocks Any-Step Text-to-Image Generation
項目主頁：https://xinyu-andy.github.io/SelfE-project/
論文 PDF：https://www.arxiv.org/pdf/2512.22374

引言：從「軌跡匹配」到「落點評估」

擴散 / 流匹配范式本質上是在學習一張「局部向量場」：給定噪聲狀態，預測下一步該往哪里走。這個監督信號在「小步、密集積分」時非常有效，但一旦嘗試「大步跳躍」，誤差會被軌跡曲率放大，生成往往滑向平均解、語義漂移或結構坍塌。

Self-E 的切入點是一個根本上的范式改變：我們能否不再執著于「每一步走得對不對」，而是把訓練重心轉向「落點好不好」？也就是把目標從「軌跡匹配（trajectory matching）」轉變為「落點評估（destination/landing evaluation）」。

換句話說，傳統 Diffusion Model 訓練強調「在起點對齊局部方向」；Self-E 強調「在落點評估結果并給出糾偏方向」。監督位置的改變，帶來了訓練信號性質的改變：從靜態監督變成動態反饋。

作者在項目主頁用動圖展示了這兩者的區別：

這也是為什么模型在測試階段有少步推理能力：擴散模型在測試時只能逐步跟隨當前點預測的最好局部路徑，最終走到全局最優；而 Self-E 在訓練階段就逐步學會了走向全局最優的落點。

這也不同于目前多數少步生成模型所采用的學習軌跡的積分，如 Consistency Model, Mean Flow;Self-E不局限于沿著預定義的軌跡走，而是直接關心每步結果好不好，對不對。

Self-E 的核心：兩條互補訓練信號（Two Complementary Signals）

Self-E 用同一個網絡在兩種「模式」下工作：一方面像 Flow Matching 一樣從真實數據學習分布的局部結構；另一方面用「模型自身正在學到的局部估計」去評估自生成樣本，形成自反饋閉環。

1）從數據學習：Learning from Data

學什么：分布的局部結構（local score /velocity 的期望形式），即「在鄰域內密度如何變化」。
怎么學：采樣真實圖像與文本條件，加噪得到噪聲輸入，用條件流匹配式目標訓練模型去預測干凈樣本（或等價參數化），提供穩定的局部監督。

2）自我評估學習：Learning by Self-Evaluation

學什么：分布層面的正確性（distribution-level correctness）——生成樣本是否與真實分布一致、是否與描述的文本對齊。
關鍵機制：模型先做一次「長距離跳躍」（從起始時間步跳到落點時間步），然后在落點處用自己當前學到的局部估計產生一個「方向信號」，告訴生成樣本應如何移動才能進入更高質量、更符合文本的概率分布區域。
最大差異：評估信號不來自外部教師（pretrained diffusion teacher），而是來自模型自身的在訓估計（dynamic self-teacher）。

訓練細節：把「自我評估」做成可反傳的學習信號

Self-E 在理論上把評估寫成分布級目標（例如以反向 KL 為代表的分布匹配視角），但真正落地的難點在于：真實分布與生成分布的 score 都不可得。

Self-E 的關鍵觀察是：模型在「從數據學習」階段會逐步學到某種條件期望形式，而該量與 score 通過 Tweedie’s formula 存在聯系，因此可以用「正在訓練的模型」去近似提供評估方向。

在實現上，作者發現理論目標中包含「classifier score term」等項，并實證發現僅使用 classifier score 項就足夠有效，甚至更利于收斂，從而避免早期還要額外訓練一個用于 fake score 的模型分支。

為了把這種「評估方向」變成可訓練的損失，Self-E 采用 stop-gradient 的雙前向構造 pseudo-target，通過最小化 MSE 誘導出與所需方向一致的梯度；并在最終目標中將數據驅動損失與自評估損失進行混合加權。

最終，我們可以用一個統一的形式來訓練：

其中，等式右邊第一項正是 Learning-from-data 的目標，而第二項對應 Self-Evaluation。

推理：任意步數（Any-Step Inference），并隨步數單調變好

在推理階段，Self-E 與擴散 / 流匹配一樣進行迭代去噪，但不同之處在于：由于訓練中已經顯式學習「長距離落點」的質量與糾偏方向，它可以在非常少的步數下保持可用的語義與結構，同時在增加步數時繼續提升細節與真實感。

性能：GenEval 全步數段 SOTA，少步優勢尤其顯著

在 GenEval 基準上，Self-E 對比其他方法取得全面領先，并且隨著步數增加呈現單調提升。更關鍵的是少步區間的「斷層式」優勢：在 2-step 設置下，Self-E 相比當時最佳對比方法的提升約為+0.12（0.7531 相比 0.6338），而多種傳統擴散 / 流匹配模型在 2-step 下幾乎無法生成可用結果。

另一角度解讀：把「預訓練」與「反饋學習」拉到同一條線上

從更宏觀的視角看，Self-E 把訓練過程組織成一個類似強化學習中的「環境 — 智能體（environment–agent）閉環」：

Data Phase：模型從真實數據學習分布的局部結構，得到越來越可靠的局部估計（可視作學習環境，并給出評估）。
Self-Evaluation Phase：模型提出長距離跳躍方案（可視作智能體執行動作），在落點處用內部估計產生反饋方向并更新參數（可視作獲得環境的反饋）。
Closed Loop：評估器隨訓練變強，反饋信號質量隨之提升，反過來又進一步強化少步生成能力。

作者在項目主頁指出：這種內部評估器在角色上接近「可查詢的學習型獎勵模型」，為后續把強化學習（RL）更系統地引入視覺生成訓練提供了新的接口與想象空間。

結語

Self-E 的價值不只是在「少步生成」這一條指標上跑得更快，而在于它把文生圖訓練范式從「沿著既定軌跡走」推進到「學會評估落點并自我糾偏」：在不依賴預訓練教師蒸餾的前提下，讓單一模型同時覆蓋極低時延與高質量長軌跡兩種需求，并在不同推理預算下保持可擴展的性能曲線。

對內容創作與生成式系統落地而言，「one model, any compute」的工程意義非常直接：同一個 checkpoint 可以按場景動態選擇步數 —— 交互式場景用 1～4 步追求即時反饋，高質量離線渲染用 50 步追求細節上限；而訓練側則繞開了教師蒸餾鏈路，把「從零訓練 + 少步推理」真正拉回到可討論、可復現、可擴展的主流路徑上。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.