![]()
文章轉載于量子位
作者:聞樂
長期以來,AI生圖被一個經典矛盾困擾。
潛空間模型效率高,但細節有損耗;像素空間模型保真度高,卻容易結構混亂、速度慢。
要么快要沒準,大家幾乎默認這是架構帶來的取舍問題,沒法徹底解決。
但擴散模型生圖,順序真的對嗎?
李飛飛團隊最新論文提出的Latent Forcing方法直接打破了這一共識,他們發現生成的質量瓶頸不在架構,而在順序。
![]()
簡單說就像畫畫必須先打草稿再填色,AI也需要一個「先定結構、后填細節」的強制邏輯。
Latent Forcing僅通過重排生成軌跡,像素擴散模型不僅找回了效率,更在多項指標上刷新SOTA。
1
傳統方法瓶頸
在深入了解Latent Forcing之前,咱先來說說當前兩大方法的瓶頸。
傳統像素級擴散模型之所以畫圖會畫歪,是因為它在降噪過程中,高頻的紋理細節往往會干擾低頻的語義結構。
模型常常在還沒搞清楚物體的整體輪廓時,就被迫去預測局部的像素顏色,其實這在本質上就違背了視覺生成的自然邏輯。
為了解決這個問題,行業此前大多轉向潛空間。
它通過預訓練的tokenizer把圖像壓到低維空間,生成速度飛起。
但潛空間模型必須依賴一個預訓練的解碼器,但這不僅會引入重建誤差,也讓模型失去了端到端建模原始數據的能力。
![]()
于是李飛飛團隊思考——
能不能既保留像素級的無損精度,又獲得潛空間的結構引導?
1
先打個草稿
Latent Forcing的答案是——
對擴散軌跡重新排序。
![]()
怎么做的呢?
在不改變基礎Transformer架構的前提下,引入了雙時間變量機制。
在訓練和生成過程中,模型會同時處理像素和潛變量。不同的是,團隊為兩者定制了獨立的降噪節奏:
潛變量先行:在生成初期,潛變量會率先完成降噪,在大尺度上確立圖像的語義骨架;
像素填色:在結構確定后,像素部分再跟進進行精細化降噪。
![]()
這么一看,潛變量就像是一個臨時的草稿本。
生成結束時,這個草稿本直接丟棄,最終輸出仍是100%無損的原始像素圖像,沒有任何decoder。
整個過程端到端、可擴展,幾乎不增加計算量(token數量不變,速度接近原生DiT)。
這種先latent后pixel的細微調整,在ImageNet榜單上展現了出色的表現。
在相同計算規模,訓練80個epochs的條件下,Latent Forcing在ImageNet-256任務中,條件生成的FID分數較此前最強的像素級模型JiT+REPA,從18.60降到9.76,接近腰斬。
![]()
在200個epoch的最終模型(ViT?L 規模)下,Latent Forcing實現了條件生成FID 2.48(guided)、無條件生成FID 7.2(unguided)的分數。
創下像素空間擴散Transformer新的SOTA。
![]()
過去學術界普遍認為,必須通過更高倍率的有損壓縮才能換取好的FID表現。
Latent Forcing則用數據反駁了這一觀點——
在保持100%原始像素精度的情況下,我們依然能跑出超越有損模型的性能。
Latent Forcing項目由李飛飛領銜。
第一作者Alan Baade是李飛飛的學生,斯坦福計算機系博士生,在擴散模型和生成建模方向有深入研究。
![]()
其他斯坦福共同作者包括Eric Ryan Chan、Kyle Sargent、Changan Chen和Ehsan Adeli。
此外,密歇根大學教授Justin Johnson作為合作作者參與其中。
論文地址:https://arxiv.org/abs/2602.11401
點個“愛心”,再走 吧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.