![]()
尹博:NUS 計(jì)算機(jī)工程碩士生、LV Lab 實(shí)習(xí)生,研究方向是生成式 AI,及參數(shù)高效率微調(diào)(PEFT)。
胡曉彬:NUS LV Lab Senior Research Fellow, 研究方向是生成式 AI,MLLM Agent 等。
在大模型時(shí)代,參數(shù)高效微調(diào)(PEFT) 已成為將 Stable Diffusion、Flux 等大規(guī)模擴(kuò)散模型遷移至下游任務(wù)的標(biāo)準(zhǔn)范式。從 LoRA 到 DoRA,社區(qū)不斷探索如何用更少的參數(shù)實(shí)現(xiàn)更好的適配。
然而,現(xiàn)有的微調(diào)方法(如 LoRA、AdaLoRA)大多采用「靜態(tài)」策略:無(wú)論模型處于去噪過(guò)程的哪個(gè)階段,適配器(Adapter)的參數(shù)都是固定不變的。這種「一刀切」的方式忽略了擴(kuò)散生成過(guò)程內(nèi)在的時(shí)序物理規(guī)律,導(dǎo)致模型在處理復(fù)雜結(jié)構(gòu)與精細(xì)紋理時(shí)往往顧此失彼。
針對(duì)上述問(wèn)題,新加坡國(guó)立大學(xué) LV Lab(顏水成團(tuán)隊(duì)) 聯(lián)合電子科技大學(xué)、浙江大學(xué)等機(jī)構(gòu)提出 FeRA (Frequency-Energy Constrained Routing) 框架:首次從頻域能量的第一性原理出發(fā),揭示了擴(kuò)散去噪過(guò)程具有顯著的「低頻到高頻」演變規(guī)律,并據(jù)此設(shè)計(jì)了動(dòng)態(tài)路由機(jī)制。
FeRA 摒棄了傳統(tǒng)的靜態(tài)微調(diào)思路,通過(guò)實(shí)時(shí)感知潛空間(Latent Space)的頻域能量分布,動(dòng)態(tài)調(diào)度不同的專家模塊。實(shí)驗(yàn)結(jié)果顯示,F(xiàn)eRA 在 SD 1.5、SDXL、Flux.1 等多個(gè)主流底座上,于風(fēng)格遷移和主體定制任務(wù)中均實(shí)現(xiàn)了遠(yuǎn)超 baseline 的生成質(zhì)量。
![]()
- 論文地址: https://arxiv.org/abs/2511.17979
- 項(xiàng)目主頁(yè): https://github.com/YinBo0927/FeRA
研究背景:靜態(tài)微調(diào)與動(dòng)態(tài)生成的錯(cuò)配
擴(kuò)散生成的「頻域時(shí)序性」
擴(kuò)散模型的去噪過(guò)程(Denoising Process)本質(zhì)上是一個(gè)從無(wú)序到有序的物理演變。研究團(tuán)隊(duì)通過(guò)對(duì)中間層特征的頻譜分析發(fā)現(xiàn),這一過(guò)程并非各向同性,而是具有鮮明的階段性特征:
- 生成初期(高噪聲):模型主要致力于恢復(fù)圖像的低頻能量(如整體構(gòu)圖、輪廓)。
- 生成后期(低噪聲):重心逐漸轉(zhuǎn)移至高頻能量(如紋理、邊緣細(xì)節(jié))。
現(xiàn)有方法的局限
然而,LoRA 等主流 PEFT 方法在所有時(shí)間步(Timestep)上應(yīng)用相同的低秩矩陣。這意味著,負(fù)責(zé)「畫輪廓」的參數(shù)和負(fù)責(zé)「描細(xì)節(jié)」的參數(shù)是完全耦合的。這種目標(biāo)錯(cuò)配(Misalignment)導(dǎo)致了計(jì)算資源的浪費(fèi):模型不得不在有限的參數(shù)空間內(nèi)權(quán)衡結(jié)構(gòu)與細(xì)節(jié),往往導(dǎo)致生成的圖像要么結(jié)構(gòu)崩壞,要么紋理模糊。
因此,設(shè)計(jì)一種能夠感知當(dāng)前生成階段,并「按需分配」算力的動(dòng)態(tài)微調(diào)機(jī)制,成為突破性能瓶頸的關(guān)鍵。
![]()
![]()
方法介紹:FeRA 框架
為了解決上述痛點(diǎn),研究團(tuán)隊(duì)提出了 FeRA (Frequency-Energy Constrained Routing)。該框架包含三個(gè)核心組件,形成了一個(gè)感知 - 決策 - 優(yōu)化的閉環(huán):
頻域能量指示器 (Frequency-Energy Indicator, FEI)
這是 FeRA 的「眼睛」,不同于以往方法僅依賴離散的時(shí)間步(Timestep)作為條件,F(xiàn)eRA 利用 高斯差分 (Difference-of-Gaussians, DoG) 算子,在潛空間直接提取特征的頻域能量分布。
- 它將特征分解為多個(gè)頻帶。
- 實(shí)時(shí)計(jì)算各頻帶的歸一化能量值,形成一個(gè)連續(xù)的、物理可解釋的能量向量。
軟頻域路由器 (Soft Frequency Router)
這是 FeRA 的「大腦」,基于 FEI 提供的能量信號(hào),路由器通過(guò)一個(gè)輕量級(jí)網(wǎng)絡(luò)動(dòng)態(tài)計(jì)算不同LoRA 專家 (Experts)的權(quán)重。
- 低頻主導(dǎo)時(shí):系統(tǒng)自動(dòng)激活擅長(zhǎng)結(jié)構(gòu)生成的專家分支。
- 高頻主導(dǎo)時(shí):平滑過(guò)渡到擅長(zhǎng)紋理細(xì)節(jié)的專家分支。 這種機(jī)制實(shí)現(xiàn)了參數(shù)的解耦,讓不同的專家專注于其擅長(zhǎng)的頻域范圍。
頻域能量一致性正則化 (FECL)
這是 FeRA 的「穩(wěn)定器」,為了防止微調(diào)過(guò)程偏離原本的生成軌跡,團(tuán)隊(duì)引入了FECL (Frequency-Energy Consistency Loss)。該損失函數(shù)強(qiáng)制要求:LoRA 產(chǎn)生的參數(shù)更新量(Update),其在頻域上的能量分布必須與模型原本的殘差誤差(Residual Error)保持一致。這確保了微調(diào)過(guò)程「指哪打哪」,極大地提升了訓(xùn)練穩(wěn)定性。
![]()
實(shí)驗(yàn)驗(yàn)證:從風(fēng)格遷移到主體定制
研究團(tuán)隊(duì)在Stable Diffusion 1.5、2.0、3.0、SDXL以及最新的FLUX.1等多個(gè)主流底座上進(jìn)行了廣泛測(cè)試 。實(shí)驗(yàn)涵蓋了風(fēng)格遷移(Style Adaptation)和主體定制(DreamBooth)兩大任務(wù)。
風(fēng)格遷移:FID 與 CLIP 的雙贏
在 Cyberpunk, Watercolor 等多種風(fēng)格數(shù)據(jù)集上,F(xiàn)eRA 在FID(圖像質(zhì)量) 、CLIP Score(語(yǔ)義對(duì)齊)和 Style(MLLM 評(píng)分)上均取得了最優(yōu)或次優(yōu)的成績(jī)。
![]()
![]()
主體定制:更懂你的 Prompt
在 DreamBooth 任務(wù)(如讓特定的狗游泳、讓特定的茶壺放在草地上)中,F(xiàn)eRA 展示了驚人的文本可控性。
- 痛點(diǎn)解決:傳統(tǒng)方法容易過(guò)擬合主體(Identity),導(dǎo)致無(wú)法響應(yīng)新的背景提示詞(Prompt)。
- FeRA 表現(xiàn):在 CLIP-T(文本對(duì)齊度)指標(biāo)上,F(xiàn)eRA 顯著優(yōu)于 DoRA 和 AdaLoRA 。這意味著它不僅記住了「這只狗」,還能聽懂指揮讓它「去游泳」。
![]()
![]()
總結(jié)
總的來(lái)看,目前的擴(kuò)散模型微調(diào)仍以靜態(tài)參數(shù)疊加為主,在處理復(fù)雜的多頻段信息時(shí)存在天然瓶頸。
LV Lab 顏水成團(tuán)隊(duì) 提出的 FeRA 框架,通過(guò)引入頻域第一性原理,將微調(diào)從「參數(shù)層面的分解」推進(jìn)到了「機(jī)制層面的對(duì)齊」。FeRA 證明了:順應(yīng)生成過(guò)程的物理規(guī)律,利用頻域能量進(jìn)行動(dòng)態(tài)路由,是實(shí)現(xiàn)高效、高質(zhì)量微調(diào)的關(guān)鍵路徑。
這一工作不僅刷新了各項(xiàng) SOTA 指標(biāo),更為未來(lái)擴(kuò)散模型在視頻生成、3D 生成等更復(fù)雜任務(wù)中的微調(diào)提供了極具價(jià)值的新思路。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.