網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

單流擴(kuò)散Transformer高效圖像生成模型

2026-02-03 22:24:53　來(lái)源: CreateAMind

上海舉報(bào)

分享至

Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer

Z-Image：?jiǎn)瘟鲾U(kuò)散Transformer高效圖像生成模型

https://arxiv.org/pdf/2511.22699v1

摘要

高性能圖像生成模型的版圖目前被專(zhuān)有系統(tǒng)（如 Nano Banana Pro [27]、Seedream 4.0 [65]）壟斷。主流開(kāi)源替代方案，包括 Qwen-Image [77]、Hunyuan-Image-3.0 [8] 和 FLUX.2 [36]，參數(shù)量高達(dá) 200–800 億，推理與消費(fèi)級(jí)硬件微調(diào)均不現(xiàn)實(shí)。為此，我們提出 Z-Image：一款僅 60 億參數(shù)的高效基礎(chǔ)生成模型，采用可擴(kuò)展單流擴(kuò)散 Transformer（S3-DiT）架構(gòu)，向“唯規(guī)模論”發(fā)起挑戰(zhàn)。通過(guò)對(duì)完整模型生命周期的系統(tǒng)優(yōu)化——從精選數(shù)據(jù)基建到精簡(jiǎn)訓(xùn)練課程——全程訓(xùn)練僅耗 31.4 萬(wàn) H800 卡時(shí)（約 63 萬(wàn)美元）。幾步蒸餾加獎(jiǎng)勵(lì)后訓(xùn)練進(jìn)一步得到 Z-Image-Turbo：在單張企業(yè)級(jí) H800 上實(shí)現(xiàn)亞秒級(jí)推理，并兼容 <16 GB 顯存的消費(fèi)級(jí)顯卡。此外，我們的全任務(wù)預(yù)訓(xùn)練范式還高效孵化了 Z-Image-Edit，一款指令跟隨能力突出的編輯模型。定量與定性實(shí)驗(yàn)均表明，Z-Image 在多項(xiàng)指標(biāo)上持平或超越頂尖對(duì)手，尤其在照片級(jí)真實(shí)圖像生成與雙語(yǔ)文字渲染上媲美頂級(jí)商業(yè)模型，證明“少算力也能 SOTA”。代碼、權(quán)重與在線演示全部開(kāi)源，推動(dòng)人人可及、預(yù)算友好且最先進(jìn)的生成模型發(fā)展。

1 引言
近年來(lái)，文本到圖像（T2I）生成領(lǐng)域突飛猛進(jìn)，從簡(jiǎn)陋紋理躍升至兼具照片級(jí)真實(shí)感與復(fù)雜語(yǔ)義對(duì)齊的影像 [58,18,35,77,65,8,4]。然而，隨著模型能力膨脹，其開(kāi)發(fā)與可及性壁壘也日益高企。當(dāng)下生態(tài)呈現(xiàn)兩極：一側(cè)是頂尖商業(yè)閉源模型——如 Nano Banana Pro [27]、Seedream 4.0 [65]——雖性能傲人，卻黑箱封閉，透明性與可復(fù)現(xiàn)性俱缺；另一側(cè)是開(kāi)源陣營(yíng)，雖高舉民主化大旗，卻動(dòng)輒堆棧至數(shù)百億（例：Qwen-Image [77] 200 億、FLUX.2 [36] 320 億、Hunyuan-Image-3.0 [8] 800 億），令訓(xùn)練與推理成本令人望而卻步。于是，從專(zhuān)有模型蒸餾合成數(shù)據(jù)成了資源受限學(xué)術(shù)圈的“捷徑”[13,20]，但這招易陷閉環(huán)：誤差累積、數(shù)據(jù)同質(zhì)化，抑制超越教師模型的新視覺(jué)能力。

本文推出 Z-Image，一款強(qiáng)力擴(kuò)散 Transformer，同時(shí)向“唯規(guī)模論”與“合成蒸餾依賴”開(kāi)戰(zhàn)。我們證明：頂級(jí)圖像生成模型無(wú)需堆參，也無(wú)需蒸餾。相反，我們首次給出端到端全棧方案——從數(shù)據(jù)精選、架構(gòu)設(shè)計(jì)、訓(xùn)練策略到推理加速——全程優(yōu)化，僅用最樸素的實(shí)拍數(shù)據(jù)，不借他人蒸餾。方法論的高效令整體算力開(kāi)銷(xiāo)極低：如表 1 所示，Z-Image 完整訓(xùn)練僅需 31.4 萬(wàn) H800 卡時(shí)，按現(xiàn)價(jià)約 62.8 萬(wàn)美元（約 2 美元/卡時(shí) [38]）。在頭部模型動(dòng)輒數(shù)倍乃至數(shù)十倍資源的當(dāng)下，這一“小投入”證明：精巧設(shè)計(jì)足以抗衡暴力擴(kuò)標(biāo)。

這一成本效率的突破，建立在四大支柱的系統(tǒng)方法論之上：

高效數(shù)據(jù)基建：資源受限場(chǎng)景下，數(shù)據(jù)基建是決定“單位時(shí)間知識(shí)獲取率”的關(guān)鍵，它既加速訓(xùn)練，也劃定能力上限。我們提出四模塊協(xié)同的數(shù)據(jù)體系：多維特征提取的 Data Profiling Engine、語(yǔ)義去重與精準(zhǔn)檢索的 Cross-modal Vector Engine、結(jié)構(gòu)化概念組織的 World Knowledge Topological Graph，以及閉環(huán)精修的 Active Curation Engine。通過(guò)細(xì)粒度數(shù)據(jù)畫(huà)像與訓(xùn)練分布編排，讓“對(duì)的數(shù)據(jù)”在“對(duì)的階段”出現(xiàn)，最大化實(shí)拍數(shù)據(jù)利用率，杜絕冗余或低質(zhì)樣本帶來(lái)的算力浪費(fèi)。
高效架構(gòu)：受大語(yǔ)言模型解碼器擴(kuò)展性啟發(fā)，我們?cè)O(shè)計(jì) Scalable Single-Stream Multi-Modal Diffusion Transformer（S3-DiT）。不同于雙流架構(gòu)各模態(tài)獨(dú)立處理，S3-DiT 每層都實(shí)現(xiàn)緊密跨模態(tài)交互，僅用 60 億參數(shù)就達(dá)成頂尖效果，顯著降低訓(xùn)練與部署硬件門(mén)檻。緊湊體積還得益于 Prompt Enhancer（PE）補(bǔ)強(qiáng)世界知識(shí)與提示理解，進(jìn)一步緩解參數(shù)量限制。早期融合 Transformer 把文本、圖像 VAE、語(yǔ)義標(biāo)記統(tǒng)一視為令牌，一套框架無(wú)縫完成文生圖、圖生圖等多元任務(wù)。
高效訓(xùn)練策略：三階段漸進(jìn)課程。(1) 低分辨率預(yù)訓(xùn)練：固定 2562，讓模型快速獲得視覺(jué)-語(yǔ)義對(duì)齊與合成基礎(chǔ)。(2) Omni-pre-training：統(tǒng)一多任務(wù)，一次性學(xué)會(huì)任意分辨率生成、文生圖、圖生圖，把高昂預(yù)算攤到多項(xiàng)能力，省去重復(fù)燒卡。(3) PE-aware 監(jiān)督微調(diào)： jointly 優(yōu)化，用 PE 增強(qiáng)字幕微調(diào)主模型，Prompt Enhancer 與擴(kuò)散主干零額外 LLM 訓(xùn)練成本即可深度協(xié)同，開(kāi)發(fā)效率最大化。
高效推理：Z-Image-Turbo 僅用 8 步 NFE 即可輸出高美感、高保真圖像。關(guān)鍵來(lái)自兩項(xiàng)創(chuàng)新：Decoupled DMD [46] 把蒸餾中的“提質(zhì)量”與“穩(wěn)訓(xùn)練”角色顯式解耦；DMDR [32] 用分布匹配項(xiàng)作內(nèi)稟正則的強(qiáng)化學(xué)習(xí)。二者協(xié)同，實(shí)現(xiàn)速度-質(zhì)量零妥協(xié)的高效生成。

2 數(shù)據(jù)基礎(chǔ)設(shè)施
盡管頂尖文生圖模型的卓越能力依賴大規(guī)模訓(xùn)練數(shù)據(jù)，但在算力受限條件下，性能最優(yōu)化的關(guān)鍵在于“數(shù)據(jù)效率”而非“數(shù)據(jù)規(guī)模”。單純堆量往往收益遞減；高效的訓(xùn)練管線需要一套能“每單位計(jì)算獲取最多信息”的數(shù)據(jù)基礎(chǔ)設(shè)施。理想的數(shù)據(jù)系統(tǒng)必須：概念覆蓋廣且無(wú)冗余、多語(yǔ)言圖文對(duì)齊穩(wěn)健，并支持動(dòng)態(tài)課程學(xué)習(xí)——讓數(shù)據(jù)配比隨訓(xùn)練階段演進(jìn)。為此，我們?cè)O(shè)計(jì)并落地了一套一體化的“高效數(shù)據(jù)基礎(chǔ)設(shè)施”。它遠(yuǎn)非靜態(tài)倉(cāng)庫(kù)，而是一臺(tái)動(dòng)態(tài)引擎，專(zhuān)為“固定訓(xùn)練預(yù)算內(nèi)最大化知識(shí)獲取速率”而架構(gòu)。作為整套管線的基石，該基礎(chǔ)設(shè)施由四大協(xié)同核心模塊組成：

數(shù)據(jù)畫(huà)像引擎：該模塊為數(shù)據(jù)策略提供量化底座。它從原始數(shù)據(jù)中提取并計(jì)算豐富的多維特征，涵蓋低級(jí)物理屬性（如圖像元數(shù)據(jù)、清晰度指標(biāo)）到高級(jí)語(yǔ)義屬性（如異常檢測(cè)、文本描述）。這些畫(huà)像不僅用于基礎(chǔ)過(guò)濾，更是衡量數(shù)據(jù)復(fù)雜度與質(zhì)量的核心信號(hào)，支撐動(dòng)態(tài)學(xué)習(xí)階段課程的程序化構(gòu)建。
跨模態(tài)向量引擎：基于數(shù)十億級(jí)嵌入，該模塊保障效率與多樣性。通過(guò)大規(guī)模語(yǔ)義去重實(shí)現(xiàn)“零冗余”數(shù)據(jù)集目標(biāo)；其跨模態(tài)檢索能力還能診斷并修復(fù)模型失效——精準(zhǔn)定位并剔除致錯(cuò)數(shù)據(jù)，同時(shí)針對(duì)性采樣填補(bǔ)概念空白。
世界知識(shí)拓?fù)鋱D：這張結(jié)構(gòu)化知識(shí)圖譜構(gòu)成整個(gè)設(shè)施的語(yǔ)義脊梁。它按層級(jí)組織知識(shí)，確保概念廣度；更重要的是，它充當(dāng)數(shù)據(jù)策劃的“語(yǔ)義羅盤(pán)”。通過(guò)圖遍歷發(fā)現(xiàn)未被充分表征的實(shí)體，及時(shí)填補(bǔ)概念空洞，并在訓(xùn)練過(guò)程中精確重平衡各概念的數(shù)據(jù)分布，實(shí)現(xiàn)更高效、更全面的學(xué)習(xí)。
主動(dòng)策劃引擎：該模塊讓基礎(chǔ)設(shè)施成為真正的動(dòng)態(tài)、自進(jìn)化系統(tǒng)。它肩負(fù)兩大協(xié)同職能：其一，作為前沿探索引擎，自動(dòng)采樣定位模型表現(xiàn)差或知識(shí)缺失的“硬案例”；其二，驅(qū)動(dòng)閉環(huán)數(shù)據(jù)標(biāo)注管線，確保每次迭代既擴(kuò)展數(shù)據(jù)集的概念廣度，又持續(xù)精煉數(shù)據(jù)質(zhì)量，從而最大化整體訓(xùn)練效率。

四大組件協(xié)同，鑄就穩(wěn)健數(shù)據(jù)基礎(chǔ)設(shè)施，不僅支撐文生圖模型訓(xùn)練，也為更廣的多模態(tài)模型提供通用底座。借助該系統(tǒng)，我們順利完成了字幕模型、獎(jiǎng)勵(lì)模型及圖像編輯模型（Z-Image-Edit）等關(guān)鍵組件的訓(xùn)練。第 2.5 節(jié)將詳述基于該設(shè)施為 Z-Image-Edit 專(zhuān)門(mén)搭建的數(shù)據(jù)管線。

2.1 數(shù)據(jù)畫(huà)像引擎
Data Profiling Engine 專(zhuān)為系統(tǒng)性處理海量、未整理的版權(quán)數(shù)據(jù)池而設(shè)計(jì)。它為每一對(duì)圖文樣本計(jì)算一套全面的多維特征，支撐有原則的數(shù)據(jù)策劃。鑒于不同數(shù)據(jù)源自帶獨(dú)特偏差，引擎支持源相關(guān)的啟發(fā)式規(guī)則與采樣策略，確保訓(xùn)練語(yǔ)料均衡且高質(zhì)。畫(huà)像流程圍繞以下關(guān)鍵維度展開(kāi)：

圖像元數(shù)據(jù)
首先緩存每張圖像的基本屬性：分辨率（寬高）、文件大小等，便于按分辨率/長(zhǎng)寬比快速過(guò)濾；同時(shí)計(jì)算感知哈希（pHash）作為緊湊視覺(jué)指紋，實(shí)現(xiàn)毫秒級(jí)去重，剔除相同或近似圖像。這些預(yù)計(jì)算屬性構(gòu)成數(shù)據(jù)篩選的第一道關(guān)卡。

技術(shù)質(zhì)量評(píng)估
圖像技術(shù)質(zhì)量直接決定模型上限。引擎采用多管齊下策略量化并剔除低質(zhì)樣本：

壓縮偽影：通過(guò)“理想未壓縮大小/實(shí)際大小”比例揪出過(guò)度壓縮圖。
視覺(jué)退化：內(nèi)訓(xùn)質(zhì)量模型給圖像打分，涵蓋色偏、模糊、可見(jiàn)水印、噪點(diǎn)等。
信息熵：用邊界像素方差與瞬態(tài) JPEG 重編碼的 BPP 雙指標(biāo)，濾除大色塊、低復(fù)雜度圖，確保訓(xùn)練所見(jiàn)皆“干貨”。

語(yǔ)義與美學(xué)內(nèi)容
除技術(shù)質(zhì)量外，還刻畫(huà)高階語(yǔ)義與美學(xué)：

美學(xué)評(píng)分：用專(zhuān)業(yè)標(biāo)注員訓(xùn)練的模型量化視覺(jué)吸引力。
AIGC 檢測(cè)：依 Imagen 3 經(jīng)驗(yàn)，自訓(xùn)分類(lèi)器剔除 AI 生成圖，防止輸出質(zhì)量與物理真實(shí)度下滑。
高層語(yǔ)義標(biāo)簽：專(zhuān)用 VLM 生成豐富標(biāo)簽，涵蓋通用物體、人物屬性（人數(shù)等）及中華文化相關(guān)概念；同一模型輸出 NSFW 分?jǐn)?shù)，一鍵過(guò)濾無(wú)關(guān)或不適內(nèi)容。

2.2 跨模態(tài)向量引擎
我們?cè)?Stable Diffusion 3 [18] 的去重方法基礎(chǔ)上進(jìn)一步升級(jí)，將其重構(gòu)為可擴(kuò)展的“基于圖的社區(qū)檢測(cè)”任務(wù)。針對(duì)原 range_search 函數(shù)的嚴(yán)重?cái)U(kuò)展瓶頸，改用高效 k-近鄰（k-NN）搜索；先由 k-NN 距離構(gòu)建鄰近圖，再運(yùn)行社區(qū)檢測(cè)算法 [69]。只要 k 足夠大，輸出即可高度逼近原算法，而時(shí)間復(fù)雜度大幅下降。整套 GPU 加速 [61] 管線在 8 張 H800 上處理 10 億樣本約需 8 小時(shí)（含索引構(gòu)建與 100-NN 查詢），既能發(fā)現(xiàn)密集簇完成去重，也可通過(guò)模塊度層級(jí)提取語(yǔ)義結(jié)構(gòu)，實(shí)現(xiàn)細(xì)粒度數(shù)據(jù)平衡。

此外，我們搭建了高效檢索管線，融合多模態(tài)特征 [87] 與最先進(jìn)索引算法 [55]。其跨模態(tài)搜索能力貫穿數(shù)據(jù)策劃與主動(dòng)修復(fù)：既能識(shí)別分布空洞、定向采樣填補(bǔ)概念缺口，實(shí)現(xiàn)預(yù)訓(xùn)練分布的靶向增強(qiáng)；也能通過(guò)失敗案例（問(wèn)題圖像或文本）反查庫(kù)內(nèi)對(duì)應(yīng)簇，精準(zhǔn)剪除致錯(cuò)數(shù)據(jù)。迭代式“補(bǔ)洞+剪錯(cuò)”確保數(shù)據(jù)集穩(wěn)健，并為下游復(fù)雜任務(wù)持續(xù)輸送高質(zhì)量候選。

2.3 世界知識(shí)拓?fù)鋱D
圖譜構(gòu)建分三階段：

基于全部 Wikipedia 實(shí)體與超鏈接，先搭建全面但冗余的知識(shí)圖；
雙路剪枝：先用 PageRank [57] 剔除中心性極低的孤立節(jié)點(diǎn)，再用 VLM 篩掉無(wú)法連貫可視化的抽象或歧義概念；
為彌補(bǔ)概念覆蓋不足，引入內(nèi)部大規(guī)模帶描述圖像數(shù)據(jù)集，抽取標(biāo)簽與文本 embedding，借鑒 [72] 做自動(dòng)層次聚類(lèi)，并由 VLM 為父節(jié)點(diǎn)生成摘要，補(bǔ)全新節(jié)點(diǎn)并整理成分層樹(shù)，顯著提升圖譜結(jié)構(gòu)完整性。

最后，進(jìn)行權(quán)重分配與動(dòng)態(tài)擴(kuò)展：人工提升用戶 prompt 高頻概念權(quán)重，并主動(dòng)并入尚未入庫(kù)的新潮熱詞，保持圖譜時(shí)效性。

使用時(shí)，圖譜支撐語(yǔ)義級(jí)均衡采樣：將訓(xùn)練 caption 中的標(biāo)簽映射到圖節(jié)點(diǎn)，綜合 BM25 [63] 得分及層級(jí)父子關(guān)系，計(jì)算每一樣本的語(yǔ)義采樣權(quán)重，指導(dǎo)數(shù)據(jù)引擎分階段、有原則地抽數(shù)，實(shí)現(xiàn)對(duì)訓(xùn)練分布的細(xì)粒度控制。

2.4 主動(dòng)策劃引擎
為系統(tǒng)提升數(shù)據(jù)質(zhì)量并解決長(zhǎng)尾分布難題，我們部署了完整的主動(dòng)策劃引擎（圖 5）。該框架集成過(guò)濾工具與 Z-Image 作為診斷式生成先驗(yàn)。流程先對(duì)未整理數(shù)據(jù)做跨模態(tài)嵌入與去重，再經(jīng)規(guī)則過(guò)濾剔除低質(zhì)樣本。

為支持 Z-Image 的持續(xù)進(jìn)化，我們建立“人在回路”主動(dòng)學(xué)習(xí)循環(huán)（圖 6）：獎(jiǎng)勵(lì)模型與字幕模型同步迭代優(yōu)化。具體地，先用拓?fù)鋱D（第 2.3 節(jié)）與初始獎(jiǎng)勵(lì)模型，從無(wú)標(biāo)注媒體池中策劃均衡子集；當(dāng)前字幕模型與獎(jiǎng)勵(lì)模型為其打上偽標(biāo)簽；隨后人機(jī)混合驗(yàn)證——AI 與人工雙重把關(guān)——拒絕樣本由專(zhuān)家手動(dòng)修正字幕或分?jǐn)?shù)。這些高質(zhì)量標(biāo)注數(shù)據(jù)再用于重訓(xùn)字幕與獎(jiǎng)勵(lì)模型，形成數(shù)據(jù)基礎(chǔ)設(shè)施自我增強(qiáng)的良性循環(huán)。

2.5 基于圖表示的高效編輯對(duì)構(gòu)建
收集“指哪打哪”的編輯樣本極難：既要保持一致性，又要覆蓋千姿百態(tài)的編輯操作。借助圖 7 所示的可擴(kuò)展、可控策略，我們從多源數(shù)據(jù)快速拼出大規(guī)模訓(xùn)練語(yǔ)料。

專(zhuān)家模型混合編輯
先整理一份全覆蓋的編輯任務(wù)分類(lèi)表，再調(diào)用各任務(wù)專(zhuān)用專(zhuān)家模型批量合成高質(zhì)量數(shù)據(jù)。為提效，我們把多種編輯動(dòng)作塞進(jìn)同一張“復(fù)合編輯對(duì)”，讓模型一次學(xué)會(huì)多項(xiàng)技能，省掉多套樣本。
高效圖表示
對(duì)同一張?jiān)瓐D，我們按不同任務(wù)合成 N 張編輯圖，隨后任意兩兩配對(duì)，零成本擴(kuò)增 C(2N+1,2) 對(duì)樣本。此舉既爆炸式擴(kuò)量，又自動(dòng)產(chǎn)出“混合編輯”與“逆向編輯”對(duì)，進(jìn)一步提升訓(xùn)練效率與數(shù)據(jù)質(zhì)量。
視頻抽幀配對(duì)
預(yù)設(shè)任務(wù)易撞天花板。我們直接在大規(guī)模視頻幀里“撈”天然成組圖像：同主體、同場(chǎng)景、同風(fēng)格，自帶復(fù)雜編輯關(guān)系。用 CN-CLIP [87] 算embedding余弦相似度，只留高語(yǔ)義相關(guān)幀對(duì)。由此得到的視頻幀編輯對(duì)兼具：1) 任務(wù)多樣，2) 多編輯類(lèi)型天然耦合（如人物姿態(tài)+背景同時(shí)變），3) 規(guī)模易擴(kuò)展。
文本渲染編輯
真實(shí)圖像文本稀、分布偏，且需精確標(biāo)注操作。我們自建可控文本渲染系統(tǒng) [77]，可任意指定文字內(nèi)容、字體、顏色、大小、位置，一鍵生成成對(duì)圖像，編輯指令即渲染參數(shù)，直接破解數(shù)據(jù)瓶頸。

原文鏈接：https://arxiv.org/pdf/2511.22699v1

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.