Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer
Z-Image:?jiǎn)瘟鲾U(kuò)散Transformer高效圖像生成模型
https://arxiv.org/pdf/2511.22699v1
![]()
![]()
摘要
高性能圖像生成模型的版圖目前被專(zhuān)有系統(tǒng)(如 Nano Banana Pro [27]、Seedream 4.0 [65])壟斷。主流開(kāi)源替代方案,包括 Qwen-Image [77]、Hunyuan-Image-3.0 [8] 和 FLUX.2 [36],參數(shù)量高達(dá) 200–800 億,推理與消費(fèi)級(jí)硬件微調(diào)均不現(xiàn)實(shí)。為此,我們提出 Z-Image:一款僅 60 億參數(shù)的高效基礎(chǔ)生成模型,采用可擴(kuò)展單流擴(kuò)散 Transformer(S3-DiT)架構(gòu),向“唯規(guī)模論”發(fā)起挑戰(zhàn)。通過(guò)對(duì)完整模型生命周期的系統(tǒng)優(yōu)化——從精選數(shù)據(jù)基建到精簡(jiǎn)訓(xùn)練課程——全程訓(xùn)練僅耗 31.4 萬(wàn) H800 卡時(shí)(約 63 萬(wàn)美元)。幾步蒸餾加獎(jiǎng)勵(lì)后訓(xùn)練進(jìn)一步得到 Z-Image-Turbo:在單張企業(yè)級(jí) H800 上實(shí)現(xiàn)亞秒級(jí)推理,并兼容 <16 GB 顯存的消費(fèi)級(jí)顯卡。此外,我們的全任務(wù)預(yù)訓(xùn)練范式還高效孵化了 Z-Image-Edit,一款指令跟隨能力突出的編輯模型。定量與定性實(shí)驗(yàn)均表明,Z-Image 在多項(xiàng)指標(biāo)上持平或超越頂尖對(duì)手,尤其在照片級(jí)真實(shí)圖像生成與雙語(yǔ)文字渲染上媲美頂級(jí)商業(yè)模型,證明“少算力也能 SOTA”。代碼、權(quán)重與在線演示全部開(kāi)源,推動(dòng)人人可及、預(yù)算友好且最先進(jìn)的生成模型發(fā)展。
1 引言
近年來(lái),文本到圖像(T2I)生成領(lǐng)域突飛猛進(jìn),從簡(jiǎn)陋紋理躍升至兼具照片級(jí)真實(shí)感與復(fù)雜語(yǔ)義對(duì)齊的影像 [58,18,35,77,65,8,4]。然而,隨著模型能力膨脹,其開(kāi)發(fā)與可及性壁壘也日益高企。當(dāng)下生態(tài)呈現(xiàn)兩極:一側(cè)是頂尖商業(yè)閉源模型——如 Nano Banana Pro [27]、Seedream 4.0 [65]——雖性能傲人,卻黑箱封閉,透明性與可復(fù)現(xiàn)性俱缺;另一側(cè)是開(kāi)源陣營(yíng),雖高舉民主化大旗,卻動(dòng)輒堆棧至數(shù)百億(例:Qwen-Image [77] 200 億、FLUX.2 [36] 320 億、Hunyuan-Image-3.0 [8] 800 億),令訓(xùn)練與推理成本令人望而卻步。于是,從專(zhuān)有模型蒸餾合成數(shù)據(jù)成了資源受限學(xué)術(shù)圈的“捷徑”[13,20],但這招易陷閉環(huán):誤差累積、數(shù)據(jù)同質(zhì)化,抑制超越教師模型的新視覺(jué)能力。
本文推出 Z-Image,一款強(qiáng)力擴(kuò)散 Transformer,同時(shí)向“唯規(guī)模論”與“合成蒸餾依賴”開(kāi)戰(zhàn)。我們證明:頂級(jí)圖像生成模型無(wú)需堆參,也無(wú)需蒸餾。相反,我們首次給出端到端全棧方案——從數(shù)據(jù)精選、架構(gòu)設(shè)計(jì)、訓(xùn)練策略到推理加速——全程優(yōu)化,僅用最樸素的實(shí)拍數(shù)據(jù),不借他人蒸餾。方法論的高效令整體算力開(kāi)銷(xiāo)極低:如表 1 所示,Z-Image 完整訓(xùn)練僅需 31.4 萬(wàn) H800 卡時(shí),按現(xiàn)價(jià)約 62.8 萬(wàn)美元(約 2 美元/卡時(shí) [38])。在頭部模型動(dòng)輒數(shù)倍乃至數(shù)十倍資源的當(dāng)下,這一“小投入”證明:精巧設(shè)計(jì)足以抗衡暴力擴(kuò)標(biāo)。
![]()
這一成本效率的突破,建立在四大支柱的系統(tǒng)方法論之上:
高效數(shù)據(jù)基建:資源受限場(chǎng)景下,數(shù)據(jù)基建是決定“單位時(shí)間知識(shí)獲取率”的關(guān)鍵,它既加速訓(xùn)練,也劃定能力上限。我們提出四模塊協(xié)同的數(shù)據(jù)體系:多維特征提取的 Data Profiling Engine、語(yǔ)義去重與精準(zhǔn)檢索的 Cross-modal Vector Engine、結(jié)構(gòu)化概念組織的 World Knowledge Topological Graph,以及閉環(huán)精修的 Active Curation Engine。通過(guò)細(xì)粒度數(shù)據(jù)畫(huà)像與訓(xùn)練分布編排,讓“對(duì)的數(shù)據(jù)”在“對(duì)的階段”出現(xiàn),最大化實(shí)拍數(shù)據(jù)利用率,杜絕冗余或低質(zhì)樣本帶來(lái)的算力浪費(fèi)。
高效架構(gòu):受大語(yǔ)言模型解碼器擴(kuò)展性啟發(fā),我們?cè)O(shè)計(jì) Scalable Single-Stream Multi-Modal Diffusion Transformer(S3-DiT)。不同于雙流架構(gòu)各模態(tài)獨(dú)立處理,S3-DiT 每層都實(shí)現(xiàn)緊密跨模態(tài)交互,僅用 60 億參數(shù)就達(dá)成頂尖效果,顯著降低訓(xùn)練與部署硬件門(mén)檻。緊湊體積還得益于 Prompt Enhancer(PE)補(bǔ)強(qiáng)世界知識(shí)與提示理解,進(jìn)一步緩解參數(shù)量限制。早期融合 Transformer 把文本、圖像 VAE、語(yǔ)義標(biāo)記統(tǒng)一視為令牌,一套框架無(wú)縫完成文生圖、圖生圖等多元任務(wù)。
高效訓(xùn)練策略:三階段漸進(jìn)課程。(1) 低分辨率預(yù)訓(xùn)練:固定 2562,讓模型快速獲得視覺(jué)-語(yǔ)義對(duì)齊與合成基礎(chǔ)。(2) Omni-pre-training:統(tǒng)一多任務(wù),一次性學(xué)會(huì)任意分辨率生成、文生圖、圖生圖,把高昂預(yù)算攤到多項(xiàng)能力,省去重復(fù)燒卡。(3) PE-aware 監(jiān)督微調(diào): jointly 優(yōu)化,用 PE 增強(qiáng)字幕微調(diào)主模型,Prompt Enhancer 與擴(kuò)散主干零額外 LLM 訓(xùn)練成本即可深度協(xié)同,開(kāi)發(fā)效率最大化。
高效推理:Z-Image-Turbo 僅用 8 步 NFE 即可輸出高美感、高保真圖像。關(guān)鍵來(lái)自兩項(xiàng)創(chuàng)新:Decoupled DMD [46] 把蒸餾中的“提質(zhì)量”與“穩(wěn)訓(xùn)練”角色顯式解耦;DMDR [32] 用分布匹配項(xiàng)作內(nèi)稟正則的強(qiáng)化學(xué)習(xí)。二者協(xié)同,實(shí)現(xiàn)速度-質(zhì)量零妥協(xié)的高效生成。
![]()
![]()
![]()
![]()
2 數(shù)據(jù)基礎(chǔ)設(shè)施
盡管頂尖文生圖模型的卓越能力依賴大規(guī)模訓(xùn)練數(shù)據(jù),但在算力受限條件下,性能最優(yōu)化的關(guān)鍵在于“數(shù)據(jù)效率”而非“數(shù)據(jù)規(guī)模”。單純堆量往往收益遞減;高效的訓(xùn)練管線需要一套能“每單位計(jì)算獲取最多信息”的數(shù)據(jù)基礎(chǔ)設(shè)施。理想的數(shù)據(jù)系統(tǒng)必須:概念覆蓋廣且無(wú)冗余、多語(yǔ)言圖文對(duì)齊穩(wěn)健,并支持動(dòng)態(tài)課程學(xué)習(xí)——讓數(shù)據(jù)配比隨訓(xùn)練階段演進(jìn)。為此,我們?cè)O(shè)計(jì)并落地了一套一體化的“高效數(shù)據(jù)基礎(chǔ)設(shè)施”。它遠(yuǎn)非靜態(tài)倉(cāng)庫(kù),而是一臺(tái)動(dòng)態(tài)引擎,專(zhuān)為“固定訓(xùn)練預(yù)算內(nèi)最大化知識(shí)獲取速率”而架構(gòu)。作為整套管線的基石,該基礎(chǔ)設(shè)施由四大協(xié)同核心模塊組成:
數(shù)據(jù)畫(huà)像引擎:該模塊為數(shù)據(jù)策略提供量化底座。它從原始數(shù)據(jù)中提取并計(jì)算豐富的多維特征,涵蓋低級(jí)物理屬性(如圖像元數(shù)據(jù)、清晰度指標(biāo))到高級(jí)語(yǔ)義屬性(如異常檢測(cè)、文本描述)。這些畫(huà)像不僅用于基礎(chǔ)過(guò)濾,更是衡量數(shù)據(jù)復(fù)雜度與質(zhì)量的核心信號(hào),支撐動(dòng)態(tài)學(xué)習(xí)階段課程的程序化構(gòu)建。
跨模態(tài)向量引擎:基于數(shù)十億級(jí)嵌入,該模塊保障效率與多樣性。通過(guò)大規(guī)模語(yǔ)義去重實(shí)現(xiàn)“零冗余”數(shù)據(jù)集目標(biāo);其跨模態(tài)檢索能力還能診斷并修復(fù)模型失效——精準(zhǔn)定位并剔除致錯(cuò)數(shù)據(jù),同時(shí)針對(duì)性采樣填補(bǔ)概念空白。
世界知識(shí)拓?fù)鋱D:這張結(jié)構(gòu)化知識(shí)圖譜構(gòu)成整個(gè)設(shè)施的語(yǔ)義脊梁。它按層級(jí)組織知識(shí),確保概念廣度;更重要的是,它充當(dāng)數(shù)據(jù)策劃的“語(yǔ)義羅盤(pán)”。通過(guò)圖遍歷發(fā)現(xiàn)未被充分表征的實(shí)體,及時(shí)填補(bǔ)概念空洞,并在訓(xùn)練過(guò)程中精確重平衡各概念的數(shù)據(jù)分布,實(shí)現(xiàn)更高效、更全面的學(xué)習(xí)。
主動(dòng)策劃引擎:該模塊讓基礎(chǔ)設(shè)施成為真正的動(dòng)態(tài)、自進(jìn)化系統(tǒng)。它肩負(fù)兩大協(xié)同職能:其一,作為前沿探索引擎,自動(dòng)采樣定位模型表現(xiàn)差或知識(shí)缺失的“硬案例”;其二,驅(qū)動(dòng)閉環(huán)數(shù)據(jù)標(biāo)注管線,確保每次迭代既擴(kuò)展數(shù)據(jù)集的概念廣度,又持續(xù)精煉數(shù)據(jù)質(zhì)量,從而最大化整體訓(xùn)練效率。
四大組件協(xié)同,鑄就穩(wěn)健數(shù)據(jù)基礎(chǔ)設(shè)施,不僅支撐文生圖模型訓(xùn)練,也為更廣的多模態(tài)模型提供通用底座。借助該系統(tǒng),我們順利完成了字幕模型、獎(jiǎng)勵(lì)模型及圖像編輯模型(Z-Image-Edit)等關(guān)鍵組件的訓(xùn)練。第 2.5 節(jié)將詳述基于該設(shè)施為 Z-Image-Edit 專(zhuān)門(mén)搭建的數(shù)據(jù)管線。
2.1 數(shù)據(jù)畫(huà)像引擎
Data Profiling Engine 專(zhuān)為系統(tǒng)性處理海量、未整理的版權(quán)數(shù)據(jù)池而設(shè)計(jì)。它為每一對(duì)圖文樣本計(jì)算一套全面的多維特征,支撐有原則的數(shù)據(jù)策劃。鑒于不同數(shù)據(jù)源自帶獨(dú)特偏差,引擎支持源相關(guān)的啟發(fā)式規(guī)則與采樣策略,確保訓(xùn)練語(yǔ)料均衡且高質(zhì)。畫(huà)像流程圍繞以下關(guān)鍵維度展開(kāi):
圖像元數(shù)據(jù)
首先緩存每張圖像的基本屬性:分辨率(寬高)、文件大小等,便于按分辨率/長(zhǎng)寬比快速過(guò)濾;同時(shí)計(jì)算感知哈希(pHash)作為緊湊視覺(jué)指紋,實(shí)現(xiàn)毫秒級(jí)去重,剔除相同或近似圖像。這些預(yù)計(jì)算屬性構(gòu)成數(shù)據(jù)篩選的第一道關(guān)卡。
技術(shù)質(zhì)量評(píng)估
圖像技術(shù)質(zhì)量直接決定模型上限。引擎采用多管齊下策略量化并剔除低質(zhì)樣本:
壓縮偽影:通過(guò)“理想未壓縮大小/實(shí)際大小”比例揪出過(guò)度壓縮圖。
視覺(jué)退化:內(nèi)訓(xùn)質(zhì)量模型給圖像打分,涵蓋色偏、模糊、可見(jiàn)水印、噪點(diǎn)等。
信息熵:用邊界像素方差與瞬態(tài) JPEG 重編碼的 BPP 雙指標(biāo),濾除大色塊、低復(fù)雜度圖,確保訓(xùn)練所見(jiàn)皆“干貨”。
語(yǔ)義與美學(xué)內(nèi)容
除技術(shù)質(zhì)量外,還刻畫(huà)高階語(yǔ)義與美學(xué):
美學(xué)評(píng)分:用專(zhuān)業(yè)標(biāo)注員訓(xùn)練的模型量化視覺(jué)吸引力。
AIGC 檢測(cè):依 Imagen 3 經(jīng)驗(yàn),自訓(xùn)分類(lèi)器剔除 AI 生成圖,防止輸出質(zhì)量與物理真實(shí)度下滑。
高層語(yǔ)義標(biāo)簽:專(zhuān)用 VLM 生成豐富標(biāo)簽,涵蓋通用物體、人物屬性(人數(shù)等)及中華文化相關(guān)概念;同一模型輸出 NSFW 分?jǐn)?shù),一鍵過(guò)濾無(wú)關(guān)或不適內(nèi)容。
2.2 跨模態(tài)向量引擎
我們?cè)?Stable Diffusion 3 [18] 的去重方法基礎(chǔ)上進(jìn)一步升級(jí),將其重構(gòu)為可擴(kuò)展的“基于圖的社區(qū)檢測(cè)”任務(wù)。針對(duì)原 range_search 函數(shù)的嚴(yán)重?cái)U(kuò)展瓶頸,改用高效 k-近鄰(k-NN)搜索;先由 k-NN 距離構(gòu)建鄰近圖,再運(yùn)行社區(qū)檢測(cè)算法 [69]。只要 k 足夠大,輸出即可高度逼近原算法,而時(shí)間復(fù)雜度大幅下降。整套 GPU 加速 [61] 管線在 8 張 H800 上處理 10 億樣本約需 8 小時(shí)(含索引構(gòu)建與 100-NN 查詢),既能發(fā)現(xiàn)密集簇完成去重,也可通過(guò)模塊度層級(jí)提取語(yǔ)義結(jié)構(gòu),實(shí)現(xiàn)細(xì)粒度數(shù)據(jù)平衡。
此外,我們搭建了高效檢索管線,融合多模態(tài)特征 [87] 與最先進(jìn)索引算法 [55]。其跨模態(tài)搜索能力貫穿數(shù)據(jù)策劃與主動(dòng)修復(fù):既能識(shí)別分布空洞、定向采樣填補(bǔ)概念缺口,實(shí)現(xiàn)預(yù)訓(xùn)練分布的靶向增強(qiáng);也能通過(guò)失敗案例(問(wèn)題圖像或文本)反查庫(kù)內(nèi)對(duì)應(yīng)簇,精準(zhǔn)剪除致錯(cuò)數(shù)據(jù)。迭代式“補(bǔ)洞+剪錯(cuò)”確保數(shù)據(jù)集穩(wěn)健,并為下游復(fù)雜任務(wù)持續(xù)輸送高質(zhì)量候選。
2.3 世界知識(shí)拓?fù)鋱D
圖譜構(gòu)建分三階段:
基于全部 Wikipedia 實(shí)體與超鏈接,先搭建全面但冗余的知識(shí)圖;
雙路剪枝:先用 PageRank [57] 剔除中心性極低的孤立節(jié)點(diǎn),再用 VLM 篩掉無(wú)法連貫可視化的抽象或歧義概念;
為彌補(bǔ)概念覆蓋不足,引入內(nèi)部大規(guī)模帶描述圖像數(shù)據(jù)集,抽取標(biāo)簽與文本 embedding,借鑒 [72] 做自動(dòng)層次聚類(lèi),并由 VLM 為父節(jié)點(diǎn)生成摘要,補(bǔ)全新節(jié)點(diǎn)并整理成分層樹(shù),顯著提升圖譜結(jié)構(gòu)完整性。
最后,進(jìn)行權(quán)重分配與動(dòng)態(tài)擴(kuò)展:人工提升用戶 prompt 高頻概念權(quán)重,并主動(dòng)并入尚未入庫(kù)的新潮熱詞,保持圖譜時(shí)效性。
使用時(shí),圖譜支撐語(yǔ)義級(jí)均衡采樣:將訓(xùn)練 caption 中的標(biāo)簽映射到圖節(jié)點(diǎn),綜合 BM25 [63] 得分及層級(jí)父子關(guān)系,計(jì)算每一樣本的語(yǔ)義采樣權(quán)重,指導(dǎo)數(shù)據(jù)引擎分階段、有原則地抽數(shù),實(shí)現(xiàn)對(duì)訓(xùn)練分布的細(xì)粒度控制。
2.4 主動(dòng)策劃引擎
為系統(tǒng)提升數(shù)據(jù)質(zhì)量并解決長(zhǎng)尾分布難題,我們部署了完整的主動(dòng)策劃引擎(圖 5)。該框架集成過(guò)濾工具與 Z-Image 作為診斷式生成先驗(yàn)。流程先對(duì)未整理數(shù)據(jù)做跨模態(tài)嵌入與去重,再經(jīng)規(guī)則過(guò)濾剔除低質(zhì)樣本。
![]()
為支持 Z-Image 的持續(xù)進(jìn)化,我們建立“人在回路”主動(dòng)學(xué)習(xí)循環(huán)(圖 6):獎(jiǎng)勵(lì)模型與字幕模型同步迭代優(yōu)化。具體地,先用拓?fù)鋱D(第 2.3 節(jié))與初始獎(jiǎng)勵(lì)模型,從無(wú)標(biāo)注媒體池中策劃均衡子集;當(dāng)前字幕模型與獎(jiǎng)勵(lì)模型為其打上偽標(biāo)簽;隨后人機(jī)混合驗(yàn)證——AI 與人工雙重把關(guān)——拒絕樣本由專(zhuān)家手動(dòng)修正字幕或分?jǐn)?shù)。這些高質(zhì)量標(biāo)注數(shù)據(jù)再用于重訓(xùn)字幕與獎(jiǎng)勵(lì)模型,形成數(shù)據(jù)基礎(chǔ)設(shè)施自我增強(qiáng)的良性循環(huán)。
![]()
2.5 基于圖表示的高效編輯對(duì)構(gòu)建
收集“指哪打哪”的編輯樣本極難:既要保持一致性,又要覆蓋千姿百態(tài)的編輯操作。借助圖 7 所示的可擴(kuò)展、可控策略,我們從多源數(shù)據(jù)快速拼出大規(guī)模訓(xùn)練語(yǔ)料。
![]()
專(zhuān)家模型混合編輯
先整理一份全覆蓋的編輯任務(wù)分類(lèi)表,再調(diào)用各任務(wù)專(zhuān)用專(zhuān)家模型批量合成高質(zhì)量數(shù)據(jù)。為提效,我們把多種編輯動(dòng)作塞進(jìn)同一張“復(fù)合編輯對(duì)”,讓模型一次學(xué)會(huì)多項(xiàng)技能,省掉多套樣本。高效圖表示
對(duì)同一張?jiān)瓐D,我們按不同任務(wù)合成 N 張編輯圖,隨后任意兩兩配對(duì),零成本擴(kuò)增 C(2N+1,2) 對(duì)樣本。此舉既爆炸式擴(kuò)量,又自動(dòng)產(chǎn)出“混合編輯”與“逆向編輯”對(duì),進(jìn)一步提升訓(xùn)練效率與數(shù)據(jù)質(zhì)量。視頻抽幀配對(duì)
預(yù)設(shè)任務(wù)易撞天花板。我們直接在大規(guī)模視頻幀里“撈”天然成組圖像:同主體、同場(chǎng)景、同風(fēng)格,自帶復(fù)雜編輯關(guān)系。用 CN-CLIP [87] 算embedding余弦相似度,只留高語(yǔ)義相關(guān)幀對(duì)。由此得到的視頻幀編輯對(duì)兼具:1) 任務(wù)多樣,2) 多編輯類(lèi)型天然耦合(如人物姿態(tài)+背景同時(shí)變),3) 規(guī)模易擴(kuò)展。文本渲染編輯
真實(shí)圖像文本稀、分布偏,且需精確標(biāo)注操作。我們自建可控文本渲染系統(tǒng) [77],可任意指定文字內(nèi)容、字體、顏色、大小、位置,一鍵生成成對(duì)圖像,編輯指令即渲染參數(shù),直接破解數(shù)據(jù)瓶頸。
原文鏈接:https://arxiv.org/pdf/2511.22699v1
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.