網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

阿里開源全新圖像模型Qwen-Image-Layered，PS級(jí)圖層精準(zhǔn)編輯生成

2025-12-22 15:45:32　來源: 量子位

北京舉報(bào)

分享至

12月22日，阿里開源全新圖像生成模型Qwen-Image-Layered，首次在模型內(nèi)實(shí)現(xiàn)PS級(jí)的圖層理解與圖像生成。

千問新模型采用自研創(chuàng)新架構(gòu)，可將圖片“拆解”成多個(gè)圖層，就像個(gè)專業(yè)設(shè)計(jì)師用Photoshop分層作圖修圖，可實(shí)現(xiàn)幾乎“零漂移”的AI圖像精準(zhǔn)編輯，徹底解決AI生圖的一致性難題，加速大模型在專業(yè)設(shè)計(jì)領(lǐng)域的現(xiàn)實(shí)落地。

Qwen-Image-Layered打破了主流視覺大模型的“扁平式思維”，模型通過“分層”和“補(bǔ)全”建立起對(duì)現(xiàn)實(shí)世界更準(zhǔn)確的“物理式理解”，讓AI從平面的“看圖說話”邁向真實(shí)的“空間重構(gòu)”。

在當(dāng)前的視覺大模型領(lǐng)域，圖像一致性編輯始終是一個(gè)核心挑戰(zhàn)。AI生圖有創(chuàng)意但難編輯，主要是因?yàn)榇竽Ｐ蛯?duì)圖片的理解是扁平的，是一堆像素點(diǎn)緊密耦合在一起，而不能像人一樣感知出圖中物體的遠(yuǎn)近、遮擋等物理關(guān)系。

因此，讓大模型生圖和編輯就像抽卡“開盲盒”：比如你想把畫里的貓往左挪10厘米，但AI完全不知道貓左挪后空出來的背景會(huì)有什么，只能再重新生成一次，貓和背景全都變了樣。

這種“牽一發(fā)而動(dòng)全身”的隨機(jī)性，讓AI繪圖在追求極致精準(zhǔn)的商業(yè)廣告設(shè)計(jì)、UI界面設(shè)計(jì)、影視后期處理等專業(yè)領(lǐng)域，始終只能作為一種參考，而無法真正取代專業(yè)工具。

Qwen-Image-Layered 的出現(xiàn)，意味著視覺大模型從“像素預(yù)測(cè)”轉(zhuǎn)向“結(jié)構(gòu)重組”。

千問團(tuán)隊(duì)自研了一種全新的RGBA-VAE編碼，在傳統(tǒng)的RGB圖像中引入代表透明度圖層的“Alpha通道”，讓模型有了圖層的概念；同時(shí)新模型采用了創(chuàng)新的VLD-MMDiT架構(gòu)，配合獨(dú)特的“圖層級(jí)3D位置編碼”，讓AI自動(dòng)“腦補(bǔ)”被遮擋部分的背景紋理，實(shí)現(xiàn)對(duì)圖層和空間的更深入理解和生成。

據(jù)了解，為訓(xùn)練這種能力，千問團(tuán)隊(duì)從海量的專業(yè)Photoshop（PSD）文件中提取真實(shí)圖層邏輯，讓AI從出生起就擁有專業(yè)設(shè)計(jì)師的“分層思維”。

Qwen-Image-Layered模型架構(gòu)圖

業(yè)內(nèi)人士指出，千問新模型將為創(chuàng)意產(chǎn)業(yè)帶來實(shí)質(zhì)性變革。AI生圖不再是死板一塊，而成為一個(gè)活生生的、可無限調(diào)整的素材庫；圖片編輯也不再需要復(fù)雜精細(xì)的人工摳圖，而是AI原生地實(shí)現(xiàn)了“內(nèi)在可編輯性”，設(shè)計(jì)師、動(dòng)畫和影視制作人員可在保持背景或主體完全不變的前提下，對(duì)特定圖層的構(gòu)件進(jìn)行位移、縮放或重繪，顯著提升數(shù)字內(nèi)容創(chuàng)作的生產(chǎn)效率。

據(jù)了解，Qwen-Image-Layered已在魔搭社區(qū)和HuggingFace開源，開發(fā)者和企業(yè)可免費(fèi)下載商用。截至目前，阿里已開源近400個(gè)千問模型，全球下載量突破7億次，衍生模型數(shù)超18萬個(gè)，是全球第一的開源模型。通義大模型已服務(wù)超100萬家客戶，在中國企業(yè)級(jí)大模型調(diào)用市場(chǎng)中通義位居第一，是中國企業(yè)選擇最多的大模型。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.