網易首頁 > 網易號 > 正文申請入駐

阿里開源全新圖像模型Qwen-Image-Layered，PS級圖層精準編輯生成

2025-12-22 15:45:32　來源: 量子位

北京舉報

分享至

12月22日，阿里開源全新圖像生成模型Qwen-Image-Layered，首次在模型內實現PS級的圖層理解與圖像生成。

千問新模型采用自研創新架構，可將圖片“拆解”成多個圖層，就像個專業設計師用Photoshop分層作圖修圖，可實現幾乎“零漂移”的AI圖像精準編輯，徹底解決AI生圖的一致性難題，加速大模型在專業設計領域的現實落地。

Qwen-Image-Layered打破了主流視覺大模型的“扁平式思維”，模型通過“分層”和“補全”建立起對現實世界更準確的“物理式理解”，讓AI從平面的“看圖說話”邁向真實的“空間重構”。

在當前的視覺大模型領域，圖像一致性編輯始終是一個核心挑戰。AI生圖有創意但難編輯，主要是因為大模型對圖片的理解是扁平的，是一堆像素點緊密耦合在一起，而不能像人一樣感知出圖中物體的遠近、遮擋等物理關系。

因此，讓大模型生圖和編輯就像抽卡“開盲盒”：比如你想把畫里的貓往左挪10厘米，但AI完全不知道貓左挪后空出來的背景會有什么，只能再重新生成一次，貓和背景全都變了樣。

這種“牽一發而動全身”的隨機性，讓AI繪圖在追求極致精準的商業廣告設計、UI界面設計、影視后期處理等專業領域，始終只能作為一種參考，而無法真正取代專業工具。

Qwen-Image-Layered 的出現，意味著視覺大模型從“像素預測”轉向“結構重組”。

千問團隊自研了一種全新的RGBA-VAE編碼，在傳統的RGB圖像中引入代表透明度圖層的“Alpha通道”，讓模型有了圖層的概念；同時新模型采用了創新的VLD-MMDiT架構，配合獨特的“圖層級3D位置編碼”，讓AI自動“腦補”被遮擋部分的背景紋理，實現對圖層和空間的更深入理解和生成。

據了解，為訓練這種能力，千問團隊從海量的專業Photoshop（PSD）文件中提取真實圖層邏輯，讓AI從出生起就擁有專業設計師的“分層思維”。

Qwen-Image-Layered模型架構圖

業內人士指出，千問新模型將為創意產業帶來實質性變革。AI生圖不再是死板一塊，而成為一個活生生的、可無限調整的素材庫；圖片編輯也不再需要復雜精細的人工摳圖，而是AI原生地實現了“內在可編輯性”，設計師、動畫和影視制作人員可在保持背景或主體完全不變的前提下，對特定圖層的構件進行位移、縮放或重繪，顯著提升數字內容創作的生產效率。

據了解，Qwen-Image-Layered已在魔搭社區和HuggingFace開源，開發者和企業可免費下載商用。截至目前，阿里已開源近400個千問模型，全球下載量突破7億次，衍生模型數超18萬個，是全球第一的開源模型。通義大模型已服務超100萬家客戶，在中國企業級大模型調用市場中通義位居第一，是中國企業選擇最多的大模型。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.