夢瑤 發自 凹非寺
量子位 | 公眾號 QbitAI
太香了太香了,妥妥完爆ChatGPT和Nano Banana!
剛剛,ViT核心作者、Meta超級智能團隊成員Lucas Beyer連發三條帖子,怒贊通義千問不久前發布的開源模型Qwen—Image—Layered。
在他看來,這才是圖像生成的正確打開方式~
![]()
他還順便自補了一句:這個模型方向自己其實也想做來著,只是太忙,一直沒來得及動手……(笑)
實話實說,Qwen—Image—Layered模型確實不一般,因為它可以讓我們真正實現ps級別的拆圖自由。
也就是說現在圖片元素也支持精細化修改了:
![]()
連網友們看了模型效果后都不禁感嘆:咋有種開源PhotoShop的感覺,amazing啊~
![]()
所以,這套讓Lucas Beyer反復點贊的模型到底強在哪兒,咱一起來看!
圖片也能像PS一樣拆拆拆了
如果說Nano Banana技能點在生圖,那Qwen—Image—Layered模型則厲害在:《拆圖》。
相信大家都有過類似的經歷,我們平時用大模型生圖時總會碰的到一個抓狂問題,那就是圖片生成so easy,細節修改so抓狂!!!
AI生出來的圖片里,經常會有一些小細節不太到位,但我們又沒法只改局部,只能整張丟回模型重新生成,結果往往還不如上一版…
![]()
Qwen—Image—Layered模型的核心能力,就是專治「一圖定生死」這事兒的。
它能將一張普通圖片分解成多個包含透明度信息的RGBA分離圖層,實現真正意義上的圖片素材的可編輯性。
光說概念有點抽象,咱直接看例子~
![]()
在官方案例中,一張完整圖片輸入之后,模型會自動把畫面拆成6個包含不同元素的圖層,背景是背景,人物是人物,裝飾是裝飾,互不干擾。
看到這兒大家是不是突然感覺,這個非常適合用在海報制作等細節較多的圖片上??(雀實
但是Qwen—Image—Layered模型能做的還不止只是分離圖層這么簡單,我們還可以對圖層進行二次編輯修改。
比如最基礎的:改背景,不動主體。
只替換背景圖層的顏色,一張橙色背景的海報,瞬間就能換成藍色版本:
![]()
再比如,直接換主體。
保持構圖不變,把原圖里的長發女孩,換成短發女孩,幾乎看不出拼接修改痕跡:
![]()
再來看下面這個——文字編輯。
我們可以只修改圖片中的局部文字,哪怕第一次生成的文字有幻覺問題也不怕了:
![]()
除了基本的替換編輯功能外,Qwen—Image—Layered模型還支持調整元素的大小、刪除不想要的元素等等。
例如像這樣,我們可以刪除掉畫面中不想要的元素對象,只保留自己想留的畫面元素:
![]()
又或者在不拉伸、不失真的前提下,輕松調整元素的大小比例,其實有點像PS里的自由縮放功能:
![]()
值得注意的是,Qwen—Image—Layered模型分層不限于固定的圖層數量,支持可變層分解,例如我們可以根據需要將圖像分解為3層或8層:
![]()
這個能力非常適合我們在不同的編輯需求場景下使用,可以根據我們想局部編輯的元素數量多或少而定。
當然,如果只是想改文字,差不多兩三層就夠了,如果修改需求比較多比較復雜,多拆幾層反而更好操作~
除了剛才說的這些,模型還支持在已分解的圖層基礎上做進一步分解,進而實現無限分解,聽上去很像無限套娃…
![]()
像下面這位網友,用Qwen—Image—Layered把人物元素進行一次性分層處理,最后甚至可以一路拆到只剩下一個線稿層:
![]()
再來看這位網友,原本人物和背景完全糊在一起的一張圖,被模型直接拆成了主體和背景兩個獨立元素:
![]()
簡單說就是:只要畫面里不止一個元素,它就能拆、還能一直拆……
拆圖的本事來自于擴散模型
有朋友看到這兒該問了,小小模型背后能有這PS一般的能力,用的是啥神奇魔法?
不藏著掖著,Qwen—Image—Layered的核心技術,本質上是一套端到端的「擴散模型」。
它并不是用來生成圖片的那種擴散模型,而是專門為「拆圖片」這件事設計的——
模型直接輸入一張完整的RGB照片,通過擴散過程,一步步預測出多個帶透明度信息的RGBA圖層。
這里有一個繞不開的前提是:
我們平時看到的圖片其實只有RGB三個通道,但真正的圖層編輯,離不開Alpha(透明度)通道。
為此,Qwen—Image—Layered專門設計了一套四通道的RGBA-VAE,把RGB輸入和RGBA輸出,統一壓縮到同一個隱藏空間中:
![]()
具體來說,當輸入是一張普通RGB圖片時,模型會自動把Alpha通道補成1(完全不透明),在初始化階段還會聰明地復用預訓練參數,避免在透明度建模時出錯。
這樣一來,模型從一開始就「懂透明」,不同圖層也就不會被混在一起。
而且在結構上模型也不是死板拆層,它的核心Transformer—VLD-MMDiT會根據圖片復雜度,自動決定需要拆成多少層。
為了避免前一層把后一層蓋住的問題,模型還加了一套Layer3D RoPE(三維位置編碼),簡單說就是給不同圖層打上明確的層級標簽,讓模型在空間和順序上都分得清楚~
![]()
還不止如此,在隱藏空間里中,模型能夠被逐步「引導」去學會:哪些像素該屬于哪一層、哪些區域需要保留透明度、哪些內容應該被分離開來。
這樣一來哪怕圖層再多對模型來說也都是小case了~
并且在訓練策略上模型也不是從零教的,而是基于Qwen-Image預訓練生成模型逐步升級:
第一階段讓模型學會文本生成單RGBA圖層,第二階段讓模型學會擴展到多圖層合成,第三階段讓模型真正學會從圖片反向拆解多圖層。
每階段幾百K步訓練,加上重建損失和感知損失,確保語義分離干凈、不冗余。
![]()
這樣一來好處很直接,以前方法(如LayerD)要遞歸摳前景再補背景,容易積累錯誤,或者用分割+修復,遮擋區補不好。
Qwen—Image—Layered模型直接實現端到端生成完整RGBA層,避免這些問題,尤其擅長復雜遮擋、半透明和文字。
相較于Nano Banana的“一次抽圖定生死”,Qwen—Image—Layered的拆圖能力能讓Lucas Beyer這么喜歡,也就不奇怪了…
目前模型已經開源,感興趣的朋友可以試試~
github開源地址:https://github.com/QwenLM/Qwen-Image-Layered
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.