![]()
智東西
作者 陳駿達(dá)
編輯 李水青
字節(jié)的圖像生成模型剛發(fā)不到半天,阿里的新模型也來(lái)了!
智東西2月10日?qǐng)?bào)道,今天,阿里巴巴發(fā)布了新一代圖像生成基礎(chǔ)模型Qwen-Image 2.0,這一模型支持長(zhǎng)達(dá)一千個(gè)token的超長(zhǎng)指令、2k分辨率,并采用了更輕量的模型架構(gòu),模型尺寸遠(yuǎn)小于Qwen-Image 2.0的20B,帶來(lái)更快的推理速度。
智東西第一時(shí)間對(duì)阿里Qwen-Image 2.0、字節(jié)Seedream 5.0 Preview以及谷歌Nano Banana Pro三款模型進(jìn)行了橫向體驗(yàn)比較,發(fā)現(xiàn)Qwen-Image 2.0在長(zhǎng)指令遵循、長(zhǎng)文本渲染方面確實(shí)具有優(yōu)勢(shì),但在圖像生成的真實(shí)感上仍稍遜于Nano Banana Pro。
Qwen-Image 2.0的升級(jí)重點(diǎn)是文字渲染。在下方關(guān)于AB測(cè)試的官方案例中,文字的字體、排版、格式等都是由一則888個(gè)token(包含近千個(gè)中英文字詞)的超長(zhǎng)提示詞精確定義的,而Qwen-Image 2.0可以做到不錯(cuò)的還原。
![]()
Qwen-Image 2.0還能用毛筆字渲染《蘭亭集序》的全文,并且確保文字和畫面的相對(duì)協(xié)調(diào),文字沒(méi)有遮擋畫面的山水景色和人物。細(xì)看文字部分,雖然仍然可以找到一些渲染失敗的文字,但是占比已經(jīng)很低了。
![]()
Qwen-Image 2.0還支持一次性渲染屬數(shù)十個(gè)子圖,并保持其中主體的一致性。比如,下圖就是Qwen-Image 2.0一次性生成的漫畫,一共有24個(gè)畫面,其中的人物、畫風(fēng)都較為連貫。
![]()
針對(duì)AI生圖常見(jiàn)的“油膩感”問(wèn)題,Qwen-Image 2.0也做了優(yōu)化。與前一代模型相比,Qwen-Image 2.0的色彩不會(huì)過(guò)于飽和,觀感更像實(shí)拍,AI味淡了一些。
![]()
▲從左到右:原圖、Qwen-Image-2512、Qwen-Image 2.0
阿里在AI盲測(cè)平臺(tái)AI Arena上對(duì)Qwen-Image 2.0進(jìn)行了測(cè)試,數(shù)據(jù)顯示,Qwen-Image 2.0在文生圖和圖生圖基準(zhǔn)中分別排名第三和第二,不過(guò)距離谷歌的Nano Banana Pro(圖中為Gemini-3-Pro-Image-Preview)還有一定差距。此外,這一模型暫時(shí)還沒(méi)有和剛發(fā)布的Seedream 5.0 Preview進(jìn)行對(duì)比。
![]()
千問(wèn)視覺(jué)生成負(fù)責(zé)人吳晨飛在采訪中談道,Qwen-Image項(xiàng)目2025年5月份項(xiàng)目才立項(xiàng),去年8月份發(fā)布首款模型,此后主要圍繞生圖和編輯兩個(gè)支線迭代模型,而Qwen-Image 2.0則把生圖和編輯兩個(gè)能力整合到了一個(gè)模型中。
![]()
目前,Qwen-Image 2.0已在阿里云百煉上已開(kāi)通API邀測(cè),用戶也可通過(guò)Qwen Chat(chat.qwen.ai)免費(fèi)體驗(yàn)新模型。千問(wèn)App產(chǎn)品經(jīng)理劉巍透露,這一模型后續(xù)將在千問(wèn)App里上線。
![]()
會(huì)后,我們還與吳晨飛和千問(wèn)大模型高級(jí)解決方案架構(gòu)師熊撼天進(jìn)行了溝通。
當(dāng)我們問(wèn)及Qwen-Image系列模型的未來(lái)規(guī)劃時(shí),吳晨飛稱,如果用一個(gè)詞作為Qwen-Image 2.0升級(jí)的核心,那就是“信息圖”,而在未來(lái)一年,Qwen-Image團(tuán)隊(duì)會(huì)繼續(xù)研究如PPT、多圖海報(bào)、漫畫等復(fù)雜“父圖”的生成,進(jìn)一步減少幻覺(jué)和錯(cuò)誤。
此外,該團(tuán)隊(duì)還計(jì)劃在此前發(fā)布的分層模型基礎(chǔ)上,進(jìn)一步強(qiáng)化模型的分層編輯能力,目標(biāo)是讓生成模型真正成為生產(chǎn)力工具。通過(guò)AI分圖層,設(shè)計(jì)師可以靈活結(jié)合AI生成(如千問(wèn)編輯特定層)與傳統(tǒng)手段,或融合不同模型的專長(zhǎng),實(shí)現(xiàn)“分而治之”的復(fù)雜編輯流程。
一、阿里、字節(jié)、谷歌三款模型對(duì)決,Qwen-Image 2.0文字渲染能力突出
在超長(zhǎng)提示詞任務(wù)上,我們對(duì)Qwen-Image 2.0的官方超長(zhǎng)提示詞進(jìn)行了微調(diào),調(diào)整了部分元素的位置,看看Qwen-Image 2.0能否交付同樣質(zhì)量的生成結(jié)果。
提示詞內(nèi)容:
![]()
Qwen-Image 2.0的生成結(jié)果如下。可以看到模型還原了我們對(duì)圖片布局、字體顏色的要求,內(nèi)容也得到準(zhǔn)確呈現(xiàn),基本沒(méi)有遺漏。
![]()
而Nano Banana Pro的生成結(jié)果明顯有更多的圖像和圖標(biāo),設(shè)計(jì)風(fēng)格和我們要求的一樣,大部分文字也都成功渲染。美中不足的是,可以看到部分文字出現(xiàn)了模糊的問(wèn)題,已經(jīng)難以辨別。
![]()
Seedream 5.0 Preview的生成結(jié)果較我們的提示詞出現(xiàn)了一些偏差,并沒(méi)有準(zhǔn)確還原文字內(nèi)容,這在PPT等場(chǎng)景可能是較為嚴(yán)重的問(wèn)題。但是拋開(kāi)這一問(wèn)題之外,完成度還是不錯(cuò)的。
![]()
而在多子圖生成任務(wù)上,我們讓上述三款模型生成一副具有20個(gè)分鏡的漫畫,提示詞依舊較長(zhǎng)。
在經(jīng)過(guò)三次嘗試后,Qwen-Image 2.0未能完全按照我們的要求生成這張圖像。我們也對(duì)提示詞本身進(jìn)行了優(yōu)化,標(biāo)注了更為清晰的序號(hào),但是沒(méi)能讓模型生成更準(zhǔn)確的結(jié)果。
此外,畫面中也有一些不符合常理的現(xiàn)象,比如外賣員的手機(jī)竟然安在電動(dòng)車車頭上,手機(jī)屏幕面向外側(cè),。
![]()
▲Qwen-Image 2.0的三個(gè)生成結(jié)果
在這一任務(wù)中,Nano Banana Pro(左)和Seedream 5.0 Preview(右)拿到提示詞后都陷入了長(zhǎng)時(shí)間的推理過(guò)程,最終未能成功生成。
![]()
文字渲染之外,我們也考察了這兩款模型在圖像生成方面的表現(xiàn)。發(fā)布會(huì)中提到,超現(xiàn)實(shí)場(chǎng)景其實(shí)對(duì)圖像生成模型來(lái)說(shuō)是一大挑戰(zhàn),如何在滿足提示詞要求的情況下保證真實(shí)感,很考驗(yàn)?zāi)P偷墓αΑ?/p>
我們向模型發(fā)送了如下提示詞:
無(wú)邊無(wú)際的海面上漂浮著一座倒置的城市,城市建筑如水晶般透明,內(nèi)部流動(dòng)著星空與光點(diǎn)。天空呈現(xiàn)撕裂般的云層結(jié)構(gòu),巨大的月亮貼近海平面,月光化為實(shí)體的光帶纏繞在城市周圍。一名渺小的人站在水面之上,腳下泛起漣漪,現(xiàn)實(shí)與夢(mèng)境在此交匯,畫面安靜而震撼。
Qwen-Image 2.0生成的畫面其實(shí)與提示詞有一些差距,圖中的城市與其說(shuō)是倒置,不如說(shuō)是鏡像。同時(shí),左右兩側(cè)云層的形狀是完全對(duì)稱的,在美感上較有視覺(jué)沖擊力,在真實(shí)性上稍顯欠缺。
![]()
Nano Banana Pro的生成結(jié)果則更符合我們的提示詞,還原了城市的“倒置”、云層的“撕裂感”等關(guān)鍵描述。
![]()
Seedream5.0 Preview提供了四個(gè)版本,可以看到它并沒(méi)有遵循我們提示詞中“像水晶般透明”的要求,不過(guò)其余內(nèi)容基本得到了還原。其畫風(fēng)更為科幻感一些。
![]()
二、生成、編輯融合效果1+1>2,新模型尺寸遠(yuǎn)小于1.0版本
發(fā)布會(huì)結(jié)束后,千問(wèn)視覺(jué)生成負(fù)責(zé)人吳晨飛、千問(wèn)大模型高級(jí)解決方案架構(gòu)師熊撼天與智東西等媒體進(jìn)行了溝通。
當(dāng)談及1.0版本與2.0版本相比,最大的提升在哪些領(lǐng)域,吳晨飛稱Qwen-Image 2.0主要實(shí)現(xiàn)了“多”和“真”兩個(gè)特性的融合。
“多”指的是其更強(qiáng)的文字渲染能力。Qwen-Image 2.0能在一個(gè)畫面中穩(wěn)定生成大量、復(fù)雜的文字(如完整的PPT、信息圖),錯(cuò)誤率極低,基本達(dá)到“可用”狀態(tài),而之前的模型生成結(jié)果依然是不可用的。
“真”指圖像的真實(shí)感。1.0主要聚焦文字準(zhǔn)確性,2.0在保證文字精準(zhǔn)的同時(shí),提升了圖像(如材質(zhì)、光影)的真實(shí)感。尤其當(dāng)文字與圖像結(jié)合時(shí),生成結(jié)果更具真實(shí)感和代入感,減少了以往AI生圖在文字區(qū)域的模糊和虛假感。
談及融合圖像生成與編輯的選擇時(shí),吳晨飛透露,經(jīng)過(guò)探索,他們發(fā)現(xiàn)二合一模型能實(shí)現(xiàn)能力相互促進(jìn),達(dá)到1+1>2的效果,而非功能妥協(xié)。
文生圖中訓(xùn)練出的能力(如文字生成、圖像質(zhì)感)可以遷移到編輯任務(wù)上。例如,上傳照片“題詩(shī)”的功能,就是文生圖能力在編輯任務(wù)上的體現(xiàn)。
編輯任務(wù)訓(xùn)練能迫使基礎(chǔ)模型更好地理解語(yǔ)義變化和遵循指令,從而反哺文生圖,使其對(duì)提示詞更敏感、遵循更精確。這也是實(shí)現(xiàn)“理解-生成”一體化統(tǒng)一范式的重要一步。
此外,Qwen-Image 2.0的模型尺寸比1.0(約200億參數(shù))顯著減小,但能力更強(qiáng),且生成速度更快。
![]()
▲千問(wèn)視覺(jué)生成負(fù)責(zé)人吳晨飛
當(dāng)被問(wèn)及如何解決文字生成崩潰的難點(diǎn)時(shí),吳晨飛回應(yīng)道,目前大部分生圖模型都需要用到VAE(變分自編碼器)負(fù)責(zé)圖像壓縮,小文字信息密集,壓縮難度大,因此容易出現(xiàn)文字崩壞。其團(tuán)隊(duì)提升了VAE的重構(gòu)能力,為清晰小字生成奠定基礎(chǔ)。
Qwen-Image 2.0對(duì)密集、細(xì)小文字的建模和生成能力也得到了增強(qiáng)。兩者結(jié)合,使得小文字也能清晰渲染、準(zhǔn)確顯示。
熊撼天則分享了與模型落地場(chǎng)景相關(guān)的話題。他認(rèn)為,模型能力的提升(尤其是可控性、穩(wěn)定性)使其能真正滲透到各行各業(yè)。
在電商領(lǐng)域,圖像生成模型可用于海量商品的主圖、詳情圖、廣告素材圖生成。例如,服裝行業(yè)的模特?fù)Q裝、商品屬性修改、多圖融合,以及利用“信息圖”能力生成商品詳情長(zhǎng)圖。
在醫(yī)療等專業(yè)領(lǐng)域,圖像生成模型可以將復(fù)雜的流程(如就診流程、診斷報(bào)告)通過(guò)信息圖、流程圖等形式可視化,便于理解。
他認(rèn)為,中國(guó)AIGC市場(chǎng)在應(yīng)用落地和產(chǎn)業(yè)迭代速度上具有優(yōu)勢(shì)。國(guó)內(nèi)有強(qiáng)大的應(yīng)用土壤和快速落地的能力。當(dāng)技術(shù)追平后,豐富的應(yīng)用場(chǎng)景能催生出新的產(chǎn)業(yè)鏈(如短劇),并快速反哺模型迭代。
Qwen-Image系列將與WPS等國(guó)民級(jí)應(yīng)用進(jìn)行合作,獲取真實(shí)用戶反饋和需求,并融入下一代模型開(kāi)發(fā),形成從應(yīng)用到技術(shù)的閉環(huán)迭代。
結(jié)語(yǔ):從玩具到生產(chǎn)力,圖像生成模型探索真實(shí)場(chǎng)景落地
從近期的發(fā)布情況來(lái)看,圖像生成領(lǐng)域的多家頭部廠商已達(dá)成共識(shí)。如今,圖像生成模型不僅僅追求生成逼真的畫面,更要滿足現(xiàn)實(shí)場(chǎng)景中對(duì)提示詞精準(zhǔn)遵循、文字準(zhǔn)確渲染等關(guān)鍵因素的需求,這些才是真正決定模型生產(chǎn)力的核心要素。
隨著模型的不斷優(yōu)化與迭代,圖像生成或許有潛力成為企業(yè)和個(gè)人在信息處理、創(chuàng)作表達(dá)及決策支持等方面的強(qiáng)大助手。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.