網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

字節(jié)發(fā)完阿里發(fā)！Qwen-Image 2.0火線出擊

2026-02-10 18:59:58　來(lái)源: 智東西

北京舉報(bào)

分享至

智東西
作者陳駿達(dá)
編輯李水青

字節(jié)的圖像生成模型剛發(fā)不到半天，阿里的新模型也來(lái)了！

智東西2月10日?qǐng)?bào)道，今天，阿里巴巴發(fā)布了新一代圖像生成基礎(chǔ)模型Qwen-Image 2.0，這一模型支持長(zhǎng)達(dá)一千個(gè)token的超長(zhǎng)指令、2k分辨率，并采用了更輕量的模型架構(gòu)，模型尺寸遠(yuǎn)小于Qwen-Image 2.0的20B，帶來(lái)更快的推理速度。

智東西第一時(shí)間對(duì)阿里Qwen-Image 2.0、字節(jié)Seedream 5.0 Preview以及谷歌Nano Banana Pro三款模型進(jìn)行了橫向體驗(yàn)比較，發(fā)現(xiàn)Qwen-Image 2.0在長(zhǎng)指令遵循、長(zhǎng)文本渲染方面確實(shí)具有優(yōu)勢(shì)，但在圖像生成的真實(shí)感上仍稍遜于Nano Banana Pro。

Qwen-Image 2.0的升級(jí)重點(diǎn)是文字渲染。在下方關(guān)于AB測(cè)試的官方案例中，文字的字體、排版、格式等都是由一則888個(gè)token（包含近千個(gè)中英文字詞）的超長(zhǎng)提示詞精確定義的，而Qwen-Image 2.0可以做到不錯(cuò)的還原。

Qwen-Image 2.0還能用毛筆字渲染《蘭亭集序》的全文，并且確保文字和畫面的相對(duì)協(xié)調(diào)，文字沒(méi)有遮擋畫面的山水景色和人物。細(xì)看文字部分，雖然仍然可以找到一些渲染失敗的文字，但是占比已經(jīng)很低了。

Qwen-Image 2.0還支持一次性渲染屬數(shù)十個(gè)子圖，并保持其中主體的一致性。比如，下圖就是Qwen-Image 2.0一次性生成的漫畫，一共有24個(gè)畫面，其中的人物、畫風(fēng)都較為連貫。

針對(duì)AI生圖常見(jiàn)的“油膩感”問(wèn)題，Qwen-Image 2.0也做了優(yōu)化。與前一代模型相比，Qwen-Image 2.0的色彩不會(huì)過(guò)于飽和，觀感更像實(shí)拍，AI味淡了一些。

▲從左到右：原圖、Qwen-Image-2512、Qwen-Image 2.0

阿里在AI盲測(cè)平臺(tái)AI Arena上對(duì)Qwen-Image 2.0進(jìn)行了測(cè)試，數(shù)據(jù)顯示，Qwen-Image 2.0在文生圖和圖生圖基準(zhǔn)中分別排名第三和第二，不過(guò)距離谷歌的Nano Banana Pro（圖中為Gemini-3-Pro-Image-Preview）還有一定差距。此外，這一模型暫時(shí)還沒(méi)有和剛發(fā)布的Seedream 5.0 Preview進(jìn)行對(duì)比。

千問(wèn)視覺(jué)生成負(fù)責(zé)人吳晨飛在采訪中談道，Qwen-Image項(xiàng)目2025年5月份項(xiàng)目才立項(xiàng)，去年8月份發(fā)布首款模型，此后主要圍繞生圖和編輯兩個(gè)支線迭代模型，而Qwen-Image 2.0則把生圖和編輯兩個(gè)能力整合到了一個(gè)模型中。

目前，Qwen-Image 2.0已在阿里云百煉上已開(kāi)通API邀測(cè)，用戶也可通過(guò)Qwen Chat（chat.qwen.ai）免費(fèi)體驗(yàn)新模型。千問(wèn)App產(chǎn)品經(jīng)理劉巍透露，這一模型后續(xù)將在千問(wèn)App里上線。

會(huì)后，我們還與吳晨飛和千問(wèn)大模型高級(jí)解決方案架構(gòu)師熊撼天進(jìn)行了溝通。

當(dāng)我們問(wèn)及Qwen-Image系列模型的未來(lái)規(guī)劃時(shí)，吳晨飛稱，如果用一個(gè)詞作為Qwen-Image 2.0升級(jí)的核心，那就是“信息圖”，而在未來(lái)一年，Qwen-Image團(tuán)隊(duì)會(huì)繼續(xù)研究如PPT、多圖海報(bào)、漫畫等復(fù)雜“父圖”的生成，進(jìn)一步減少幻覺(jué)和錯(cuò)誤。

此外，該團(tuán)隊(duì)還計(jì)劃在此前發(fā)布的分層模型基礎(chǔ)上，進(jìn)一步強(qiáng)化模型的分層編輯能力，目標(biāo)是讓生成模型真正成為生產(chǎn)力工具。通過(guò)AI分圖層，設(shè)計(jì)師可以靈活結(jié)合AI生成（如千問(wèn)編輯特定層）與傳統(tǒng)手段，或融合不同模型的專長(zhǎng)，實(shí)現(xiàn)“分而治之”的復(fù)雜編輯流程。

一、阿里、字節(jié)、谷歌三款模型對(duì)決，Qwen-Image 2.0文字渲染能力突出

在超長(zhǎng)提示詞任務(wù)上，我們對(duì)Qwen-Image 2.0的官方超長(zhǎng)提示詞進(jìn)行了微調(diào)，調(diào)整了部分元素的位置，看看Qwen-Image 2.0能否交付同樣質(zhì)量的生成結(jié)果。

提示詞內(nèi)容：

Qwen-Image 2.0的生成結(jié)果如下。可以看到模型還原了我們對(duì)圖片布局、字體顏色的要求，內(nèi)容也得到準(zhǔn)確呈現(xiàn)，基本沒(méi)有遺漏。

而Nano Banana Pro的生成結(jié)果明顯有更多的圖像和圖標(biāo)，設(shè)計(jì)風(fēng)格和我們要求的一樣，大部分文字也都成功渲染。美中不足的是，可以看到部分文字出現(xiàn)了模糊的問(wèn)題，已經(jīng)難以辨別。

Seedream 5.0 Preview的生成結(jié)果較我們的提示詞出現(xiàn)了一些偏差，并沒(méi)有準(zhǔn)確還原文字內(nèi)容，這在PPT等場(chǎng)景可能是較為嚴(yán)重的問(wèn)題。但是拋開(kāi)這一問(wèn)題之外，完成度還是不錯(cuò)的。

而在多子圖生成任務(wù)上，我們讓上述三款模型生成一副具有20個(gè)分鏡的漫畫，提示詞依舊較長(zhǎng)。

在經(jīng)過(guò)三次嘗試后，Qwen-Image 2.0未能完全按照我們的要求生成這張圖像。我們也對(duì)提示詞本身進(jìn)行了優(yōu)化，標(biāo)注了更為清晰的序號(hào)，但是沒(méi)能讓模型生成更準(zhǔn)確的結(jié)果。

此外，畫面中也有一些不符合常理的現(xiàn)象，比如外賣員的手機(jī)竟然安在電動(dòng)車車頭上，手機(jī)屏幕面向外側(cè)，。

▲Qwen-Image 2.0的三個(gè)生成結(jié)果

在這一任務(wù)中，Nano Banana Pro（左）和Seedream 5.0 Preview（右）拿到提示詞后都陷入了長(zhǎng)時(shí)間的推理過(guò)程，最終未能成功生成。

文字渲染之外，我們也考察了這兩款模型在圖像生成方面的表現(xiàn)。發(fā)布會(huì)中提到，超現(xiàn)實(shí)場(chǎng)景其實(shí)對(duì)圖像生成模型來(lái)說(shuō)是一大挑戰(zhàn)，如何在滿足提示詞要求的情況下保證真實(shí)感，很考驗(yàn)?zāi)Ｐ偷墓αΑ?/p>

我們向模型發(fā)送了如下提示詞：

無(wú)邊無(wú)際的海面上漂浮著一座倒置的城市，城市建筑如水晶般透明，內(nèi)部流動(dòng)著星空與光點(diǎn)。天空呈現(xiàn)撕裂般的云層結(jié)構(gòu)，巨大的月亮貼近海平面，月光化為實(shí)體的光帶纏繞在城市周圍。一名渺小的人站在水面之上，腳下泛起漣漪，現(xiàn)實(shí)與夢(mèng)境在此交匯，畫面安靜而震撼。

Qwen-Image 2.0生成的畫面其實(shí)與提示詞有一些差距，圖中的城市與其說(shuō)是倒置，不如說(shuō)是鏡像。同時(shí)，左右兩側(cè)云層的形狀是完全對(duì)稱的，在美感上較有視覺(jué)沖擊力，在真實(shí)性上稍顯欠缺。

Nano Banana Pro的生成結(jié)果則更符合我們的提示詞，還原了城市的“倒置”、云層的“撕裂感”等關(guān)鍵描述。

Seedream5.0 Preview提供了四個(gè)版本，可以看到它并沒(méi)有遵循我們提示詞中“像水晶般透明”的要求，不過(guò)其余內(nèi)容基本得到了還原。其畫風(fēng)更為科幻感一些。

二、生成、編輯融合效果1+1>2，新模型尺寸遠(yuǎn)小于1.0版本

發(fā)布會(huì)結(jié)束后，千問(wèn)視覺(jué)生成負(fù)責(zé)人吳晨飛、千問(wèn)大模型高級(jí)解決方案架構(gòu)師熊撼天與智東西等媒體進(jìn)行了溝通。

當(dāng)談及1.0版本與2.0版本相比，最大的提升在哪些領(lǐng)域，吳晨飛稱Qwen-Image 2.0主要實(shí)現(xiàn)了“多”和“真”兩個(gè)特性的融合。

“多”指的是其更強(qiáng)的文字渲染能力。Qwen-Image 2.0能在一個(gè)畫面中穩(wěn)定生成大量、復(fù)雜的文字（如完整的PPT、信息圖），錯(cuò)誤率極低，基本達(dá)到“可用”狀態(tài)，而之前的模型生成結(jié)果依然是不可用的。

“真”指圖像的真實(shí)感。1.0主要聚焦文字準(zhǔn)確性，2.0在保證文字精準(zhǔn)的同時(shí)，提升了圖像（如材質(zhì)、光影）的真實(shí)感。尤其當(dāng)文字與圖像結(jié)合時(shí)，生成結(jié)果更具真實(shí)感和代入感，減少了以往AI生圖在文字區(qū)域的模糊和虛假感。

談及融合圖像生成與編輯的選擇時(shí)，吳晨飛透露，經(jīng)過(guò)探索，他們發(fā)現(xiàn)二合一模型能實(shí)現(xiàn)能力相互促進(jìn)，達(dá)到1+1>2的效果，而非功能妥協(xié)。

文生圖中訓(xùn)練出的能力（如文字生成、圖像質(zhì)感）可以遷移到編輯任務(wù)上。例如，上傳照片“題詩(shī)”的功能，就是文生圖能力在編輯任務(wù)上的體現(xiàn)。

編輯任務(wù)訓(xùn)練能迫使基礎(chǔ)模型更好地理解語(yǔ)義變化和遵循指令，從而反哺文生圖，使其對(duì)提示詞更敏感、遵循更精確。這也是實(shí)現(xiàn)“理解-生成”一體化統(tǒng)一范式的重要一步。

此外，Qwen-Image 2.0的模型尺寸比1.0（約200億參數(shù)）顯著減小，但能力更強(qiáng)，且生成速度更快。

▲千問(wèn)視覺(jué)生成負(fù)責(zé)人吳晨飛

當(dāng)被問(wèn)及如何解決文字生成崩潰的難點(diǎn)時(shí)，吳晨飛回應(yīng)道，目前大部分生圖模型都需要用到VAE（變分自編碼器）負(fù)責(zé)圖像壓縮，小文字信息密集，壓縮難度大，因此容易出現(xiàn)文字崩壞。其團(tuán)隊(duì)提升了VAE的重構(gòu)能力，為清晰小字生成奠定基礎(chǔ)。

Qwen-Image 2.0對(duì)密集、細(xì)小文字的建模和生成能力也得到了增強(qiáng)。兩者結(jié)合，使得小文字也能清晰渲染、準(zhǔn)確顯示。

熊撼天則分享了與模型落地場(chǎng)景相關(guān)的話題。他認(rèn)為，模型能力的提升（尤其是可控性、穩(wěn)定性）使其能真正滲透到各行各業(yè)。

在電商領(lǐng)域，圖像生成模型可用于海量商品的主圖、詳情圖、廣告素材圖生成。例如，服裝行業(yè)的模特?fù)Q裝、商品屬性修改、多圖融合，以及利用“信息圖”能力生成商品詳情長(zhǎng)圖。

在醫(yī)療等專業(yè)領(lǐng)域，圖像生成模型可以將復(fù)雜的流程（如就診流程、診斷報(bào)告）通過(guò)信息圖、流程圖等形式可視化，便于理解。

他認(rèn)為，中國(guó)AIGC市場(chǎng)在應(yīng)用落地和產(chǎn)業(yè)迭代速度上具有優(yōu)勢(shì)。國(guó)內(nèi)有強(qiáng)大的應(yīng)用土壤和快速落地的能力。當(dāng)技術(shù)追平后，豐富的應(yīng)用場(chǎng)景能催生出新的產(chǎn)業(yè)鏈（如短劇），并快速反哺模型迭代。

Qwen-Image系列將與WPS等國(guó)民級(jí)應(yīng)用進(jìn)行合作，獲取真實(shí)用戶反饋和需求，并融入下一代模型開(kāi)發(fā)，形成從應(yīng)用到技術(shù)的閉環(huán)迭代。

結(jié)語(yǔ)：從玩具到生產(chǎn)力，圖像生成模型探索真實(shí)場(chǎng)景落地

從近期的發(fā)布情況來(lái)看，圖像生成領(lǐng)域的多家頭部廠商已達(dá)成共識(shí)。如今，圖像生成模型不僅僅追求生成逼真的畫面，更要滿足現(xiàn)實(shí)場(chǎng)景中對(duì)提示詞精準(zhǔn)遵循、文字準(zhǔn)確渲染等關(guān)鍵因素的需求，這些才是真正決定模型生產(chǎn)力的核心要素。

隨著模型的不斷優(yōu)化與迭代，圖像生成或許有潛力成為企業(yè)和個(gè)人在信息處理、創(chuàng)作表達(dá)及決策支持等方面的強(qiáng)大助手。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.