網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

像生成文字一樣生成圖像？Qwen VLo技術(shù)原理推測(cè)

2025-07-02 21:16:59　來(lái)源: 平凡AI

海外舉報(bào)

分享至

上一代Qwen的類似產(chǎn)品是Qwen-VL系列，就是Vision-Language，擁有看圖片和文字的能力，這次的模型后面加了一個(gè)o，變成了Qwen-VLo，我猜測(cè)是output的意思，也就是VLo = Vision-Language-Output。

這一點(diǎn)兒很容易理解，VL只能夠理解輸入，而VLo是可以輸出的，也就是圖片輸出功能。

這次的更新最大的亮點(diǎn)就在于這句話：

Qwen VLo 以一種漸進(jìn)式生成方式，從左到右、從上到下逐步清晰地構(gòu)建整幅圖片。

這種方式跟現(xiàn)在主流的圖片生成方式非常不同，比如stable diffusion，Midjourney這類型的工具，它們的生成機(jī)理是Diffusion，也就是擴(kuò)散模型。

就是下面這種生成方式，模型不是從一張白紙開始，而是從一張完全被隨機(jī)噪點(diǎn)（像老電視的雪花屏）覆蓋的圖片開始。

然后把所有的噪點(diǎn)微調(diào)一下，然后讓圖像從“完全混亂”到“稍微有點(diǎn)兒形狀”最后到“成品”，這個(gè)過(guò)程會(huì)重復(fù)幾十上百次，每一步都會(huì)離最終作品近一步。

而Qwen VLo的生成方式明顯不同，仔細(xì)看，它是不是從左到右，從上到下，跟寫作文一樣的展現(xiàn)出來(lái)的？

換句話說(shuō)，你有沒(méi)有覺得這個(gè)方法跟寫作文是類似的，一行行的寫，最終完成一個(gè)稿子，再想一下，這個(gè)生成邏輯是不是跟ChatGPT一樣的大模型非常的像，也是一行行寫出來(lái)的。

你再看這個(gè)生成過(guò)程，是不是覺得更像了？

因?yàn)檫@倆的生成邏輯非常的像。

我們先看AI（比如ChatGPT）是怎么寫一句話的。

當(dāng)你讓它寫：“一只可愛的小貓?jiān)赺_”

它會(huì)先預(yù)測(cè)下一個(gè)最可能的詞，比如“睡覺”。它是怎么做到的？它會(huì)回頭看已經(jīng)寫下的“一只可愛的小貓?jiān)凇保缓蟾鶕?jù)這些信息，推斷出“睡覺”是合理的。接著，如果要繼續(xù)寫，它會(huì)看“一只可愛的小貓?jiān)谒X”，再推斷下一個(gè)詞。

這個(gè)過(guò)程有幾個(gè)關(guān)鍵特點(diǎn)：

順序性：一個(gè)詞一個(gè)詞地往后寫，不能顛倒。
依賴性：后面寫的詞，嚴(yán)重依賴于前面已經(jīng)寫好的所有詞。

這種“回頭看，再向前走一步”的機(jī)制，就叫做自回歸（Auto-Regressive）。“Auto”是“自己”的意思，“Regressive”是“回歸、追溯”的意思，合起來(lái)就是“（從）自己過(guò)去（的結(jié)果）來(lái)推斷未來(lái)”。

而Qwen VLo用的方法大概率就是這種，在畫圖上其實(shí)也可以用，實(shí)際上把一張圖片分割成小塊，再排列一下，其實(shí)就把2維->1維，就像下面這樣。

您可以想象把一張圖片切成很多個(gè)小方格（比如4x4像素的圖塊），就像一張馬賽克。

然后，模型把這些小方格按數(shù)字順序拉成一條長(zhǎng)隊(duì)：1-2-3-4--16。

這樣，畫畫的任務(wù)就變成了像寫文章一樣，按順序“填寫”這一長(zhǎng)串的小方格。

那么在Qwen VLo創(chuàng)作的時(shí)候，接到指令之后，比如“生成一張可愛的柴犬”。

生成第1格：它看著指令，思考：“這幅畫的左上角（第1格）應(yīng)該是什么樣子的？” 也許是一點(diǎn)藍(lán)天背景。于是它生成了第1格。

生成第2格：現(xiàn)在，它回頭看指令和剛剛畫好的第1格，思考：“在這樣的指令和左上角這塊藍(lán)天的旁邊，第2格應(yīng)該是什么？” 也許還是藍(lán)天。于是它生成了第2格。

持續(xù)進(jìn)行：這個(gè)過(guò)程一直持續(xù)，直到最后一個(gè)小方格（右下角）被填滿。整幅圖像就像一幅十字繡，一針一線、一個(gè)格子一個(gè)格子地被繡了出來(lái)。

這就是Qwen VLo“逐步清晰地構(gòu)建整幅圖片”的機(jī)理。它的每一步?jīng)Q策都基于指令和所有“歷史創(chuàng)作”，因此邏輯性很強(qiáng)，細(xì)節(jié)也更可控。

換句話說(shuō)，它更可控，所以我覺得在未來(lái)的視頻生成中，它將會(huì)是主流。

當(dāng)然這也是我的猜測(cè)，一切的技術(shù)細(xì)節(jié)要等Qwen VLo開源或者公布技術(shù)報(bào)告才能下定論。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.