上一代Qwen的類似產(chǎn)品是Qwen-VL系列,就是Vision-Language,擁有看圖片和文字的能力,這次的模型后面加了一個(gè)o,變成了Qwen-VLo,我猜測(cè)是output的意思,也就是VLo = Vision-Language-Output。
這一點(diǎn)兒很容易理解,VL只能夠理解輸入,而VLo是可以輸出的,也就是圖片輸出功能。
![]()
這次的更新最大的亮點(diǎn)就在于這句話:
Qwen VLo 以一種漸進(jìn)式生成方式,從左到右、從上到下逐步清晰地構(gòu)建整幅圖片。
這種方式跟現(xiàn)在主流的圖片生成方式非常不同,比如stable diffusion,Midjourney這類型的工具,它們的生成機(jī)理是Diffusion,也就是擴(kuò)散模型。
就是下面這種生成方式,模型不是從一張白紙開始,而是從一張完全被隨機(jī)噪點(diǎn)(像老電視的雪花屏)覆蓋的圖片開始。

然后把所有的噪點(diǎn)微調(diào)一下,然后讓圖像從“完全混亂”到“稍微有點(diǎn)兒形狀”最后到“成品”,這個(gè)過(guò)程會(huì)重復(fù)幾十上百次,每一步都會(huì)離最終作品近一步。

而Qwen VLo的生成方式明顯不同,仔細(xì)看,它是不是從左到右,從上到下,跟寫作文一樣的展現(xiàn)出來(lái)的?

換句話說(shuō),你有沒(méi)有覺得這個(gè)方法跟寫作文是類似的,一行行的寫,最終完成一個(gè)稿子,再想一下,這個(gè)生成邏輯是不是跟ChatGPT一樣的大模型非常的像,也是一行行寫出來(lái)的。
你再看這個(gè)生成過(guò)程,是不是覺得更像了?

因?yàn)檫@倆的生成邏輯非常的像。
我們先看AI(比如ChatGPT)是怎么寫一句話的。
當(dāng)你讓它寫:“一只可愛的小貓?jiān)赺_”
它會(huì)先預(yù)測(cè)下一個(gè)最可能的詞,比如“睡覺”。它是怎么做到的?它會(huì)回頭看已經(jīng)寫下的“一只可愛的小貓?jiān)凇保缓蟾鶕?jù)這些信息,推斷出“睡覺”是合理的。接著,如果要繼續(xù)寫,它會(huì)看“一只可愛的小貓?jiān)谒X”,再推斷下一個(gè)詞。
這個(gè)過(guò)程有幾個(gè)關(guān)鍵特點(diǎn):
順序性:一個(gè)詞一個(gè)詞地往后寫,不能顛倒。
依賴性:后面寫的詞,嚴(yán)重依賴于前面已經(jīng)寫好的所有詞。
這種“回頭看,再向前走一步”的機(jī)制,就叫做自回歸(Auto-Regressive)。“Auto”是“自己”的意思,“Regressive”是“回歸、追溯”的意思,合起來(lái)就是“(從)自己過(guò)去(的結(jié)果)來(lái)推斷未來(lái)”。
![]()
而Qwen VLo用的方法大概率就是這種,在畫圖上其實(shí)也可以用,實(shí)際上把一張圖片分割成小塊,再排列一下,其實(shí)就把2維->1維,就像下面這樣。
您可以想象把一張圖片切成很多個(gè)小方格(比如4x4像素的圖塊),就像一張馬賽克。
![]()
然后,模型把這些小方格按數(shù)字順序拉成一條長(zhǎng)隊(duì):1-2-3-4--16。
這樣,畫畫的任務(wù)就變成了像寫文章一樣,按順序“填寫”這一長(zhǎng)串的小方格。
那么在Qwen VLo創(chuàng)作的時(shí)候,接到指令之后,比如“生成一張可愛的柴犬”。
生成第1格:它看著指令,思考:“這幅畫的左上角(第1格)應(yīng)該是什么樣子的?” 也許是一點(diǎn)藍(lán)天背景。于是它生成了第1格。
![]()
生成第2格:現(xiàn)在,它回頭看指令和剛剛畫好的第1格,思考:“在這樣的指令和左上角這塊藍(lán)天的旁邊,第2格應(yīng)該是什么?” 也許還是藍(lán)天。于是它生成了第2格。
![]()
持續(xù)進(jìn)行:這個(gè)過(guò)程一直持續(xù),直到最后一個(gè)小方格(右下角)被填滿。整幅圖像就像一幅十字繡,一針一線、一個(gè)格子一個(gè)格子地被繡了出來(lái)。
![]()
這就是Qwen VLo“逐步清晰地構(gòu)建整幅圖片”的機(jī)理。它的每一步?jīng)Q策都基于指令和所有“歷史創(chuàng)作”,因此邏輯性很強(qiáng),細(xì)節(jié)也更可控。
換句話說(shuō),它更可控,所以我覺得在未來(lái)的視頻生成中,它將會(huì)是主流。
![]()
當(dāng)然這也是我的猜測(cè),一切的技術(shù)細(xì)節(jié)要等Qwen VLo開源或者公布技術(shù)報(bào)告才能下定論。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.